目录
一、Qwen2.5 模型:不止于 “升级” 的全方位突破
1.1 模型家族与参数规模
1.2 五大核心能力升级
1.3 先体验再部署:线上快速测试
二、部署实战:四大框架全流程指南
2.1 ModelScope 本地部署:适合开发者调试
Step 1:创建 conda 虚拟环境
Step 2:检查 CUDA 版本
Step 3:安装 PyTorch 与依赖包
Step 4:使用脚本下载模型并测试
Step 5:从ModelScope下载GLM4-9b-chat模型权重
step6:手动下载模型(适合网络受限场景)
2.2 ModelScope 线上部署:零硬件门槛,免费算力可用
Step 1:注册并绑定阿里云账号
Step 2:线上下载并运行模型
2.3 Ollama 框架部署:轻量高效,支持 Windows/Linux/Mac
2.3.1 环境要求
2.3.2 Linux/Mac 部署步骤
2.3.3 Windows 部署步骤
2.3.4 Ollama 模型管理命令
2.4 vLLM 框架部署:高性能推理,吞吐量提升 24 倍
Step 1:安装 vLLM(严格检查环境)
Step 2:启动 vLLM API 服务
Step 3:API 调用示例(Python)
三、部署选择建议:哪款框架适合你?
四、总结与资源扩展
在国产大模型领域,阿里巴巴的 Qwen(通义千问)系列一直是标杆般的存在,凭借出色的性能长期稳居各大评测榜单前列。2024 年 9 月,阿里重磅推出 Qwen2.5 系列模型,不仅覆盖多参数规模与多任务场景,还在知识储备、代码能力、数学推理等核心维度实现全面升级。本文将从模型特性解析入手,手把手教你通过 ModelScope、Ollama、vLLM 等框架完成本地与线上部署,让你快速上手这款国产顶尖大模型。
一、Qwen2.5 模型:不止于 “升级” 的全方位突破
Qwen2.5 系列并非简单的版本迭代,而是构建了覆盖基础语言、代码、数学、多模态的完整模型体系,从参数规模到核心能力均实现跨越式提升,先通过核心信息快速了解它的 “硬实力”。
1.1 模型家族与参数规模
Qwen2.5 系列涵盖不同场景的专用模型,每种模型又提供多档参数选择,满足从移动端到企业级部署的多样化需求:
模型类型 | 参数规模 | 核心用途 |
---|---|---|
Qwen2.5(基础语言) | 0.5B、1.5B、3B、7B、14B、32B、72B | 自然语言理解、文本生成、多语言处理 |
Qwen2.5-Coder(代码) | 1.5B、7B(32B ) | 代码生成、调试、编程语言理解 |
Qwen2.5-Math(数学) | 1.5B、7B、72B | 数学推理、公式计算、科学问题求解 |
Qwen2.5-VL(视觉语言) | 2B、7B、72B | 图文理解、跨模态生成 |
值得注意的是,本次 Qwen2.5 新增了3B 移动端模型和14B/32B 中等规模模型,其中 32B 版本性能甚至超越 Qwen2-72B,在 “性能 – 效率” 平衡上实现重大突破。
1.2 五大核心能力升级
相比 Qwen2 系列,Qwen2.5 的提升体现在每一个实用场景中,关键数据佐证其硬实力:
知识储备翻倍:预训练数据集从 7T tokens 扩展至 18T tokens,MMLU 基准测试中 72B 版本得分从 84.2 升至 86.1,覆盖 29 种语言,支持 128K 上下文长度(生成长文本达 8K tokens)。
代码能力跃升:Qwen2.5-72B-Instruct 在 LiveCodeBench 测试中得分从 32.2 升至 55.5,MBPP 得分从 80.2 升至 88.2,可高效生成 Python、Java 等多语言代码。
数学推理强化:整合链式推理(CoT)、程序推理(PoT)等方法,MATH 基准测试 72B 版本得分从 69.0 升至 83.1,甚至 1.5B 小模型也能与主流大模型竞争。
人类偏好对齐:Arena-Hard 测试得分从 48.1 飙升至 81.2,MT-Bench 得分从 9.12 升至 9.35,生成内容更符合人类表达习惯。
结构化数据适配:支持表格理解与 JSON 输出,指令跟随更精准,可自定义模型角色(如 “编程助手”“数学老师”)。
1.3 先体验再部署:线上快速测试
在正式部署前,可通过 Hugging Face Spaces 直接体验 Qwen2.5 的性能,无需配置环境:
访问链接:https://huggingface.co/spaces/Qwen
二、部署实战:四大框架全流程指南
Qwen2.5 支持多种部署框架,不同框架适配不同场景(本地轻量部署、线上算力、高性能推理),以下为详细步骤,新手也能轻松跟随操作。
2.1 ModelScope 本地部署:适合开发者调试
ModelScope(魔搭社区)是阿里旗下的模型平台,提供便捷的本地化部署工具,步骤如下:
Step 1:创建 conda 虚拟环境
conda 可隔离依赖包,避免版本冲突,建议使用 Python 3.10+。(qwen2_5 是你想要给环境的名称, python=3.11 指定了要安装的 Python 版本。你可以根据需要选 择不同的名称或 Python 版本):
# 创建名为qwen2_5的环境,指定Python 3.11
conda create -n qwen2_5 python=3.11
# 激活环境
conda activate qwen2_5
# 查看所有环境(可选)
conda env list
#卸载环境,需要注意的是⽆法卸载当前激活的环境,建议卸载时先切换到base环境中再执⾏操作。
conda activate base
conda env remove --name qwen2_5
Step 2:检查 CUDA 版本
需根据显卡支持的 CUDA 版本安装 PyTorch:
nvidia-smi # 查看CUDA版本(如输出12.2,需选择≤12.2的PyTorch)
Step 3:安装 PyTorch 与依赖包
1、访问PyTorch 历史版本页,复制对应 CUDA 版本的安装命令(示例为 CUDA 12.1):
当前的电脑CUDA的最⾼版本要求是12.2,所以需要找到不⼤于12.2版本的Pytorch。
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.1 -c pytorch -c nvidia
2、验证 PyTorch 安装:
python -c "import torch; print(torch.__version__)" # 输出版本号即成功
pip show torch # 查看详细信息
3、安装大模型依赖包:
# 安装transformers(≥4.37.0)、modelscope、accelerate
#Transfomers是⼤模型推理时所需要使⽤的框架,官⽅给出的建议版本是Transfomers>=4.37.0 ,通过以下指令可以下载最新版本的Transfomers:
pip install transformers -U
#下载⼯具modelscope
pip install modelscope
#下载脚本需要的依赖accelerate
pip install accelerate>=0.26.0
Step 4:使用脚本下载模型并测试
1、创建项目文件夹并编写下载脚本:
mkdir qwen2_5 && cd qwen2_5
vim download.py # 创建Python脚本
2、复制以下代码到脚本(自动下载 Qwen2.5-7B-Instruct 并测试对话):
from modelscope import AutoModelForCausalLM, AutoTokenizer
# 模型名称(可替换为其他版本,如qwen/Qwen2.5-3B-Instruct)
model_name = "qwen/Qwen2.5-7B-Instruct"
# 加载模型与分词器
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto" # 自动分配设备(GPU优先)
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 测试prompt
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
{"role": "user", "content": prompt}
]
# 生成对话格式
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# 推理生成
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512 # 最大生成token数
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
3、运行脚本,自动下载模型并输出结果:
python download.py
运行之后会首先进行下载,下载之后会自动启动对话。
成功后会显示大语言模型的介绍文本,同时可通过
查看显存占用(7B 模型约占 15G 显存)。
nvidia-smi
Step 5:从ModelScope下载GLM4-9b-chat模型权重
ModelScope下载路径如下:https://www.modelscope.cn/models/Qwen/Qwen2.5-7B-Instruct/summary
ModelScope⽀持多种下载模式:SDK下载、Git下载、命令⾏下载(下载完整模型、下载单个⽂ 件后直接加⽂件名即可)、⼿动下载。如图:
step6:手动下载模型(适合网络受限场景)
访问 ModelScope 模型页:Qwen2.5-7B-Instruct
手动点击每个文件的 “下载” 按钮(如 config.json、model-00001-of-00004.safetensors)
将下载的文件放入本地文件夹(如
),再运行上述脚本即可加载本地模型。
/root/.cache/modelscope/hub/qwen/Qwen2.5-7B-Instruct
2.2 ModelScope 线上部署:零硬件门槛,免费算力可用
若本地无高性能显卡,可使用 ModelScope 的线上 Notebook,免费获得 CPU(8 核 32G)与 GPU(32G 显存,36 小时限时)算力:
Step 1:注册并绑定阿里云账号
访问ModelScope 官网,注册账号后点击 “个人中心 – 绑定阿里云账号”(新用户自动赠送免费算力)。
进入 “我的 Notebook”,选择 “GPU 环境 – 方式二”,点击 “启动”(预装 PyTorch、CUDA、transformers 等依赖)。
Step 2:线上下载并运行模型
1、启动 Notebook 后,打开 Terminal 终端,执行以下命令:
# 创建文件夹并下载模型
mkdir qwen2_5 && cd qwen2_5
modelscope download --model Qwen/Qwen2.5-7B-Instruct # 自动下载模型文件
2、后续步骤与本地部署一致,编写
脚本并运行,即可利用线上 GPU 推理。
download.py
2.3 Ollama 框架部署:轻量高效,支持 Windows/Linux/Mac
Ollama 是开源轻量框架,专注于简化本地模型管理,支持一键下载运行,适合快速体验:
Ollama下载地址:https://ollama.com/download
Ollama⽀持的模型列表:https://ollama.com/library
2.3.1 环境要求
Windows:RTX 3060 + 显卡(8G 显存)、16G 内存、20G 硬盘
Mac:M1/M2 芯片、16G 内存、20G 硬盘
Linux:同 Windows 硬件要求
2.3.2 Linux/Mac 部署步骤
1、安装 Ollama:
curl -fsSL https://ollama.com/install.sh | sh
# 验证安装(输出版本号即成功)
ollama -v
2、一键下载并运行 Qwen2.5(以 7B 模型为例):
# 下载并启动Qwen2.5-7B(自动进入对话模式)
ollama run qwen2.5:7b
# 若需运行72B模型(需充足显存)
ollama run qwen2.5:72b
3、交互与退出:
直接输入问题(如 “9.8 和 9.11 哪个大”),模型实时响应
输入
退出对话
/bye
2.3.3 Windows 部署步骤
1、下载 Ollama 安装包:访问Ollama 官网,点击 “Download for Windows”(约 664MB)。
2、安装并修改模型路径(默认 C 盘,建议改到 D 盘):
桌面搜索 “高级系统设置”→“环境变量”→“新建系统变量”
变量名:
,变量值:
OLLAMA_MODELS
(自定义路径)
D:Ollamamodels
3、启动命令行(Win+R 输入
),运行模型:
cmd
# 下载并启动Qwen2.5-0.5B(轻量版,CPU可运行)
ollama run qwen2.5:0.5b
2.3.4 Ollama 模型管理命令
ollama list # 查看已下载模型
ollama rm qwen2.5:7b # 删除指定模型
ollama pull qwen2.5:14b # 仅下载模型不运行
2.4 vLLM 框架部署:高性能推理,吞吐量提升 24 倍
vLLM 是专为大模型优化的推理框架,通过 PagedAttention 技术提升显存利用率,吞吐量比 Hugging Face 高 24 倍,适合企业级高并发场景。
Step 1:安装 vLLM(严格检查环境)
vLLM 对 Python、CUDA 版本要求严格:
Python:3.8~3.11
CUDA:11.8 或 12.1
PyTorch:≥2.0
1、验证环境:
python -c "import sys, torch; print('Python:', sys.version); print('PyTorch:', torch.__version__); print('CUDA:', torch.version.cuda if torch.cuda.is_available() else '不可用')"
2、安装 vLLM(≥0.4.0):
pip install vllm -U # 安装最新版
# 或指定版本
pip install vllm==0.4.3
# 验证安装
pip show vllm
Step 2:启动 vLLM API 服务
1、从 ModelScope 加载模型(需设置环境变量切换源,避免翻墙):
# 设置使用ModelScope源
export VLLM_USE_MODELSCOPE=True
# 启动API服务器(模型路径替换为本地路径或ModelScope模型名)
python -m vllm.entrypoints.openai.api_server --served-model-name Qwen2.5-7B-Instruct --model qwen/Qwen2.5-7B-Instruct
2、服务启动后,默认监听
,支持 OpenAI 风格 API 调用。
http://localhost:8000
Step 3:API 调用示例(Python)
from openai import OpenAI
# 连接vLLM服务
client = OpenAI(
api_key="EMPTY", # 无需真实API密钥
base_url="http://localhost:8000/v1" # vLLM服务地址
)
# 发送对话请求
chat_response = client.chat.completions.create(
model="Qwen2.5-7B-Instruct",
messages=[
{"role": "system", "content": "你是人工智能助手。"},
{"role": "user", "content": "介绍一下你自己。"}
]
)
print("Chat response:", chat_response.choices[0].message.content)
三、部署选择建议:哪款框架适合你?
框架 | 优势 | 适用场景 | 推荐模型规模 |
---|---|---|---|
ModelScope 本地 | 依赖管理清晰,支持自定义开发 | 开发者调试、二次开发 | 7B~14B |
ModelScope 线上 | 零硬件成本,预装环境 | 新手体验、轻量测试 | 7B~32B |
Ollama | 一键部署,跨平台支持 | 快速体验、本地轻量使用 | 0.5B~14B |
vLLM | 高性能推理,高并发支持 | 企业级服务、高吞吐量需求 | 14B~72B |
四、总结与资源扩展
Qwen2.5 作为国产大模型的代表,不仅在性能上对标国际主流模型,还通过开源策略降低了开发者使用门槛。无论是本地调试、线上体验还是高性能部署,都能找到适配的框架。
官方资源:
Qwen2.5 官网:Qwen2.5-LLM:扩展大型语言模型的边界 | Qwen
ModelScope 模型库:通义千问2.5-7B-Instruct
vLLM 文档:vLLM
如果在部署过程中遇到问题(如显存不足、依赖冲突),可查看官方文档或在 ModelScope 社区、Ollama GitHub Issues 中寻求帮助。