一文读懂 Qwen2.5：从模型特性到多框架部署全指南

内容分享4天前发布

1 0 0

一、Qwen2.5 模型：不止于 “升级” 的全方位突破

1.1 模型家族与参数规模

1.2 五大核心能力升级

1.3 先体验再部署：线上快速测试

二、部署实战：四大框架全流程指南

2.1 ModelScope 本地部署：适合开发者调试

Step 1：创建 conda 虚拟环境

Step 2：检查 CUDA 版本

Step 3：安装 PyTorch 与依赖包

Step 4：使用脚本下载模型并测试

Step 5：从ModelScope下载GLM4-9b-chat模型权重

step6：手动下载模型（适合网络受限场景）

2.2 ModelScope 线上部署：零硬件门槛，免费算力可用

Step 1：注册并绑定阿里云账号

Step 2：线上下载并运行模型

2.3 Ollama 框架部署：轻量高效，支持 Windows/Linux/Mac

2.3.1 环境要求

2.3.2 Linux/Mac 部署步骤

2.3.3 Windows 部署步骤

2.3.4 Ollama 模型管理命令

2.4 vLLM 框架部署：高性能推理，吞吐量提升 24 倍

Step 1：安装 vLLM（严格检查环境）

Step 2：启动 vLLM API 服务

Step 3：API 调用示例（Python）

三、部署选择建议：哪款框架适合你？

四、总结与资源扩展

在国产大模型领域，阿里巴巴的 Qwen（通义千问）系列一直是标杆般的存在，凭借出色的性能长期稳居各大评测榜单前列。2024 年 9 月，阿里重磅推出 Qwen2.5 系列模型，不仅覆盖多参数规模与多任务场景，还在知识储备、代码能力、数学推理等核心维度实现全面升级。本文将从模型特性解析入手，手把手教你通过 ModelScope、Ollama、vLLM 等框架完成本地与线上部署，让你快速上手这款国产顶尖大模型。

一、Qwen2.5 模型：不止于 “升级” 的全方位突破

Qwen2.5 系列并非简单的版本迭代，而是构建了覆盖基础语言、代码、数学、多模态的完整模型体系，从参数规模到核心能力均实现跨越式提升，先通过核心信息快速了解它的 “硬实力”。

1.1 模型家族与参数规模

Qwen2.5 系列涵盖不同场景的专用模型，每种模型又提供多档参数选择，满足从移动端到企业级部署的多样化需求：

模型类型	参数规模	核心用途
Qwen2.5（基础语言）	0.5B、1.5B、3B、7B、14B、32B、72B	自然语言理解、文本生成、多语言处理
Qwen2.5-Coder（代码）	1.5B、7B（32B ）	代码生成、调试、编程语言理解
Qwen2.5-Math（数学）	1.5B、7B、72B	数学推理、公式计算、科学问题求解
Qwen2.5-VL（视觉语言）	2B、7B、72B	图文理解、跨模态生成

值得注意的是，本次 Qwen2.5 新增了3B 移动端模型和14B/32B 中等规模模型，其中 32B 版本性能甚至超越 Qwen2-72B，在 “性能 – 效率” 平衡上实现重大突破。

1.2 五大核心能力升级

相比 Qwen2 系列，Qwen2.5 的提升体现在每一个实用场景中，关键数据佐证其硬实力：

知识储备翻倍：预训练数据集从 7T tokens 扩展至 18T tokens，MMLU 基准测试中 72B 版本得分从 84.2 升至 86.1，覆盖 29 种语言，支持 128K 上下文长度（生成长文本达 8K tokens）。

代码能力跃升：Qwen2.5-72B-Instruct 在 LiveCodeBench 测试中得分从 32.2 升至 55.5，MBPP 得分从 80.2 升至 88.2，可高效生成 Python、Java 等多语言代码。

数学推理强化：整合链式推理（CoT）、程序推理（PoT）等方法，MATH 基准测试 72B 版本得分从 69.0 升至 83.1，甚至 1.5B 小模型也能与主流大模型竞争。

人类偏好对齐：Arena-Hard 测试得分从 48.1 飙升至 81.2，MT-Bench 得分从 9.12 升至 9.35，生成内容更符合人类表达习惯。

结构化数据适配：支持表格理解与 JSON 输出，指令跟随更精准，可自定义模型角色（如 “编程助手”“数学老师”）。

1.3 先体验再部署：线上快速测试

在正式部署前，可通过 Hugging Face Spaces 直接体验 Qwen2.5 的性能，无需配置环境：

访问链接：https://huggingface.co/spaces/Qwen

一文读懂 Qwen2.5：从模型特性到多框架部署全指南

二、部署实战：四大框架全流程指南

Qwen2.5 支持多种部署框架，不同框架适配不同场景（本地轻量部署、线上算力、高性能推理），以下为详细步骤，新手也能轻松跟随操作。

2.1 ModelScope 本地部署：适合开发者调试

ModelScope（魔搭社区）是阿里旗下的模型平台，提供便捷的本地化部署工具，步骤如下：

Step 1：创建 conda 虚拟环境

conda 可隔离依赖包，避免版本冲突，建议使用 Python 3.10+。（qwen2_5 是你想要给环境的名称， python=3.11 指定了要安装的 Python 版本。你可以根据需要选择不同的名称或 Python 版本）：



# 创建名为qwen2_5的环境，指定Python 3.11

conda create -n qwen2_5 python=3.11

# 激活环境

conda activate qwen2_5

# 查看所有环境（可选）

conda env list

#卸载环境，需要注意的是⽆法卸载当前激活的环境，建议卸载时先切换到base环境中再执⾏操作。

conda activate base

conda env remove --name qwen2_5

Step 2：检查 CUDA 版本

需根据显卡支持的 CUDA 版本安装 PyTorch：


nvidia-smi  # 查看CUDA版本（如输出12.2，需选择≤12.2的PyTorch）

Step 3：安装 PyTorch 与依赖包

1、访问PyTorch 历史版本页，复制对应 CUDA 版本的安装命令（示例为 CUDA 12.1）：

一文读懂 Qwen2.5：从模型特性到多框架部署全指南

当前的电脑CUDA的最⾼版本要求是12.2，所以需要找到不⼤于12.2版本的Pytorch。

一文读懂 Qwen2.5：从模型特性到多框架部署全指南


conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.1 -c pytorch -c nvidia

2、验证 PyTorch 安装：



python -c "import torch; print(torch.__version__)"  # 输出版本号即成功

pip show torch  # 查看详细信息

3、安装大模型依赖包：



# 安装transformers（≥4.37.0）、modelscope、accelerate

#Transfomers是⼤模型推理时所需要使⽤的框架，官⽅给出的建议版本是Transfomers>=4.37.0 ，通过以下指令可以下载最新版本的Transfomers：
 
pip install transformers -U

#下载⼯具modelscope
pip install modelscope

#下载脚本需要的依赖accelerate
pip install accelerate>=0.26.0

Step 4：使用脚本下载模型并测试

1、创建项目文件夹并编写下载脚本：



mkdir qwen2_5 && cd qwen2_5

vim download.py  # 创建Python脚本

2、复制以下代码到脚本（自动下载 Qwen2.5-7B-Instruct 并测试对话）：



from modelscope import AutoModelForCausalLM, AutoTokenizer

# 模型名称（可替换为其他版本，如qwen/Qwen2.5-3B-Instruct）

model_name = "qwen/Qwen2.5-7B-Instruct"

# 加载模型与分词器

model = AutoModelForCausalLM.from_pretrained(

   model_name,

   torch_dtype="auto",

   device_map="auto"  # 自动分配设备（GPU优先）

)

tokenizer = AutoTokenizer.from_pretrained(model_name)

# 测试prompt

prompt = "Give me a short introduction to large language model."

messages = [

   {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},

   {"role": "user", "content": prompt}

]

# 生成对话格式

text = tokenizer.apply_chat_template(

   messages,

   tokenize=False,

   add_generation_prompt=True

)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 推理生成

generated_ids = model.generate(

   **model_inputs,

   max_new_tokens=512  # 最大生成token数

)

generated_ids = [

   output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)

]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(response)

3、运行脚本，自动下载模型并输出结果：


python download.py

运行之后会首先进行下载，下载之后会自动启动对话。

成功后会显示大语言模型的介绍文本，同时可通过nvidia-smi查看显存占用（7B 模型约占 15G 显存）。

Step 5：从ModelScope下载GLM4-9b-chat模型权重

ModelScope下载路径如下：https://www.modelscope.cn/models/Qwen/Qwen2.5-7B-Instruct/summary

ModelScope⽀持多种下载模式：SDK下载、Git下载、命令⾏下载（下载完整模型、下载单个⽂件后直接加⽂件名即可）、⼿动下载。如图：

一文读懂 Qwen2.5：从模型特性到多框架部署全指南

step6：手动下载模型（适合网络受限场景）

访问 ModelScope 模型页：Qwen2.5-7B-Instruct

手动点击每个文件的 “下载” 按钮（如 config.json、model-00001-of-00004.safetensors）

将下载的文件放入本地文件夹（如/root/.cache/modelscope/hub/qwen/Qwen2.5-7B-Instruct），再运行上述脚本即可加载本地模型。

一文读懂 Qwen2.5：从模型特性到多框架部署全指南

2.2 ModelScope 线上部署：零硬件门槛，免费算力可用

若本地无高性能显卡，可使用 ModelScope 的线上 Notebook，免费获得 CPU（8 核 32G）与 GPU（32G 显存，36 小时限时）算力：

Step 1：注册并绑定阿里云账号

访问ModelScope 官网，注册账号后点击 “个人中心 – 绑定阿里云账号”（新用户自动赠送免费算力）。

进入 “我的 Notebook”，选择 “GPU 环境 – 方式二”，点击 “启动”（预装 PyTorch、CUDA、transformers 等依赖）。

Step 2：线上下载并运行模型

1、启动 Notebook 后，打开 Terminal 终端，执行以下命令：



# 创建文件夹并下载模型

mkdir qwen2_5 && cd qwen2_5

modelscope download --model Qwen/Qwen2.5-7B-Instruct  # 自动下载模型文件

2、后续步骤与本地部署一致，编写download.py脚本并运行，即可利用线上 GPU 推理。

2.3 Ollama 框架部署：轻量高效，支持 Windows/Linux/Mac

Ollama 是开源轻量框架，专注于简化本地模型管理，支持一键下载运行，适合快速体验：

Ollama下载地址：https://ollama.com/download

Ollama⽀持的模型列表：https://ollama.com/library

一文读懂 Qwen2.5：从模型特性到多框架部署全指南

2.3.1 环境要求

Windows：RTX 3060 + 显卡（8G 显存）、16G 内存、20G 硬盘

Mac：M1/M2 芯片、16G 内存、20G 硬盘

Linux：同 Windows 硬件要求

2.3.2 Linux/Mac 部署步骤

1、安装 Ollama：



curl -fsSL https://ollama.com/install.sh | sh

# 验证安装（输出版本号即成功）

ollama -v

2、一键下载并运行 Qwen2.5（以 7B 模型为例）：



# 下载并启动Qwen2.5-7B（自动进入对话模式）

ollama run qwen2.5:7b

# 若需运行72B模型（需充足显存）

ollama run qwen2.5:72b

一文读懂 Qwen2.5：从模型特性到多框架部署全指南

3、交互与退出：

直接输入问题（如 “9.8 和 9.11 哪个大”），模型实时响应

输入/bye退出对话

2.3.3 Windows 部署步骤

1、下载 Ollama 安装包：访问Ollama 官网，点击 “Download for Windows”（约 664MB）。

2、安装并修改模型路径（默认 C 盘，建议改到 D 盘）：

桌面搜索 “高级系统设置”→“环境变量”→“新建系统变量”

变量名：OLLAMA_MODELS，变量值：D:Ollamamodels（自定义路径）

3、启动命令行（Win+R 输入cmd），运行模型：



# 下载并启动Qwen2.5-0.5B（轻量版，CPU可运行）

ollama run qwen2.5:0.5b

2.3.4 Ollama 模型管理命令



ollama list  # 查看已下载模型

ollama rm qwen2.5:7b  # 删除指定模型

ollama pull qwen2.5:14b  # 仅下载模型不运行

2.4 vLLM 框架部署：高性能推理，吞吐量提升 24 倍

vLLM 是专为大模型优化的推理框架，通过 PagedAttention 技术提升显存利用率，吞吐量比 Hugging Face 高 24 倍，适合企业级高并发场景。

Step 1：安装 vLLM（严格检查环境）

vLLM 对 Python、CUDA 版本要求严格：

Python：3.8~3.11

CUDA：11.8 或 12.1

PyTorch：≥2.0

1、验证环境：


python -c "import sys, torch; print('Python:', sys.version); print('PyTorch:', torch.__version__); print('CUDA:', torch.version.cuda if torch.cuda.is_available() else '不可用')"

2、安装 vLLM（≥0.4.0）：



pip install vllm -U  # 安装最新版

# 或指定版本

pip install vllm==0.4.3

# 验证安装

pip show vllm

Step 2：启动 vLLM API 服务

1、从 ModelScope 加载模型（需设置环境变量切换源，避免翻墙）：



# 设置使用ModelScope源

export VLLM_USE_MODELSCOPE=True

# 启动API服务器（模型路径替换为本地路径或ModelScope模型名）

python -m vllm.entrypoints.openai.api_server --served-model-name Qwen2.5-7B-Instruct --model qwen/Qwen2.5-7B-Instruct

2、服务启动后，默认监听http://localhost:8000，支持 OpenAI 风格 API 调用。

Step 3：API 调用示例（Python）



from openai import OpenAI

# 连接vLLM服务

client = OpenAI(

   api_key="EMPTY",  # 无需真实API密钥

   base_url="http://localhost:8000/v1"  # vLLM服务地址

)

# 发送对话请求

chat_response = client.chat.completions.create(

   model="Qwen2.5-7B-Instruct",

   messages=[

       {"role": "system", "content": "你是人工智能助手。"},

       {"role": "user", "content": "介绍一下你自己。"}

   ]

)

print("Chat response:", chat_response.choices[0].message.content)

三、部署选择建议：哪款框架适合你？

框架	优势	适用场景	推荐模型规模
ModelScope 本地	依赖管理清晰，支持自定义开发	开发者调试、二次开发	7B~14B
ModelScope 线上	零硬件成本，预装环境	新手体验、轻量测试	7B~32B
Ollama	一键部署，跨平台支持	快速体验、本地轻量使用	0.5B~14B
vLLM	高性能推理，高并发支持	企业级服务、高吞吐量需求	14B~72B