2025年4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3)正式发布,采用了MOE(混合专家)和dense(稠密)两种模式,是国内首个混合推理模型,一经发布就登顶了全球最强开源模型。在https://ollama.com官网上看到也第一时间上线了这个模型,上线仅7小时,模型下载就达到了53.3K次。这必须得尝鲜部署一下。
测试机配置:海光3350CPU、80G内存、NVIDIA4060GPU、Windows10操作系统。
参考网页上的提示,以4b参数版本为例,下载和运行的命令是:ollama run qwen3:4b,限于测试机器配置限制,选择了几个量化版本进行实验,结果记录如下:
1、测试机原本部署的0.6.5版本的ollama无法正常加载qwen3模型,需要先从ollama官网下载并安装最新的ollama软件,2025年4月25日最新的windows版本ollama是0.6.6,升级后模型运行正常。
2、默认配置下生成时有think过程,在ollama默认的终端模式下使用/set verbose打开统计信息显示,不同模型的简要记录如下:
1)qwen3:4b:
模型大小:2.6GB
处理速度(prompt eval rate):27.25 tokens/s
生成速度(eval rate):67.29 tokens/s
2)qwen3:8b:
模型大小:5.2GB
处理速度(prompt eval rate):22.54 tokens/s
生成速度(eval rate): 43.11 tokens/s

上线7小时,ollama下载次数53.3K

小参数模型运行速度不错
其他模型继续尝试,有结果后再在评论区补充。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


