
央视网昨天(5月17日)播出了一期实测报道:国产大模型”集体更新”后,能力到底有多强?
记者拿了同一个任务,分别跑DeepSeek V4、Kimi K2、通义千问Qwen3——三家国产头部大模型,在同一个测试标准下比了一场。
结果有点出人意料。
编程能力:DeepSeek一骑绝尘
编程是大模型能力的”试金石”,也是程序员最关心的维度。
实测下来,DeepSeek V4表现最强:复杂代码生成、多文件联动修改、Bug定位,都明显优于另外两家。1M token的上下文窗口,可以把一整个中型代码仓库直接塞进去,让模型全局理解项目结构后再改代码。
Kimi K2在编程上反而偏科——它的强项在长文档处理和知识问答,写代码不是主攻方向,表现中规中矩。
通义千问Qwen3编程能力在三者中排第二,但跟DeepSeek V4有明显差距,尤其在复杂逻辑推理和大型项目理解上。
一句话结论:写代码选DeepSeek,没争议。
推理能力:三家各有胜负
推理(Reasoning)考验模型”想不想得到”的能力,不只是”知不知道”。
这一项,Kimi K2反而扳回一城。Kimi的长推理链(Long CoT)在复杂逻辑题、多步推理任务上表现突出,某些场景下甚至接近Claude Opus的水准。
DeepSeek V4推理能力强,但偶尔会”想太多”——推理链过长导致简单问题复杂化,反而给出错误答案。
通义千问Qwen3推理能力最均衡,不强不弱,但胜在稳定,不会出现特别离谱的推理错误。
一句话结论:复杂推理选Kimi,稳定输出选通义。
价格:这才是国产模型真正的杀手锏
能力是一方面,价格是另一方面——而价格,才是国产模型真正”掀桌子”的武器。
|
模型 |
价格(元/百万token) |
上下文窗口 |
|
DeepSeek V4 Flash |
~1元 |
1M |
|
Kimi K2 |
~3元 |
128K |
|
通义千问Qwen3 |
~2元 |
128K |
|
GPT-5.5 |
~150元 |
200K |
差距有多大?DeepSeek V4 Flash的价格,只有GPT-5.5的不到1/100。
央视在报道里说了一句很关键的话:”以前用一次大模型API要几块钱,目前中小团队几千块钱就能覆盖全年的模型使用成本。”
这才是国产模型集体更新背后,真正值得关注的事。
怎么选?
央视实测的结论,实则跟普通用户最关心的使用场景直接相关:
- 写代码、技术任务 → DeepSeek V4,不用犹豫
- 读长文档、写分析报告 → Kimi K2,128K上下文够用
- 日常助手、稳定输出 → 通义千问Qwen3,阿里生态整合好
- 预算极度有限 → DeepSeek V4 Flash,1元/百万token,几乎白送
国产大模型打到这个价格,GPT和Claude真正的护城河,已经不是”能力强”,而是”生态绑定”了。
你怎么看?你用国产模型多还是GPT多?评论区聊聊。
参考来源
- 央视网:国产大模型”集体”更新后能力有多强?记者实测:https://news.cctv.com/2026/05/17/ARTIUUekaDVugGawlh5fLIjH260517.shtml
- 搜狐:2026年AI模型大乱斗:GPT-5.5卖天价,国产模型已经打到一毛一了:https://www.sohu.com/a/1020657494_116365
- AIToolCN:国产大模型怎么选?2026 DeepSeek、Kimi、豆包、通义对比:https://aitoolcn.com/compare/chinese-ai-models-2026


