央视实测国产大模型：DeepSeek、Kimi、通义，谁最能打？

央视网昨天（5月17日）播出了一期实测报道：国产大模型”集体更新”后，能力到底有多强？

记者拿了同一个任务，分别跑DeepSeek V4、Kimi K2、通义千问Qwen3——三家国产头部大模型，在同一个测试标准下比了一场。

结果有点出人意料。

编程能力：DeepSeek一骑绝尘

编程是大模型能力的”试金石”，也是程序员最关心的维度。

实测下来，DeepSeek V4表现最强：复杂代码生成、多文件联动修改、Bug定位，都明显优于另外两家。1M token的上下文窗口，可以把一整个中型代码仓库直接塞进去，让模型全局理解项目结构后再改代码。

Kimi K2在编程上反而偏科——它的强项在长文档处理和知识问答，写代码不是主攻方向，表现中规中矩。

通义千问Qwen3编程能力在三者中排第二，但跟DeepSeek V4有明显差距，尤其在复杂逻辑推理和大型项目理解上。

一句话结论：写代码选DeepSeek，没争议。

推理（Reasoning）考验模型”想不想得到”的能力，不只是”知不知道”。

这一项，Kimi K2反而扳回一城。Kimi的长推理链（Long CoT）在复杂逻辑题、多步推理任务上表现突出，某些场景下甚至接近Claude Opus的水准。

DeepSeek V4推理能力强，但偶尔会”想太多”——推理链过长导致简单问题复杂化，反而给出错误答案。

通义千问Qwen3推理能力最均衡，不强不弱，但胜在稳定，不会出现特别离谱的推理错误。

一句话结论：复杂推理选Kimi，稳定输出选通义。

能力是一方面，价格是另一方面——而价格，才是国产模型真正”掀桌子”的武器。

差距有多大？DeepSeek V4 Flash的价格，只有GPT-5.5的不到1/100。

央视在报道里说了一句很关键的话：”以前用一次大模型API要几块钱，目前中小团队几千块钱就能覆盖全年的模型使用成本。”

这才是国产模型集体更新背后，真正值得关注的事。

央视实测的结论，实则跟普通用户最关心的使用场景直接相关：

国产大模型打到这个价格，GPT和Claude真正的护城河，已经不是”能力强”，而是”生态绑定”了。

你怎么看？你用国产模型多还是GPT多？评论区聊聊。

参考来源

央视网：国产大模型”集体”更新后能力有多强？记者实测：https://news.cctv.com/2026/05/17/ARTIUUekaDVugGawlh5fLIjH260517.shtml
搜狐：2026年AI模型大乱斗：GPT-5.5卖天价，国产模型已经打到一毛一了：https://www.sohu.com/a/1020657494_116365
AIToolCN：国产大模型怎么选？2026 DeepSeek、Kimi、豆包、通义对比：https://aitoolcn.com/compare/chinese-ai-models-2026