Mark投研备忘 · AI大模型商业观察系列 #3
基于 OpenRouter 23天追踪数据 + SWE-bench / LMSYS Arena 权威评测
如果你翻过墙、抢过GLM编程套餐、花15块钱买VPN只为用一下Claude——你必定想过这个问题:
国产大模型到底什么时候能好用到让我不需要折腾这些?
我追踪了23天的真实API数据,结合SWE-bench编程评测和LMSYS Chatbot Arena排名,尝试给这个问题一个量化的回答。
答案比你想象的更近,但也比你期望的更难。
一、先看数据:每次升级到底有没有用?
在回答”国产模型什么时候追上”之前,我们先回答一个前置问题:模型升级到底创造了多大的真实价值?
我建了一个”三维升级评估框架”,用三个指标量化升级效果:
- 迁移率:新版本用量占总用量的比例。越高说明用户越愿意转移。
- 市场扩张率:升级后新+旧总用量 / 升级前旧版单独用量。大于1说明升级把蛋糕做大了。
- 半衰期:新版本从峰值跌至50%所需天数。越长说明产品力越真实。
我追踪的三对新旧版本,呈现出三种截然不同的升级模式:
模式一:「爆发型升级」—— 智谱 GLM 5 → GLM 5 Turbo
|
指标 |
数据 |
解读 |
|
迁移率 |
50% |
新旧各占一半 |
|
市场扩张率 |
2.90x |
整个市场扩大了近3倍 |
|
半衰期 |
~16天 |
衰退较快 |
GLM 5 Turbo上线后,不仅自己爆到177B峰值,连旧版GLM 5的用量都从47B涨到了67B(↑43%)。升级带动了全局繁荣。
但问题在于:峰值过后衰退很快。Day 17就跌破半衰线,典型的”高开低走”。
模式二:「稳健型升级」—— MiniMax M2.5 → M2.7
|
指标 |
数据 |
解读 |
|
迁移率 |
54% |
略高于GLM |
|
市场扩张率 |
1.59x |
市场扩大了59% |
|
半衰期 |
>14天 |
仍在峰值92%附近 |
M2.7没有GLM那种爆发力,但极其持久。14天过去了,用量依旧在峰值的92%。这才是真正的产品力驱动,而不是新鲜感驱动。
模式三:「共存型升级」—— Claude Sonnet 4.5 → 4.6
|
指标 |
数据 |
解读 |
|
新版日用量 |
166B |
#5名 |
|
旧版日用量 |
47.6B |
拒绝死亡 |
|
旧版日营收 |
$31.4万 |
比大多数中国模型都高 |
Claude Sonnet 4.5在4.6上线后没有死掉,依旧维持47.6B的日用量和$31.4万的日营收。这说明不同版本在不同场景下都有自己的市场。
升级不是替代,是分层。
二、三种升级模式的商业启示
如果你是开发者或投资者,这三种模式暗示着完全不同的行业逻辑:
|
模式 |
代表 |
商业含义 |
|
爆发型 |
GLM |
靠营销和声量驱动。短期流量大但留存难。适合做「引流品」 |
|
稳健型 |
MiniMax |
靠产品力驱动。慢热但持久。适合做「现金牛」 |
|
共存型 |
Claude |
靠生态锁定驱动。新旧版本各有市场。适合做「平台型」 |
中国模型目前还停留在前两种,而Claude已经走到了第三种。 这就引出了一个更重大的问题——
三、国产模型到底差Claude多远?
这是每一个被迫翻墙、抢套餐、花高价用Claude的中国开发者心里最想知道的答案。
编程能力:只差2.8个百分点
SWE-bench Verified(全球最权威的编程评测之一)最新排名:
|
模型 |
SWE-bench得分 |
国家 |
|
Claude Opus 4.6 |
80.8% |
|
|
Qwen3.6 Plus |
78.8% |
|
|
MiMo V2 Pro |
78.0% |
|
|
GLM-5 |
77.8% |
|
|
Kimi K2.5 |
76.8% |
中国最好的模型和Claude的差距只有2.8个百分点。
两年前,这个差距是”代差”级别的——中国模型甚至进不了排行榜。目前,它们集体挤进了78%的区间,在Claude的”门口”排队。
综合能力:差距在7个月
行业分析显示,中国前沿模型的综合能力大约落后美国顶尖模型7个月。也就是说,今天中国最好的模型,大约等于半年前美国最好模型的水平。
这个”7个月”意味着什么?
2024年,这个差距是12-18个月。2025年,缩小到9-12个月。2026年初,已经只有7个月。
中国正在以每年约5个月的速度缩小差距。
如果线性外推(当然现实不会这么线性),到2027年中,这个差距可能缩小到2-3个月——实质上的追平。
四、但最后2.8%可能是最难的
不要被”只差2.8%”的数字迷惑。这最后的差距,可能是整个追赶过程中最困难的部分。
1. 基准≠实战
SWE-bench测的是”能不能解决标准化的编程任务”。但Claude被开发者追捧的缘由不是”解题能力”,而是:
- 指令遵循的一致性:你说”不要改这个文件”,它真的不改
- 长任务的稳定性:连续操作30+步不崩溃、不遗忘
- 边界情况的判断力:知道什么时候该停下来问你,而不是自己瞎猜
这些都是基准测试无法衡量的”隐性能力”——我在系列第一篇中提到的Claude的真实护城河。
2. 生态锁定
Claude不仅有模型,还有:
- Claude Code:直接在终端里和整个代码仓库交互
- Cursor / Windsurf集成:开发者工具链的深度绑定
- API稳定性:企业级的SLA保障
中国模型在模型质量上追到了98%,但在工具生态上可能只有30%。使用体验不仅取决于模型好不好,还取决于你能不能方便地用到它。
3. 信任壁垒
一位群友说:”我让Claude给我优化了一整套算法,半年的项目一个月搞定。”
当你已经用Claude完成了多个核心项目,你会由于国产模型便宜20倍就切换过去吗?切换成本不是价格,是信任。
五、那我到底什么时候可以不翻墙?
基于以上数据,给出三个场景的判断:
场景1:日常编程辅助(代码补全、解释、重构)
→ 目前就可以不翻墙。
国产模型(Qwen3.6、GLM-5、MiMo)在SWE-bench 78%的水平上,处理日常编程任务已经绰绰有余。除非你做极端复杂的系统架构,国产模型的编程辅助能力已经到达”可用”甚至”好用”的水平。
场景2:复杂Agent工作流(多文件协作、长链推理)
→ 大致还要6-12个月。
这是Claude Opus目前最大的领先领域——长任务稳定性和指令遵循一致性。中国模型在这个维度上进步很快(GLM 5的推理模式已经接近Claude水平),但要做到”让你放心把一整个项目交给它”,还需要时间。
场景3:企业级生产部署(高SLA、工具链完善)
→ 可能要到2027年。
这不仅是模型质量的问题,更是生态建设的问题。Claude Code + Cursor的开发者生态链用了两年才建成。中国模型需要建立自己的工具链和开发者信任。
数据总汇:升级对比 + 差距测量
|
维度 |
MiniMax升级 |
GLM升级 |
Claude升级 |
|
市场扩张率 |
1.59x |
2.90x |
— |
|
半衰期 |
>14天 |
~16天 |
— |
|
升级模式 |
稳健型 |
爆发型 |
共存型 |
|
差距指标 |
2024年 |
2025年 |
2026年4月 |
|
综合能力差距 |
12-18个月 |
9-12个月 |
7个月 |
|
SWE-bench差距 |
不在榜 |
~10% |
2.8% |
|
定价差距 |
5-10x |
10-15x |
10-20x(中国更便宜) |
结论:中国模型在「量」上已经超过美国,在「单价」上领先10-20倍,在「质」上只差最后的2.8%。但这2.8%背后是生态、信任和稳定性的综合壁垒——不是靠砸钱就能追上的。
一句话总结
中国大模型走到了Claude门口的”最后一英里”。成本优势已经碾压,编程能力只差2.8%。但最后一英里从来都是最难的——由于需要追的不只是技术,还有生态和信任。
数据说明
- API用量数据:OpenRouter Rankings 页面每日快照,2026-03-13 至 2026-04-04,共 23 天
- 编程评测:SWE-bench Verified 排行榜(2026年4月最新)
- 综合排名:LMSYS Chatbot Arena 最新 Elo 评分
- 定价数据:OpenRouter 模型定价页面(2026年4月4日)
- 差距预估:综合多家行业分析机构数据,差距年限为估算值
- 本系列前两篇:
- #1 中国AI占了全球73%的调用量,钱却被美国赚走了82%
- #2 从匿名登顶到付费跌89%:一个AI模型的23天生死簿
23天逐日追踪的交互式数据报告(含可切换图表)可私信获取。
关注「Mark投研备忘」,用数据看清AI行业的真实商业格局。
系列预告:
✅ #1 中国AI占了全球73%的调用量,钱却被美国赚走了82%
✅ #2 从匿名登顶到付费跌89%:一个AI模型的23天生死簿
✅ #3 本篇
#4 便宜Token的战争:谁在赌Agent时代的入口



