过去两周,AI圈子的气氛有点微妙。
一边是OpenAI在5月5日悄悄把GPT-5.5 Instant推成了ChatGPT的默认模型,免费用户也能用-2;另一边,Anthropic的Claude Opus 4.7已经在企业级开发者手里跑了快一个月,口碑正在发酵-10。两家前后脚出牌,但走的路子完全不同。
有人说这是“智商派”和“靠谱派”的对决。也有人说,这场仗打完,大模型竞赛就要进入“工程淘汰赛”了——参数不再是护城河,工程才是-4。
不管你怎么看,这两款模型的表现都值得你花十分钟认真了解一下。毕竟,它们正在重新定义“好用”的标准。
一、GPT-5.5:变快了,也变“怂”了?
先看OpenAI这边的动作。
这次发布的GPT-5.5系列有两个版本:一个是面向API企业和付费用户的GPT-5.5 Pro,另一个是成为ChatGPT默认模型的GPT-5.5 Instant-6-9。
Instant版本最大的变化,是“体验感”。
OpenAI这次明显在调整产品的“人设”。以前的GPT喜爱追问、喜爱加表情符号、喜爱列三层列表,让人觉得“有点啰嗦”。目前GPT-5.5 Instant的答案更短、更直接,减少了不必要的格式和追问-2。说白了,就是更像一个成熟稳重的助手,而不是一个过度热烈的实习生。
更重大的是,幻觉减少了52.5%,尤其是在医疗、法律、金融这些高风险领域-2。这对普通用户来说是实打实的利好——以前你问它一个专业问题,可能还要去百度验证一遍,目前信任成本低了不少。但另一个数据就没那么乐观了。
根据第三方评测机构Artificial Analysis的数据,GPT-5.5 Pro在触及知识盲区时,有86%的倾向给出错误答案而不是承认“不知道”-4。相比之下,Claude Opus 4.7的这个比例只有36%。
这意味着什么?GPT-5.5更“自信”,但这种自信有时候是错的。而Claude更“怂”,宁可不说也不乱说。这实则反映了两家公司不同的产品哲学。OpenAI想做的是一个“什么都能聊”的通用助手,所以它鼓励模型尝试回答;Anthropic更看重可靠性,所以模型被训练得“谨言慎行”-4。
你说谁对?没有标准答案,但对企业级应用来说,“宁可不答、不可乱答”显然更安心。
二、Claude Opus 4.7:编程界的“扫地僧”?
再看Anthropic这边。
Claude Opus 4.7发布后,在开发者圈子里收获了一波“自来水”。有用户反馈,以前需要自己盯着才能完成的高难度编程任务,目前可以放心交给Opus 4.7独立完成了-10。
数据也支撑这个口碑。
在SWE-Bench Pro这个测试真实GitHub问题解决能力的基准上,Claude Opus 4.7拿到了64.3%,而GPT-5.5只有58.6%-7。这是个将近6个百分点的差距,而且SWE-Bench Pro是出了名的难——它考的不是写几行代码,而是读issue、理解现有代码库、提交能通过测试的修复方案。这恰恰是程序员日常工作的真实写照。
另一个值得关注的指标是工具调用能力。在MCP Atlas测试中,Claude Opus 4.7得分79.1%,领先GPT-5.5的75.3%-7。如果你的业务需要Agent调用外部API、操作各种工具,Claude目前是更稳妥的选择。
不过,Claude也有自己的短板。
在长上下文处理上,GPT-5.5几乎是碾压级别的存在。在512K-1M token这个区间,GPT-5.5的得分是74.0%,而Claude Opus 4.7只有32.2%-7。如果你需要一次性处理几百页的财报或法律文件,GPT-5.5的体验会好得多。
这就引出了一个问题:你到底需要什么?
三、“智商竞赛”结束,“工程淘汰赛”开始
聊到这儿,不妨跳出“谁更强”的争论,看看更大的图景。
钛媒体最近的一篇深度报道提出了一个很有意思的观点:大模型竞赛正在从“智商竞赛”转向“工程淘汰赛”-4。
什么意思?就是当各家的基础能力差距越来越小的时候,决定胜负的已经不是“谁更机智”,而是“谁能在可控成本下把模型可靠地用起来”。
这个视角能帮你看清许多现象。
列如,为什么OpenAI把GPT-5.5的API价格直接翻了一倍(输入5/百万,输出30/百万token)-6?由于它号称“Token效率更高”——虽然单价贵了,但完成任务需要的Token更少,总成本可能反而更低。这个逻辑在理论上是成立的,但在实际场景中能不能兑现,还要看具体任务。
再列如,为什么Claude的API价格保持不变(输入5/百万,输出25/百万token)-10?由于Anthropic很清楚,自己的优势不在“性价比”,而在“确定性”——企业客户愿意为“不乱说”买单。
说到底,GPT-5.5和Claude Opus 4.7都不是“全能冠军”。它们各有长板,也各有短板。
如果你需要处理超长文档、做复杂的数学推理、或者只是想要一个反应快、体验好的日常助手,GPT-5.5更适合你。如果你需要写生产级代码、调用各种工具、或者对“幻觉”零容忍,Claude Opus 4.7是更好的选择。
对于正在搭建AI应用的企业来说,更务实的做法不是“二选一”,而是构建一个能根据任务自动路由到不同模型的系统。就像hu.zzmax.cn这类站点在做的那样——让模型去理解模型,让算法去优化算法。
这场竞赛还远没有结束。但有一件事是确定的:从今往后,光靠“智商”已经赢不了。谁能把能力变成可靠的服务,谁才是真正的赢家。



