ChatGPT破解数学猜想：竞品Claude因41.7%拒绝率为何难复制？

内容分享3个月前发布

2026年2月，比利时布鲁塞尔自由大学的研究团队做了一件让数学界震惊的事：他们让一个名为ChatGPT-5.2(Thinking)的AI模型，在短短几周内，完成了一个悬而未决的数学猜想证明。

这个由数学家Ran与Teng在2024年提出的猜想，传统方法可能需要数年才能攻克，而AI与人类的协作，将其压缩到了“周”级。

这听起来像是科幻场景，但它真实发生了。更关键的问题是：为什么是ChatGPT做到了？它的竞争对手，列如Anthropic的Claude、谷歌的Gemini，为什么难以复制这种成功？

答案不在于谁更“机智”，而在于谁的设计更接近一个能独立探索未知的“研究员”，而不是一个等待指令的“解题机器”。

ChatGPT的核心优势，像一个能自己规划路线的司机

想象一下，你要去一个从没去过的地方。普通导航会告知你“左转、直行、右转”。但一个顶级的司机，不仅能看懂导航，还能在发现主路拥堵时，主动规划一条全新的小路，并最终抵达目的地。

ChatGPT在数学证明中扮演的，就是后者的角色。它的核心技术优势，是一种名为**“自主规划”** 的能力。在破解Ran与Teng猜想时，它不需要人类一步步告知它“先用这个定理，再推导那个公式”。

相反，它能自己提出多种可能的证明路径，搭建起核心的论证框架，然后通过与研究员的对话，不断迭代优化。

这个过程，被研究团队称为 “vibe-proving” 。你可以把它理解为一种高效的师徒协作：

这种模式之所以高效，是由于它把人类从“漫无目的的苦力探索”中解放出来，专注于最擅长的“价值判断与逻辑校验”。而ChatGPT，是目前少数能担起“探索者”重任的模型。

那么，强劲的Claude和Gemini为什么难以复制这种成功？问题出在它们各自的技术“基因缺陷”上。

Claude的问题，是“过度谨慎”。

它就像一个配备了最严格安检的机场。多伦多大学2026年的一项测试揭示了一个关键问题：当面对一些格式特殊、表述不那么标准的数学题时，Claude Opus 4.7会直接拒绝回答其中41.7%的问题。

这不是由于它不会，而是它的安全过滤系统将这些超级规格式误判为“可疑攻击”，为了保护自己而选择了沉默。在探索全新数学证明时，思路往往是跳跃、超级规的，这种“自我保护”机制，反而成了它参与前沿探索的巨大枷锁。

Gemini的问题，是“格式依赖”。

它更像一个成绩优异的“竞赛选手”。Gemini 3.1 Pro能在国际数学奥赛中拿到金牌，解题能力一流。但它有一个隐藏弱点：对文本的呈现方式超级敏感。

同一道数学题，如果以标准的线性文本呈现，它能轻松解答；但如果把题目文字排成蛇形、栅栏密码等非标准格式，它的正确率会下降10%。这暴露了它对“标准考题”的依赖。真正的数学研究，思维是发散的，表达是随意的，这种对格式鲁棒性的不足，限制了它在非结构化探索中的发挥。

相比之下，ChatGPT-5.5在同样的“格式变换”压力测试中，正确率仅下降7%，展现了更强的适应能力。更重大的是，OpenAI似乎有意将GPT向“智能体”方向塑造——让它能自主调用工具、检查错误、持续推进任务，而不是被动响应指令。

这种设计理念，恰好与需要自主探索的数学研究完美契合。

所以，ChatGPT能攻克数学猜想而竞品难以复制，并非单一缘由。这是一套环环相扣的组合优势：

领先的自主推理引擎：在最具挑战性的FrontierMath Tier 4测试（博士后级别难题）中，GPT-5.5 Pro的得分（39.6%）接近Claude Opus 4.7（22.9%）的两倍。这证明了其在高阶推理上的绝对性能壁垒。
针对探索优化的“宽松度”：在保证安全的前提下，它对超级规思路和格式的容忍度更高，不会由于“看起来奇怪”就轻易拒绝，这是进行原创探索的前提。
与人类协作的高效范式（vibe-proving）：这不是一个通用功能，而是基于其自主能力衍生出的特定使用方法，需要人类专家深度参与引导。
OpenAI的持续专项优化：从GPT-5.2(Thinking)到GPT-5.5，OpenAI通过难题驱动训练等方式，持续强化其在数学和推理上的能力。

最终，这揭示了一个更深层的趋势：AI竞赛的下半场，胜负手不再是“参数大小”或“单项分数”，而是谁能将技术转化为解决复杂现实问题的系统能力。ChatGPT在数学证明上的突破，正是这种能力的体现——它不再是一个工具，而是一个能够与人类并肩作战、共同开疆拓土的“研究伙伴”。

对于其他竞品而言，追赶的路径已经清晰：不仅要提升考试的分数，更需要重新思考，如何设计一个敢于并善于在未知领域自主探索的“大脑”。