AI互撕code review表现会更好？Claude、Gemini、Codex、Qwen测评

内容分享2小时前发布姜十七Y

0 0 0

全能 AI 聚合平台免费

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI对话 AI生图 AI视频

免费使用 →

AI互撕code review表现会更好？Claude、Gemini、Codex、Qwen测评

春节期间，各家模型扎堆发布，信任大家已经学累了。

但热闹归热闹，这些模型实际用起来到底怎么样？尤其是做代码审核的时候，又该怎么正确用才靠谱？

前阵子，我拿 AI 审一份 PR，发现了一个很有意思的事情：先是Claude 说里面有 data race，Gemini 却笃定没问题。然后，我把Opus 4.6、Gemini 3 Pro、GPT-5.2-Codex、Qwen-3.5-Plus、MiniMax-M2.5几个最新旗舰模型全拉进来让它们自己辩论之后，发现了一个更反直觉的结论：

单个模型找已知 bug 的命中率最高也就 53%。但让它们辩论之后，命中率会直线提升到80%。最难的 L3 级别 bug（需要系统级理解的那种），在辩论模式下全部命中。

那么，各家旗舰模型到底哪一个更强？此外，模型辩论搭配机制的最优解是什么？

本文为实验过程记录与设计思路还原。

01 五个最新旗舰模型测评，效果如何？

常常用AI辅助coding的话，很容易发现不同模型的code review风格与能力差异显著：

列如，Claude擅长追踪完整调用链，顺着代码逐层排查，连错误处理路径也不会遗漏；Gemini则先对代码定性，常以“this is a disaster”开篇，从架构层面展开分析，但难以确定其是否完整浏览代码；Codex发言较少，但偶尔的反馈能直接命中问题要害。

那么，到底哪个更有优势？干脆在生产环境做个测评。

模型上，我选了Opus 4.6、Gemini 3 Pro、GPT-5.2-Codex、Qwen-3.5-Plus、MiniMax-M2.5五个最新旗舰模型。（备注：本来想加GLM5，但懂的都懂——总是限购抢不到，只能遗憾缺席。）

测评工具上，采用了我此前自研的Magpie（已开源：
https://github.com/liliu-z/magpie）；测评考题均来自Milvus（开源向量数据库，本人日常参与维护的项目），共筛选15个PR。

为更好的检验模型实力，所选PR均有一个共同特征：合入后出现问题，需进行revert操作或后续hotfix。同时，我将选择的bug按难度分为了3级：

L1：仅查看diff即可发现，如use-after-free、off-by-one等类型；（L1难度过低，所有模型均能轻松检出，无区分度，故不列入最终测评）
L2（10个）：需理解周边代码才能发现，如接口语义变更、并发竞争等，贴合日常高频bug场景；
L3（5个）：需具备系统级理解能力才能发现，如跨模块状态一致性、升级兼容等，是最能检验模型深度的难点bug。

测试过程，分为裸测（无任何辅助）和Magpie加持（给足上下文）两种模式，贴合日常不同的code review场景。

最终测试结果如下：

AI互撕code review表现会更好？Claude、Gemini、Codex、Qwen测评

从单个模型的测评表现中，我们能提炼出4个核心结论：

Claude裸测封神：53%的检出率全场最高，尤其是L3级最难bug，裸测5/5全中——不用额外给上下文，就能搞定系统级问题。

Gemini输在上下文能力：裸测只有13%，全场最低，但加上Magpie的上下文后，直接涨到33%（翻了一倍多）。说明模型不擅长自己找上下文，适合我们提前整理好代码上下文，再让它辅助审PR的场景。

R1 模式下 Qwen 表现不错（40%）：R1模式下40%的检出率，尤其是L2级别bug，拿了5/10，是这个难度下的最高分，实用性拉满，适合日常常规PR review，不用费心调试。

上下文不是万能的：更多的上下文提示帮了Gemini（13% → 33%）和MiniMax（27% → 33%），但坑了Claude（53% → 47%）。推测缘由：Claude本身就擅长自己梳理上下文，额外注入的信息，反而成了噪音，干扰了它的判断。

测试结果跟我日常体感基本吻合，但Gemini 的分比实际体感低一些。可能由于我平时用 Gemini 更多是多轮对话，但这个评测是固定流水线，一轮出结果，刚好卡在 Gemini 不擅长的形式上。后续换成多轮对抗后，Gemini的表现明显改善。

02 五个模型辩论，效果直线提升

单个模型测评结果显示，各模型均有优劣，基于此，我尝试引入相互辩论模式，探究能否进一步提升bug检出效果。

辩论测试基于第一阶段的实验规则，仅增加1个核心要求：5个模型同时参与，开展5轮对抗式辩论，所有观点必须以代码为证据，相互挑错、反驳，禁止无依据妥协。

最终辩论模式与最强个体（裸测版本的Claude）的效果对列如下：

AI互撕code review表现会更好？Claude、Gemini、Codex、Qwen测评

可见，辩论模式的效果全面碾压单个模型，核心提升体目前两点：

命中率大幅提升：从单个模型最高的53%检出率飙升至80%，尤其是L2级常规bug，检出率直接翻倍，彻底弥补了单个模型的检测盲区。

难bug零遗漏：L3级最难的系统级bug，辩论模式下实现100%命中，而单个模型中，仅Claude能做到这一点，充分体现了模型协作的核心价值。

能力互补：系统级bug对最强个体而言难度不大，辩论模式的核心价值的是补齐了Claude在L2级常规bug的检测短板。

这里补充一个具体辩论细节还原：PR #44474
https://github.com/milvus-io/milvus/pull/44474

AI互撕code review表现会更好？Claude、Gemini、Codex、Qwen测评

03 模型怎么搭配，找到bug最多？

53%到80%的检出率提升背后，在于不同模型互补了彼此的能力盲区。那么，新的问题来了，哪些模型相互搭配，效果更好？

此前，在R1(有上下文加持)模式下每个模型找到的bug 数量如下：Claude 7/15（47%），Qwen 6/15（40%），Gemini 和 MiniMax 各 5/15（33%），Codex 4/15（27%）。

此外，五个模型联合覆盖 11/15的bug——还有 4 个 bug 全军覆没。

这里面有一个有意思的细节是，Claude 找到的最多，但也只覆盖了不到一半。它漏掉的 8 个里，Gemini 能补 3 个——一个并发竞态、一个云存储 API 兼容性、一个权限校验遗漏。反过来，Gemini 漏掉的数据结构和深层逻辑 bug，Claude 几乎全找到了。

而将不同模型两两组合后，整体的bug检出率如下：

AI互撕code review表现会更好？Claude、Gemini、Codex、Qwen测评

也是因此，针对我们的测评集，Claude + Gemini 是最优两模型组合，两个就能覆盖五个联合上限的 91%。

此外，在把bug的类型与数量进一步增加做对比之后，我们还发现，Claude + Gemini并非所有场景下的最优解，bug类型决定了模型的适配性：

按 bug 类型看各模型的强项：

AI互撕code review表现会更好？Claude、Gemini、Codex、Qwen测评

可以看出，数据结构生命周期找 Claude 和 MiniMax，并列 3/4。校验遗漏找 Claude 和 Qwen，并列 3/4。并发和兼容性 Claude 反而是 0——刚好是 Gemini 补位的地方。没有全能选手——但 Claude 覆盖最广，是最接近全能的那个。

至于那 4 个全军覆没的 bug——一个是 ANTLR 语法规则优先级、一个是跨函数的读写锁语义差异、一个需要理解不同 compaction 类型的业务含义、一个是变量单位 MB vs bytes 不一致的静默比较错误。

共同特点：代码语法完全正确，bug 藏在开发者脑子里的假设中，不在 diff 里，甚至不在周边代码里。

当前 AI 做 code review 的天花板，大致就在这里。

04 找完bug改bug，谁最可靠？

日常code review中，仅找到bug远远不够，模型给出的修改提议好用，同样是核心评价标准。

因此，本次实验在辩论结束后，我们还新增了模型review质量互评环节，进一步筛选实用型模型。

互评规则：每个模型开启新会话作为裁判，采用匿名打分（将5个模型随机映射为Reviewer A/B/C/D/E），打分维度包括4项，每项1-10分：准确性、可操作性、深度、清晰度。（裁判无法知晓所评内容对应的模型，确保评分客观性。）

这一轮的最终评分如下：

AI互撕code review表现会更好？Claude、Gemini、Codex、Qwen测评

互评结果显示，Qwen和Claude的review质量并列第一，其提议的准确性、可操作性，以及分析的深度、表述的清晰度，均远超其他3个模型；Codex、Gemini、MiniMax表现相对普通，无明显优势。

05 小结

五轮辩论看下来，每个模型的个性超级鲜明：

Claude：严谨细致，擅长追踪完整调用链和深层逻辑，能自主梳理上下文，L3级bug检出能力独一档；偶尔会在数学层面过度自信，但认错态度坦诚，会主动解释错误缘由，适合核心代码、深层bug的审核。

Gemini：风格激进，擅长从架构层面定性问题，对代码风格和工程规范高度敏感；但常聚焦表面问题，review深度不足，互评排名靠后；其质疑能推动其他模型严谨验证，适合搭配Claude使用，补充架构层面的视角。

Codex：沉默寡言，发言频次低，但bug检出命中率高，偶尔能精准命中核心问题；在辩论中常能提供关键线索，适合作为辅助模型，补充检测盲区。

Qwen：综合表现优秀，review质量与Claude并列第一，擅长综合各方观点、梳理重点，修改提议可操作性强；L2级常规bug检出能力突出，适合日常常规PR review；偶尔会因上下文窗口限制，在多轮辩论后丢失上下文，出现反馈异常。

MiniMax：单个模型的bug检出能力偏弱，适合作为辅助模型补充使用。

最后，坦诚说一下这个实验的局限，避免大家过度解读，也保证实验的客观性：

样本量不大：只有15个PR，且都来自同一个Go/C++项目，不代表所有编程语言、所有业务场景的结果，仅供参考。

模型有随机性：同样的Prompt跑两次，结果可能不一样，文中数据是一次快照，不是稳定期望值。不能根据这个实验明确得出所谓的模型能力排行，但是得出辩论比个体强，某些模型擅长某些方向，这些趋势是没有问题的。

顺序影响表现：辩论中发言顺序固定，可能影响后面模型的判断。

另外，本次实验所有相关工具全部开源：更多milvus issue集合
https://github.com/milvus-io/milvus/issues

Magpie：多 AI 协作 code review 工具。
https://github.com/liliu-z/magpie

AI-CodeReview-Arena：评测流水线 + 配置 + 脚本。
https://github.com/liliu-z/ai-code-review-arena

作者介绍

AI互撕code review表现会更好？Claude、Gemini、Codex、Qwen测评

刘力

Zilliz 研发总监兼 Milvus 技术负责人

chunk大小没有最优解！多尺寸逐级chunk如何提升RAG40%准确率

拆解：OpenClaw就是agent记忆的最佳范式！其逻辑与RAG有何区别？

自动驾驶+百亿向量，全球GPU龙头如何用Milvus加速模型训练

Spark做ETL，与Ray/Daft做特征工程的区别在哪里，如何选型？

AI互撕code review表现会更好？Claude、Gemini、Codex、Qwen测评

内容分享

文章版权归作者所有，未经允许请勿转载。

阿里巴巴达摩院，全球最大研究院！

内容分享 # 达摩院 # 阿里巴巴

8个月前

350

docker启动容器报错：Error response from daemon: network b295f6993316da7f088e1d not found

内容分享

6个月前

030

AI 常引这些网站！用户生成内容成主力

内容分享 # AI知识 # LLM # 有所事事的暑假

8个月前

010

0基础照样学PLC做项目，这些有效方法少一步都不行…

内容分享

7个月前

150

暂无评论

暂无评论...

AI互撕code review表现会更好？Claude、Gemini、Codex、Qwen测评

01

五个最新旗舰模型测评，效果如何？

02

五个模型辩论，效果直线提升

03

模型怎么搭配，找到bug最多？

04

找完bug改bug，谁最可靠？

05

小结

AI 代码审查 (Code Review) 清单 v1.0

AI 代码审查师插件 - IDEA 插件中心安装指南

相关文章

阿里巴巴达摩院，全球最大研究院！

docker启动容器报错：Error response from daemon: network b295f6993316da7f088e1d not found

AI 常引这些网站！用户生成内容成主力

0基础照样学PLC做项目，这些有效方法少一步都不行…

暂无评论

热门网站

小苹果网页助手

ChatGPT

通义

Shopee

腾讯元宝

LuKuai 免费AI对话聊天平台

热门文章

ESP32-S3-WROOM-1-N16R8 对接 PS2 游戏手柄：从硬件到软件的全流程技术指南

超强GPU加速终端Kitty：性能与功能全解析

2025了，别再做1000元的全屋智能了

华为军团就是中国科技产业的诺亚方舟

✅【Typora 绿色便携版】无需安装｜解压即用+中文汉化包｜2025最新版下载 🚀【Typora 增强版】含50+主题+Markdown模板+图床工具｜一键安装包下载网盘下载

用Python打造的8个自动化工作流

AI互撕code review表现会更好？Claude、Gemini、Codex、Qwen测评

01

五个最新旗舰模型测评，效果如何？

02

五个模型辩论，效果直线提升

03

模型怎么搭配，找到bug最多？

04

找完bug改bug，谁最可靠？

05

小结

AI 代码审查 (Code Review) 清单 v1.0

AI 代码审查师插件 - IDEA 插件中心安装指南

相关文章

热门网站

小苹果网页助手

ChatGPT

通义

Shopee

腾讯元宝

LuKuai 免费AI对话聊天平台

热门文章

标签云