最近一篇是由阿里巴巴(Alibaba Group)与中山大学的研究团队在 2026 年 3 月刚刚发布的重磅研究《SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration》 深刻客观的给出了答案——完全不能.
1. 核心定位:从“单点修复”转向“持续运维”
论文指出,现有的 AI 程序员评测基准(如 SWE-bench)存在**“静态快照”**局限。它们只要求 Agent 修复一个孤立的 Bug,而不思考代码库的长期演化。
- 论文观点:真实的软件开发是一个动态过程。Agent 必须在不断的版本更迭中维持代码性能,而不是“修好一个,弄坏两个”。
- SWE-CI 的创新:构建了一个基于 持续集成(CI) 的评测流,测试 Agent 在平均 233 天 时间跨度和 71 个连续提交(Commits) 的真实开源环境下的表现。
2. 技术架构:双智能体(Dual-Agent)协作模式
论文提出并验证了一套用于长程维护的协作架构,以应对代码库日益增长的复杂性:
- 架构师智能体 (Architect Agent):负责“高层抽象”。它解析 CI 系统的反馈(如测试失败、覆盖率下降),识别受影响的模块依赖,并制定修改策略。
- 程序员智能体 (Programmer Agent):负责“底层实现”。根据架构师的蓝图编写代码,并利用实时测试反馈进行闭环调试。
- 结论:这种分层解耦显著提升了 Agent 处理跨文件依赖和重构任务的成功率。
3. 关键发现:揭示“维护性衰减”风险
通过对 GPT-5、Claude 4 等前沿模型的密集测试,研究团队提出了三个警示性结论:
- 回归测试是重灾区:Agent 极难在修复新问题的同时不引入“回归错误(Regressions)”。随着维护任务的叠加,Agent 导致代码库崩溃的概率呈指数级上升。
- 技术债倾向:为了通过当前的 CI 检查,AI 倾向于编写“权宜之计”的补丁代码,而非进行必要的架构重构,这导致代码库在长期演化中逐渐变得不可维护。
- 性能鸿沟:虽然模型在解决简单 Issue 上表现优异,但在 SWE-CI 长期存活率测试中,即便是最强的模型,其成功率也普遍低于 15%。
4. 评估指标的革新
论文不仅关注“是否解决了问题”,还引入了衡量 Agent 职业素质的新指标:
- 回归率 (Regression Rate):衡量 Agent 破坏已有功能的频率。
- 长期成功率 (Long-term Success Rate):衡量 Agent 在连续 10 个以上维护周期后的任务完成质量。
- 代码可持续性得分 (Sustainability Score):评估 Agent 提交的代码对未来修改的友善程度。
总结评价
SWE-CI 是编程 Agent 领域的一个分水岭。它告知我们:让 AI 写出跑得通的代码很容易,但让 AI 在一年时间里不断修改而不毁掉这个项目,极其困难。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...
