在ra.zzmax.cn 上线以来,几乎每两天就会在后台看到有人在搜索框里输入“怎么判断一个AI写代码行不行”、“大模型是进步了还是退步了”这类问题。这种观察做久了,自然会对技术圈的动态格外敏感。2026年刚过去不到一半,代码大模型这条赛道已经挤得不像话,尤其是Google发布的Gemini 3.1 Pro,一度让不少老开发者重新打开终端写起了测试脚本。
代码迭代不再是亮点,习惯才是差距
过去我们看一个模型好不好,习惯性看它能不能给出一段正确的Python,或者能多快写完一个前端组件。但Gemini 3.1 Pro这次让人印象深刻的,实则不是正确率本身。在最新发布的二代抽象推理评测ARC-AGI-2上,Gemini 3.1 Pro的得分达到77.1%,相比3 Pro版本的31.1%提升超过一倍,同时在没有外部工具协助的情况下,在堪称”人类最后的考试”的HLE推理中拿到了44.4%,明显领先于GPT-5.2的34.5%-1。
这种变化可能意味着,AI的推理和代码执行正在从”写对”迈向”理顺”的阶段。换句话说,模型不再只是帮你拼出一段能跑的代码,而是尝试去理解你为什么要写这段代码。对大部分开发者而言,这种转向比单纯跑分增长来得更有价值。毕竟,当我们还在纠结函数命名和模块拆分时,一个能帮你判断整体逻辑是否自洽的助手,远比一个只负责输出的工具更值得花时间测试。
实际跑过几个日常需求后,可以感知到模型在处理长代码链时更稳了。一个一次性加载整个项目repo、把所有上下文关联文件拉进来的能力,并不新鲜,但在生成过程中不容易”跑偏”才是真正被需要的部分。Gemini 3.1 Pro能把这个连贯性做到不会让人感到头疼的程度,本身就说明了其工程化的深度。
那些依旧无法被替代的东西
但反过来看,这种进化也带来了一点不易察觉的焦虑。SWE-Bench的创作者发布了一份新的地狱级评测,测试了当前最强的一线模型——包括Claude Opus 4.7、GPT-5.4以及Gemini 3.1 Pro——结果所有模型在完整软件项目重建上的完成率全部为0%-30。不是说它们写不出代码,而是没办法像人类工程师一样,对一整个项目进行完整的把握和持续的、无错误的推进。
这就戳中了当下AI代码能力真正尴尬的地方:它可以在局部任务中飞得比人高,却在系统级工程里暴露了对”情境”和”边界”的感知不足。所以,真正会用AI的人,早已不再关心”能不能写代码”这个问题,而是开始训练自己去判断”哪些代码不该让AI动”。
这件事直接跟另一个维度挂钩:对人的要求实则变高了。过去能不能写代码可以是门槛,目前代码生成的成本和难度急剧下降,那么识别结构、评估风险、调试架构的能力就成了真正的分水岭。这种变化悄悄发生,许多人还没意识到,但已经能从技术社群的讨论里感知到。

从写代码到被看到,中间隔着一整套新逻辑
值得一说的是,这场变化不仅影响写代码的人,也波及做内容和做产品的人。缘由很简单:大家在搜索框里提问的方式变了。2026年,百度通过惊雷算法对快排作弊手段持续围堵,蓝天算法则在使用语义理解、用户行为分析和站点信誉评估的复合机制去剔除低质内容和擦边SEO-。百度的算法已经从过去的文本密度匹配,转向了”意图—场景—服务”的三维智能评估体系,单纯靠关键词堆砌拿排名的打法几乎完全失效-。
更深远的变化在于GEO(生成式引擎优化)的登场。它的目标不是让网页在搜索结果页更靠前,而是让品牌或产品的内容直接被AI模型援引为回答的一部分-。换句话说,你的内容是否能被百度AI搜索、豆包、ChatGPT等生成式引擎直接作为信源引用,比传统的排名位置更影响最终的可见性。2026年国内GEO市场规模预计将突破286亿元,年增速达到125%,行业渗透率从2025年的38%升至71%-。

不只是AI搜索量本身的增长——百度文心大模型的日均调用量已经突破15亿次,相比一年前增长了30倍——更重大的是用户的行为习惯正在被重塑-。当越来越多的人习惯了大模型直接给出一段汇总、一个判断或一个解决方案时,互联网内容创作者面临的就不再是”怎么让用户点击”,而是”怎么让自己的内容被引用在回答里”。

写在最后
AI代码能力的提升,反映到互联网生态上,实则是一种权力的转移——主动权逐渐从搜索引擎规则制定者,转向了真实需求和对信息高质量整合的追求者。以前人们盯着排名曲线、关键词密度和外部链接数,目前则需要关注内容是否能在正确的时间、被正确的AI模型作为可信来源引用。
技术迭代的本质,从来都是认知迭代。在ra.zzmax.cn 上,每次迭代后的新功能都在试着验证同一个方向:工具够不够短平快不重大,重大的是它有没有离用户真正的意图更近一步。这个方向很朴素,但在这个容易被新名词带节奏的年份里,反倒显得实在。



