NeurIPS 2025最佳论文：一份Scaling时代的「终局诊断书」

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

本文约3600字，提议阅读8分钟当 Ilya Sutskever 宣告 Scaling 时代终结，NeurIPS 用七篇最佳论文补上了实锤：在算力红利吃尽的今天，AI 终于从炼丹术回归到了 First Principles。

近期，NeurIPS 2025 正式公布了最佳论文名单。

而巧合得令人咋舌的是，Ilya Sutskever 在他复出后的首场访谈中刚刚抛出论断：Scaling 时代已经结束。他直言，单纯堆砌算力的红利已被吃尽，未来属于 Discovery。

不到 24 小时，NeurIPS 的这份获奖名单就为他的观点送上了一份实证级的背书。

如果说前两年是属于 Scaling 信徒的狂欢，那么今天这份名单更像是一份冷静的行业诊断报告。

在预训练边际效益递减的当下，获奖工作没有继续展示令人参数规模，而是集体转向了对现有范式的反思与修正：从 RLVR 的效能边界，到大模型的同质化困局，再到底层架构的工程级优化。

对于身处一线的算法从业者和研究者而言，NeurIPS 2025 释放了一个明确的信号：单纯依靠堆砌算力和数据的暴力美学时代已接近尾声，AI 正在回归 First Principles，进入需要精耕细作的技术深水区。

01 SOTA 模型陷入“人工蜂巢”思维

关于 Scaling，行业内一直存在一个乐观假设：模型越大，拟合的数据分布越广，生成的样本多样性越强。但 Best Paper《Artificial Hivemind》揭示了一个反直觉且令人担忧的现象：SOTA 模型正在陷入严重的同质化。

NeurIPS

2025

NeurIPS 2025最佳论文：一份Scaling时代的「终局诊断书」

论文标题：

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

论文链接：

https://openreview.net/pdf?id=saDOrrnNTz

代码链接：

https://github.com/liweijiang/artificial-hivemind

研究团队通过 Infinity-Chat 数据集量化了当前主流模型的输出分布。结果显示，在当前的训练范式下（尤其是涉及奖励模型对齐时），SOTA 模型在开放式生成任务中表现出极高的 Inter-model Agreement。

对于研究者来说，这意味着我们正在面临严重的 Mode Collapse（模式坍缩）风险。当前的对齐技术本质上是在切断模型分布的长尾，迫使不同架构的模型收敛到同一个安全但平庸的局部最优解。

这不仅限制了模型的创造力，更对未来利用合成数据进行训练构成了潜在污染——如果所有模型都生成类似的数据，未来的 Scaling 将由于缺乏足够的信息熵而失效。

02 RL 提升的是采样效率，而非推理能力

在预训练撞墙后，System 2 思维链和 Test-time Compute 成为新宠。业界普遍预期，通过 RLVR（带验证的强化学习）可以让模型涌现出超越基座的推理能力。

不过，Runner-up 论文 《Does Reinforcement Learning Really Incentivize Reasoning Capacity?》 给出了一个超级冷静的结论：No.

NeurIPS

2025

NeurIPS 2025最佳论文：一份Scaling时代的「终局诊断书」

论文标题：

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

论文链接：

https://openreview.net/forum?id=4OsgYD7em5

项目主页：

https://limit-of-rlvr.github.io/

通过严格的控制变量实验，作者发现：在现有的 RL 范式下，模型性能的提升主要来自于采样效率的优化，而非推理能力的本质扩展。

换句话说，RL 只是让模型学会了如何更高效地在隐空间中检索出已有的解题路径，而不是真正学会了 OOD 的逻辑推理。

这对于致力于复刻 o1 的团队是一个重大提醒：RL 无法无中生有。如果 Base Model 的表征能力不足，仅靠 Post-training 的 RL 很难突破智力天花板。

03 对 Attention 的优雅重构

在理论反思之外，工业界最关注的莫过于阿里千问团队斩获 Best Paper 的 《Gated Attention for Large Language Models》。

NeurIPS

2025

NeurIPS 2025最佳论文：一份Scaling时代的「终局诊断书」

论文标题：

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

论文链接：

https://openreview.net/forum?id=1b7whO4SfY

这篇论文的含金量在于它解决了一个长期困扰 LLM 训练的工程痛点：Transformer 的训练不稳定性与 Attention Sink 问题。

千问团队并没有对 Transformer 进行推倒重来式的修改，而是通过在 Attention 输出端引入门控机制，有效地控制了残差流中的数值幅度。

这种改善在 Scale Up 过程中表现出了极佳的鲁棒性，不仅允许使用更大的学习率，还显著改善了长上下文训练时的注意力漂移问题。

这属于典型的 First Principles 式改善。在 Scaling 时代，这种针对底层算子和架构的精细化手术，将替代简单的层数堆叠，成为提升模型性能的关键手段。

04 Deep RL 突破深度瓶颈

虽然 LLM 的 Scaling 遭遇瓶颈，但 RL 领域却迎来了自己的 Scaling Moment。

Best Paper《1000 Layer Networks for Self-Supervised RL》解决了一个经典难题：由于梯度消失和信号稀疏，传统的 RL Policy Network 很难超过 5 层。

NeurIPS

2025

NeurIPS 2025最佳论文：一份Scaling时代的「终局诊断书」

论文标题：

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

论文链接：

https://openreview.net/forum?id=s0JVsx3bx1

作者通过引入自监督学习作为辅助任务，成功训练了 1000 层 的 RL 网络，并在无奖励信号的目标达成任务中取得了 SOTA。

这意味着 RL 终于可以利用深层网络的表征能力来处理复杂的物理世界交互。

对于具身智能的研究者来说，这是一个极具启发性的方向：利用 SSL 预训练表征，再用 RL 微调策略，可能是通往通用机器人的必经之路。

05 结语：从“炼丹”回归“科研”

NeurIPS 2025 的获奖名单宣告了粗放式 Scaling 时代的结束。这并不意味着 AI 发展的停滞，相反，它标志着行业进入了更具技术含量的阶段。

对于硕博生和算法工程师而言，未来的机会不再在于“谁有更多的 H100”，而在于谁能解决更本质的问题：理解 Neural Scaling 的物理机制，设计如 Gated Attention 般优雅的架构，或是打破 RLHF 的同质化诅咒。

当 Scaling 的噪声退去，真正的 Research 才刚刚开始。

06 NeurIPS 2025 核心获奖论文清单

NeurIPS

2025

最佳论文

Best Paper

论文标题：

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

论文链接：

https://openreview.net/forum?id=saDOrrnNTz

代码链接：

https://github.com/liweijiang/artificial-hivemind

Takeaway: 论文构建了包含 26K 开放式问题的 Infinity-Chat 数据集，量化证实了“人工蜂巢思维”效应。研究发现，经过 RLHF 对齐的模型在开放生成任务中表现出极高的同质化，即不同模型倾向于收敛到类似的“平均”答案。

这对基于模型生成数据的合成数据训练路线提出了严峻挑战：如果我们用同质化的数据训练下一代模型，可能会导致严重的分布坍缩和创新能力丧失。

论文标题：

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

论文链接：

https://openreview.net/forum?id=1b7whO4SfY

Takeaway: 针对 Transformer 训练中数值不稳定的问题，论文提出在 SA 输出后增加一个与头相关的门控值。

从原理上，这通过引入非线性并自适应地调节残差流的幅度，解决了 Attention Sink 问题。工程上，该方法极其简单有效，允许模型在极大学习率下稳定收敛，且对长序列外推表现优异，极有希望成为下一代 LLM 的标准组件。

论文标题：

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

论文链接：

https://openreview.net/forum?id=s0JVsx3bx1

Takeaway: 以前的 RL 网络受限于稀疏奖励信号和梯度问题，很少能做深。本文通过引入自监督学习作为辅助目标，成功训练了 1000 层深度的 ResNet 架构。

实验证明，深度并非多余，深层网络在无监督的目标达成任务中展现了涌现能力。这为具身智能领域提供了新的 Scaling 思路：先通过 SSL 学习世界模型表征，再用 RL 进行微调。

论文标题：

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

论文链接：

https://openreview.net/forum?id=BSZqpqgqM0

代码链接：

https://github.com/tbonnair/Why-Diffusion-Models-Don-t-Memorize

Takeaway: 从动力学角度解释了扩散模型的泛化机制。研究发现模型训练存在两个明显的时间尺度：早期快速学习数据流形（结构泛化），晚期缓慢记忆孤立样本（过拟合）。

这表明，只要控制好早停或训练时长，扩散模型天然倾向于生成而非记忆，这为解决生成式 AI 的版权争议提供了重大的理论依据。

最佳论文亚军

Best Paper Runner-up

论文标题：

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

论文链接：

https://openreview.net/forum?id=4OsgYD7em5

项目主页：

https://limit-of-rlvr.github.io/

Takeaway: 对当前大热的 RLVR（如 CoT 强化学习）进行了去魅。通过控制变量实验发现，RL 更多是在优化“采样效率”，即让模型更有可能输出它本来就有能力输出的那个正确答案，而非让模型掌握了它原本不懂的推理逻辑。

这暗示了推理能力的提升瓶颈依然在 Pre-training 阶段的表征质量，仅靠 Post-training 无法实现质变。

论文标题：

Optimal Mistake Bounds for Transductive Online Learning

论文链接：

https://openreview.net/forum?id=EoebmBe9fG

Takeaway: 这是一篇纯理论突破，解决了一个计算学习理论领域长达 30 年的 Open Problem。作者准确量化了直推式在线学习的错误边界，证明了利用未标记数据可以将错误率界限从线性降低到平方根级别。

虽然偏理论，但对理解半监督学习和利用未标记数据的极限有重大意义。

论文标题：

Superposition Yields Robust Neural Scaling

论文链接：

https://openreview.net/forum?id=knPz7gtjPW

代码链接：

https://github.com/liuyz0/SuperpositionScaling

Takeaway: 尝试解释 Scaling Law 背后的物理机制。通过 Toy Model 实验，作者提出“特征叠加”（Superposition）是关键驱动力——即神经网络在有限维度内通过非正交方式存储了远超维度的特征数量。当叠加程度较高时，Loss 与模型维度呈现反比缩放关系。

这为将 Scaling Law 从经验公式转化为物理定律迈出了关键一步。

时间检验奖

Test of Time Paper

论文标题：

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

论文链接：

https://arxiv.org/pdf/1506.01497

Takeaway: 这篇引用量超 5.6 万次的经典之作，是现代目标检测的“分水岭”。它首次提出了 RPN（区域提议网络），将特征提取、候选框生成和边界框回归统一到了一个完全可微的端到端框架中，彻底终结了 Selective Search 等手工启发式算法的时代。

对于今天的从业者来说，回顾这篇论文的意义在于重温 Deep Learning 取代 Feature Engineering 的核心逻辑：只要梯度可导，一切皆可学习。

注：NeurIPS 官方特以此奖缅怀已故的孙剑博士，致敬其对计算机视觉领域的奠基性贡献。

Sejnowski-Hinton 奖

Sejnowski-Hinton Prize

论文标题：

Random synaptic feedback weights support error backpropagation for deep learning

论文链接：

https://www.nature.com/articles/ncomms13276

Takeaway: 这篇发表于 2016 年的工作获得了首届 Sejnowski-Hinton 奖。它挑战了反向传播（Backprop）必须依赖对称权重的传统认知，提出了“反馈对齐”（Feedback Alignment）机制。

研究证明，即使反馈路径的权重是固定且随机的，前向传播的权重也能在学习过程中自动与之“对齐”，从而实现有效的梯度下降。这解决了生物神经网络中的“权重传输问题”（Weight Transport Problem），为神经形态计算（Neuromorphic Computing）和生物似然学习算法奠定了理论基础。