大语言模型的 Scaling 范式

内容分享7小时前发布不諳_

从“下一个词预测”到“思维链强化”，Scaling Law 正在重塑大语言模型的能力边界。本文基于 Jason Ming 在 CS7000 的演讲内容，系统梳理了 LLM 的两大 Scaling 范式演进路径，并探讨了其背后的技术挑战、认知机制与未来潜力，是一次关于 AI 核心驱动力的深度复盘。

1月1日 OpenAI 的研究员 Jason Ming 在 CS 7000 上做了一个演讲，主要是关于缩放法则，或者是称为扩展定律的 scaling law。 Jason 毕业于斯坦福，曾经在 Google 工作过三年，是思维链 COT 的作者，也为 o1模型做出了很大贡献，在社交媒体上也比较活跃。他的这次演讲内容还是超级深入浅出。

01

scaling law 扮演了核心引擎的角色，那么它究竟是如何推动了人工智能的发展，以及是否将继续推动向前发展？

看看 Jason wei 是如何看待的。

在 2010 年到 2017 年，也就是 Transformer 架构和深度学习还没有得到广泛应用。之前的这段时间里，人工智能的进步主要是依赖于针对于特定的评估基准。列如说对 ImageNet 进行优化，研究人员会尝试各种方法，列如说构建更优的架构、引入归纳偏差、改善优化器以及精心调整超参数等等。目标是在基准测试中去超越基线的性能，像在 ImageNet 数据集上力求以一半的计算量实现比基线高出 5% 的性能提升。不过， transformer 的出现改变了这个局面，它为学习多种类型的关系提供了强劲的工具，使得 scaling law 成为了人工智能发展的新方向。

那么，什么是 scaling law ？在人工智能领域， scaling 并非指的是简单的增加计算资源、数据量或者是模型的大小，更准确的说，它是将自身置于一种沿着连续轴移动并且期望持续获得性能改善的情景之中。一般情况下，这个连续轴会涉及到计算量、数据量或者模型大小等等关键的因素。

以大语言模型的发展为例，可以看到 Scaling 无处不在，许多的相关研究论文中都有关于 Scaling law 的图表展示，这些图表清晰地呈现出了随着模型参数、数量、训练数据量以及计算资源的增加，模型性能的变化趋势。不过在早期，斯克林却面临着许多巨大的挑战。

LLM Scaling Laws 的时间轴

第一，从技术和运营层面来看，分布式训练需要深厚的专业知识。构建一个高效的分布式训练系统需要聘请大量的专业工程师来应对复杂的技术难题，同时记忆学习的研究人员也需要时刻的警惕可能出现的损失、发散和硬件故障的问题，确保训练过程的稳定。

此外，计算成本高昂也是一个不容忽视的问题。大规模的 Scaling 需要投入大量的计算资源，这对于许多研究机构和企业来说是一个沉重的负担。其次，在心理层面，研究人员长期以来习惯于利用归纳偏差来改善算法，他们从提出假设并验证性能提升的过程中获得乐趣。

因此，对于单纯的 Scaling 工作可能缺乏足够的热烈，而且人类学习的高效性也让人们对于让机器通过大规模数据进行学习的必要性产生了质疑。比方说一个人不需要像训练 GPT 3 那样通过阅读海量文本就能学会写一段英文，这就使得人们去思考是否真的需要让机器从如此庞大的数据中学习。再者，科学研究的激励机制在当时也与 Scaling 所需要的工程工作不太匹配。

学术会议更倾向于接受具有新颖算法的研究成果，而只是扩大数据集和计算资源的工作往往难以得到足够的认可。

02

那既然 Scaling 面临着如此多的困难，为什么我们依旧要坚持走这条路呢？

由于在非 Scaling 的范式下，模型的每一次改善都需要全新的独创性思维。这就需要投入大量的研究精力，而且成功并不是必然的，具有很大的不确定性。

相比之下，以 Scaling 为中心的人工智能虽然成本高昂，却提供了一种相对可靠的提升模型能力的方法。特别是当我们衡量模型能力的标准就有较高的通用性的时候，这种大规模的投资往往是值得的。列如说我们希望模型能够在多个领域和任务中表现出色，那么通过 Scaling 来提升模型的通用能力就是一个合理的选择。

接下来 Jason we 深入探讨了第一个 Scaling 的范式，那就是去 Scaling 下一个词的预测，这个范式始于 2018 年，至今依旧在发挥着重大的作用。范式的核心原理就是通过大规模的多任务学习来实现对下一个词的精准预测。想象一下语言模型，面对一个句子，列如说在周末学生喜爱什么，他会对词汇表中的每个单词从 a 到 z 打头，计算出一个出现的概率，然后根据实际的下一个词来调整这些概率，从而不断的进行学习和优化。

通过这种方式，语言模型能够学习到多种的能力。在语法学习方面，例如在预训练过程中遇到在我的空闲时间，我喜爱去编码或者喜爱吃香蕉这样的句子中，模型会逐渐认识到在这个语境下动词编码的可能性更高，从而学习到相应的语法规则。

而在世界知识的获取上，当遇到阿塞拜疆的首都是巴库还是伦敦这样的句子时，模型会提高巴库的权重，进而积累关于世界地理的知识。对于电影评论的，情感分析，列如说我一直全神贯注，超级投入，这部电影真的是好还是坏？模型可以学习到如何判断情感倾向。在翻译任务中神经网络，在俄语中的单词 {是 нейронная 还是 сетьпривет }，模型能够掌握不同语言之间词汇的对应关系，甚至在空间推理方面，通过“艾洛去厨房泡茶，祖克站在艾洛旁边，思考他的命运，然后祖克离开了{厨房还是商店}”这样的句子，模型可以学习到空间位置的推理能力。在数学运算上，对于 3 + 4 + 8 = 15 还是 11 这样的例子，模型也能够逐渐学会正确的计算结果。

2020 年，卡普兰等人发表的论文推广了下一个词预测中的 Scaling 范式，提出了Scaling law 定律，表明随着模型大小、数据集大小以及训练计算资源的增加，下一个词的预测能力也就是语言模型的性能会平稳的提升。

研究人员通过使用 7 个数量级的计算量进行训练验证，发现这个趋势超级的稳定，而且没有出现性能饱和的现象，这个发现极大的增强了研究人员继续扩大规模的信心。

03

为什么Scaling 能够取得如此好的效果？

对于小型的语言模型而言，由于参数有限，记忆成本超级高，所以在知识编码方面必须超级的谨慎。而大型的语言模型拥有大量的参数，在学习尾部知识和记忆大量实际方面具有更大的优势。

例如，小型模型可能无法存储和利用一些较为罕见的知识，但是大型模型可以轻松的应对。此外，小型模型在单次前向传递中的计算容量较低，主要是学习一阶相关性，而大型模型在拥有更多计算资源的情况下，可以学习复杂的启发式方法，从而更好地处理各种任务。

不过，尽管 Scaling law 具有必定的可预测性，但是 ChatGPT 的成功依旧让许多人感到惊讶，由于对下一个词的预测实际上是一种大规模的多任务学习不同任务的能力提升速度并不一样。我们可以将下一个词的预测准确性看作是多个子任务准确性的加权总和，例如语法准确性、世界知识准确性、情感分析准确性、数学能力准确性、空间推理准确性等等。当模型整体性能提升的时候，不同任务的提升幅度可能会有很大的差异，列如说 GPT 3.5 的语法已经近乎完美，在后续训练 GPT 4 的时候，语法方面的性能提升可能就微乎其微。

而在数学能力方面， GPT 3 和 GPT 2 表现较差，但是 GPT 4 却有了巨大的飞跃。这种现象被称为涌现能力或者是象变。

以翻译任务为例，当给定提示“我喜爱踢足球和网球”，并且要求翻译成西班牙语的时候，较小的模型 Adam 和 badage 可能只是重复答案，无法正确的完成翻译，而最大的模型 Q2 却能够突然学会并且完美的执行这项任务。

这表明在模型规模达到必定程度后，一些原本难以完成的任务会突然变得可行。模型的能力出现了质的提升，但是仅仅通过 scaling 下一个词的预测就想要实现 AJ 的想法，可能会面临巨大的挑战，由于对于某些词的预测超级困难，需要进行大量的计算和复杂的推理。比方说在面对这样一个数学问题的时候，为了预测下一个词，也就是正确的答案，a、 b 或者 c 模型实际上需要完成整个数学计算过程。

这对于单纯的下一个词预测来说是一个巨大的瓶颈。为了解决这个问题，研究人员提出了思维链提示的方法。这种方法类似于我们在解决数学问题时向老师展示解题的过程，要求语言模型在给出最终答案之前输出推理列。

实践证明这种方法在数学应用题基准测试中效果显著，能够大幅提升模型的性能，并且随着模型规模的扩大，性能提升效果更加明显。

不过思维链提示也存在着必定的局限性。在互联网上的大部分数据中，模型训练所依据的推理过程往往是事后总结的，而不是真实的思维过程。

例如大学数学作业的解决方案一般是经过整理和完善的，与我们实际的思考过程可能存在的差异。我们真正希望模型能够模拟的是人类的内心独白或者思想流，列如说我先看看我们应该采取什么方法。我试试这个，实际上好像错了，我再试试别的方法，我算一下这个好了，答案对了，这是我的最终答案。但是目前的训练数据还难以完全满足这个要求，于是这就引出了第二个 scaling 范式，那就是在思维链上去 skilling 强化学习。

这个范式的核心思想是训练语言模型，在给出答案之前进行思考，除了向传统的扩展训练计算量之外，还增加了一个新的维度，也就是扩展语言模型在推理时可以思考的时间长度。 Open AI 发布的 O1 模型就是这个范式的典型代表。在解决化学问题的时候， O1 模型会第一明确问题，列如说第一让我们来理解一下问题是什么，然后逐步的分析问题，确定存在着哪些离子。思考不同的计算策略，列如计算 pH 值的时候会思考 Ka 和 KB 值的关系，不断回溯和调整思路，最终得出正确答案。在填字、游戏数独等等具有验证不对称性的问题上，或者模型也表现出色，那么什么是不对称性问题呢？就是验证一个解决方案要比生成一个解决方案要容易得多。

比方说在解决填字游戏的时候，O1会先行思考横行可能的答案，然后再根据数行的线索进行验证和调整，逐步找到正确的答案。在竞赛数学和竞赛代码等等需要大量思考才能够获得良好表现的问题上，或者模型相比于 GPT 4o 有了巨大的提升。在竞赛数学数据集上的 pass one 准确率会随着训练计算量的增加而提高，而且在推理的时候给模型更多的时间去思考，也能够在基准测试上取得更好的成绩。这表明在思维链上 scaling 强化学习的范式为模型处理复杂问题提供了更强劲的能力。

从长远来看，我们希望人工智能能够协助我们解决人类面临的一些最具有挑战性的问题，列如说听力、疾病、环境保护等等。在未来我们可以想象为一个超级具有挑战性的问题提供一个提示，比方说撰写一篇关于让 AI 更安全的最佳方法的研究论文。

语言模型可以在推理时分配大量的计算资源，通过长时间的思考和分析，可能需要在数千个 GPU 上处理一个月，最终返回一个全面的答案和研究成果。另外，随着 scaling law 在人工智能领域的广泛应用，它也深刻的改变了 AI 的文化。

在数据方面，过去研究人员主要致力于改善神经网络来学习特定的 XY 之间的关系。而目前的重点更多的转向了去收集更好的 x 和 y 集合。比方说谷歌的 Manova 论文揭示了通过在大量的数学数据和档案数据上对现有的语言模型进行持续的训练，可以显著提高模型的数学性能，这表明数据的质量和多样性在模型训练中越来越重大。

在评估方法上，目前行业中存在着一个急需解决的问题，那就是缺乏能够准确评估语言模型能力边界的评估方法。从一些基准测试的发展情况来看，列如说GPQA，它是近年以来最具有挑战性的基准测试之一。但是在大约一年之内就被 O1 模型给跑饱和了，这说明现有的评估基准很容易被前沿模型达到性能上限，难以真正衡量模型的全部能力，我们需要更加完善和多样化的评估方法来准确的评估模型的性能和进步。

在模型类型上出现了从单一任务模型向高度多任务模型的转变。过去每个自然语言处理任务都需要单独的模型，而目前一个模型可以尝试完成多种不同的任务，不过这也带来了一些挑战，列如说在不同的任务和维度上去衡量模型的优劣变得更加复杂。

一个模型可能在某些方面表现出色，列如说能够成为竞赛级的程序员和数学家，但是在一些简单的比较问题上，列如说判断9.1和9.8哪个更大的时候却可能出现错误。这说明我们不能仅仅依靠单一的指标来评估模型的整体性能，需要综合思考多个方面的因素，在团队规模上也发生了显着的变化。

在 2015 年，像狄德里克金马和吉米巴这样的两个人就可以写出具有开创性的论文。列如说被广泛引用的 Adam，一种随机优化方法，不过如今构建像 o1 或者是 gemini 这样的大型模型则需要一个庞大的团队，反映随着人工智能技术的发展，项目的复杂性在不断的增加，需要更多的专业人员参与到模型的研发和训练过程中。

最后， Jason 为展望了一下人工智能的未来，认为 AI 在多个方向上有着巨大的发展潜力，列如说在科学和医疗保健领域，减少模型的幻觉方面多模态以及 AI 对于工具的使用等等。

另外未来要重点关注的一个方面在于人工智能的应用落地。虽然目前在许多技术领域已经取得了很大的进展，但是实际部署和广泛应用方面依旧存在着必定的差距，列如说在全球范围内大规模部署自动驾驶技术依旧面临着许多的挑战。我们需要进一步缩小技术前沿与实际应用之间的差距，让人工智能真正的造福人类社会。

本文由 @Mico 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

MATLAB实现基于GAF-LSSVM格拉姆角场（GAF）结合最小二乘支持向量机（LSSVM）进行故障诊断分类预测的详细项目实例

新MATLAB实现基于GAF-LSSVM格拉姆角场（GAF）结合最小二乘支持向量机（LSSVM）进行故障诊断分类预测的详细项目实例

12小时前

000

MyBatis-Flex是如何避免不同数据库语法差异的？

新MyBatis-Flex是如何避免不同数据库语法差异的？

6天前

020

其他应用程序-用C语言控制打印机

新其他应用程序-用C语言控制打印机

3天前

000

LUMA X水下无线光通信系统分析

新LUMA X水下无线光通信系统分析

4天前

000

暂无评论

none

暂无评论...