关于 AI Infra 的一切

内容分享2个月前发布

AI Infra作为人工智能发展的基石，正随着大模型的崛起而备受瞩目。本文深入探讨AI Infra的内涵、发展历程、技术要求以及未来趋势，通过与行业专家的对话，为我们揭示了这一领域的机遇与挑战，协助读者全面了解AI Infra的核心价值与发展方向，一起来看。

本文嘉宾朱亦博可以说是国内最了解 AI Infra 的人之一，从微软、字节 AI Infra 负责人到谷歌、再到阶跃联创，他的职业经历几乎和 AI Infra 的发展并行。

本期播客对谈原文约 19000 字，本文经过删减整理后约 7000 字。

曲凯：从你的视角来看，怎么理解 AI Infra？

亦博：AI Infra 包括硬件和软件两部分。

硬件是指 AI 芯片、GPU、交换机等设备。软件层面我喜爱用云计算来类比，可以分为三层：

最底层类似 IaaS，解决的是最基础的计算、通信和存储问题。

中间一层类似 PaaS，包含资源调度、资源管理等平台。MaaS（Model-as-a-Service）就归属这一层。

最上层近似 SaaS 应用层，但在 AI Infra 领域，我更倾向于把这一层理解为训练及推理框架的优化层。

曲凯：可以说你的职业生涯跟 AI Infra 的发展基本是同步的吗？

亦博：是，但我实则是第二批 AI Infra 人，第一批是贾扬清、李沐、陈天奇这些有算法背景的人。他们当时要做先进的算法，需要充分利用 GPU，于是就做了 AI Infra。

曲凯：所以是第一批人从无到有把这件事做了出来？

亦博：可以这么理解。我们这第二批人干的更多是上规模的事情，让 AI Infra 在工业界得到应用。

曲凯：那大模型这两年的兴起，对 Infra 从业者来说应该是一个特别好的机会吧？由于 AI Infra 一下子进入了主舞台。

亦博：的确如此，这也是为什么我觉得必定要出来创业。

过去 Infra 人才很难参与到一个公司的初创过程中，由于 Infra 服务于上层应用和数据处理，只有当业务规模足够大时，对 Infra 的需求才会凸显。

但是大模型的确带来了一个超级好的机会。

上一次类似的节点，是搜索引擎刚刚兴起的时候。列如 Google 当年面对的是规模空前的互联网数据，而要处理这些数据，它就需要世界一流的 Infra。所以从某种程度上讲， Google 本质是一家 Infra 公司，它的成功从一开始就离不开它强劲的 Infra。

而如今，大模型一上来就对算力和数据提出了前所未有的要求，所以我认为目前是 Infra 从业者真正进入核心舞台的少有机会。这样的窗口，可能十年、二十年才会出现一次。

曲凯：那移动互联网的 Infra 和 AI Infra 有哪些异同？

亦博：它们的底层目标是一致的，就是要高效稳定地整合计算、通信和存储资源。

但在实操层面，它们对硬件、网络互联、存储方式的要求都完全不同。列如，AI Infra 的绝对核心是 GPU，而传统 Infra 的核心是 CPU。

在 Infra 的世界里，太阳底下没有太多的新鲜事，但 AI Infra 在许多方面要做到更极致、更贴合 AI 的特殊需求。

曲凯：那在这样的背景下，未来做 AI Infra 的人，更多会是新一批成长起来的工程师，还是由传统 Infra 人转型而来的？

亦博：我觉得都会有。这方面 Infra 和算法很不一样。

算法超级依赖年轻人。甚至我有做算法的朋友说过，算法人只有两年的保质期，两年后 Ta 把自己的机智才智发挥完了，就会陷入思维定势，反而跟不上后面的新东西了。

但 Infra 相对来说更强调积累。

曲凯：那你们关注的核心指标有哪些？

亦博：列如在线上服务侧，我们会看模型响应的首字延迟、后面吐字是不是稳定顺畅、整体的成本能不能降低等等。在训练侧，我们主要看每张 GPU 能处理的数据量和训练效率。

曲凯：听起来是不是只有规模很大的公司才需要用到 AI Infra？

亦博：实则所有的产品都依赖 Infra，区别在于你要不要投入成本去做自己的 Infra，以及这种投入对你的业务来说值不值得。

这笔账实则很好算。

假设你有 1 万张 GPU，每月租金 1 个亿。如果你雇了一批 Infra 工程师，能把 GPU 利用率提升 10%，那你每月就能节省 1000 万，或者说多赚 1000 万。

那你愿意为了这 1000 万投入多少人力成本？

无论是在前司还是现司，我们优化 Infra 之后省下的钱，都可以很轻松地 cover 这部分的人力成本。从这个角度来说，投入 Infra 是可以帮公司挣钱的，而且这件事的确定性很高。

对于一些较小的公司来说，也可以用同样的逻辑进行计算：你值不值得雇 10 个人来优化百分之多少的性能？

你可以对比一下，要做到同样的优化效果，云厂商的标准化方案需要多少钱。如果你自己做不到更低的成本，那就说明用 MaaS 或公有云服务更划算。

这也是目前这些服务商的价值锚点：协助规模较小的公司节省 Infra 优化的成本。

曲凯：那按理说，Infra 这件事应该是云厂商和模型方做到极致了才对，为什么还有一些第三方公司在做？

亦博：短期来看，第三方的价值，是为客户提供一个「API 集贸市场」，让他们自由选择不同的 API，由于模型厂商的 Infra 主要服务于自家的模型或 API。虽然有些公有云也在提供类似的服务，但还是有第三方的空间。

不过长远来看，如果第三方公司没有独特的价值，的确很容易被云厂商或模型公司吃掉。

那突破口在哪里？我是这么思考的：

AI Infra 的底层是硬件，上层是模型。当硬件和模型都逐渐趋于开放和普及时，只做中间那一层 Infra 的价值的确会很有限，而且会超级卷。由于说白了，没人能在 Infra 这一层拉开特别大的技术差距，也很难形成长期壁垒。你今天领先一点，几个月后可能就被赶上了。

所以我认为，第三方想做出壁垒，就得和硬件或者模型去做垂直整合。

以 MaaS 的生意为例。MaaS 可以看作是一个 API 的分发平台，除了标准 API 之外，真正能留住用户的，是那些别人没有的东西。

就像你为什么要买 PS5？是由于这个游戏机上有一些独占的游戏。

同理，有的 MaaS 服务商与特定的硬件厂商有深度合作，能以更低成本获得算力资源，同时它还有对硬件的独到见解，那这些就是它的差异化优势。

所以这里可以给从业者一个提议，就是不要做夹在模型和硬件中间的那个人。

我目前选择站在模型这一侧，你也可以选择站在硬件那一端。

这是由于 AI Infra 有个超级独特的背景，就是当前是硬件和模型都在追求极致的时刻。如果有人想做出像 DeepSeek 那样在硬件上跑得超级有效率和性价比的模型，就需要既懂硬件又懂模型。而这种「两头通」的能力，恰恰是 Infra 人的特长。

所以，如果你愿意迈出这一步，往上和模型做深度整合，或往下与硬件做 co-design，就有许多机会。但如果你固步自封，只在中间做优化，那的确就把路走窄了。

曲凯：但和模型或者硬件绑定之后，万一最后发现选错了怎么办？

亦博：所以关键在于你必须是主动的参与者，而不是被动搭便车的人。

如果你比硬件厂商更懂模型，那你就可以影响硬件的设计方向。如果你比模型团队更懂硬件，也可以反向影响模型架构的设计。

当你具备了这种影响力，成功了当然是共赢，即使失败，那也是你主动做出的判断和选择。

曲凯：清楚。

我们前面讲的主要是 Infra 降本增效的事情，那实际上它对模型最终的训练效果到底有多大的影响？该怎么评判？

亦博：Infra 水平的确会影响模型的效果，这也是为什么 Infra 对大模型公司而言超级重大。

实则各家公司都在参与同一场比赛，就是「给定算力，怎么训出最好的模型」。

假设大家都拿 5000 张卡，在其他条件一样的前提下，如果我的 Infra 优化得更好，效率高出 20%，那在同样的时间里，我就能多学 20% 的数据，训练出的模型自然也会有更好的效果。

曲凯：所以 Infra 是有标准化的性能指标的？

亦博：对，列如 MFU 就是一个比较常见的指标。它衡量的是硬件利用率，分子是实际完成的浮点运算次数，分母是理论最大算力，MFU 越高，说明硬件被用得越充分。

曲凯：我记得当时 DeepSeek 公开了他们的 MFU？

亦博：实际上 DeepSeek 的 MFU 是偏低的，但你也不能说他们的 Infra 做得不好。

衡量 Infra 的性能实则很复杂，仅靠单一指标很难判断 Infra 的优劣。Infra 的性能和硬件、模型，还有优化目标都密切相关。

实则 DeepSeek 之所以能冲出来，一大缘由是选对了优化目标。

当时 DeepSeek 的优化目标和其他所有人都不一样。列如我们当时的优化目标是「给定训练算力，怎么训出最好的模型」，而 DeepSeek 的目标是「给定推理的成本，怎么训出最好的模型」。

至少在 24 年上半年时，DeepSeek 的基模并不比大家强。

那这个局面什么时候扭转了呢？

就是在 24 年 9 月 o1 发布之后。

o1 让大家看到，如果在推理阶段让模型多思考一会，模型最终输出的效果会更好。这种训练方式，正是强化学习的典型机制。而由于 DeepSeek 的优化目标更符合强化学习的需求，所以他们能以更低的推理成本、更快的速度去输出结果和训练模型。于是他们率先完成了 R1，一下子甩开了其他团队。

你可以说 DeepSeek 的成功有一些运气因素。他们最初在设定优化目标时，大致率也没料到 Test-Time Scaling 会在 24 年下半年变成关键趋势。但许多事情的成功，靠的就是天时地利人和。

所以说回来，Infra 的确有各种性能指标，但如果想取得好的结果，最重大的是你要想清楚，哪一个指标的优先级最高。这个指标不仅要符合你的产品需求，也要顺应整个行业的发展方向和未来技术趋势。

不同团队的技术水平固然有高低之分，但真正拉开差距的，往往是有没有选对努力方向。

曲凯：所以当下有比较通用的第一指标吗？

亦博：这件事还有许多非共识。

实则从 o1、 R1 验证了强化学习的路径之后，我认为当前最重大的指标就是 decoding 的速度。

推理分为输入和输出两部分。输入的关键指标是模型处理长文本的速度，输出的关键指标则是模型吐字的速度。我认为目前最重大的指标是后者。它决定了线上业务的成本，也直接决定了强化学习的效率。由于如果你输出很慢，那你获得 reward 的速度就比其他模型要慢。

但目前还有人很看重 MFU 之类的老指标。在我看来，还特别关注这类指标的人，对当下技术的认知是有问题的。

曲凯：你前面有提到，Infra 人是既懂硬件又懂模型的人，那算法人是什么样的？二者该怎么合作？

亦博：最理想也最简单的合作方式，就是大家像一个团队一样，为共同目标协作。

许多事情都有 trade-off，列如有时损伤系统性能，但能换来算法上的提升，有时候则是反过来。遇到这些情况，最好是两边能一起讨论该谁来让步。

不过这是小团队的优势。在许多大厂里，很难实现这一点。

在大厂，Infra 总被视为支持性的角色。许多时候是算法人给 Infra 人提需求，但是 Infra 人没有反向的影响力。

曲凯：对，而且在许多人眼里，Infra 的核心就是「降本」，但「降本」一般不是一个最优先的目标。

亦博：这正是我认为需要被纠正的观念。前面提到过，Infra 实际上是可以对模型效果有正向影响的，而不仅仅是只能降本。

曲凯：听起来就是要 Infra 人发挥主观能动性？

亦博：还不够。列如你带一个 Infra 团队，另一个人带算法团队，大家向同一个 leader 汇报，但这个 leader 只懂算法，那你猜会发生什么？

所以许多问题到最后都是组织架构的问题。

模型实则由算法、Infra 和数据这个铁三角决定。三者缺一不可，必须协同。

但许多人对模型的理解存在偏差。列如，一个模型的算法效果往往取决于数据，而不是算法；一个模型的效率成本主要由 Infra 决定，也不是算法。

所以实际上比较合理的组织架构是，让 Infra 人去设计模型结构，由于 Infra 人最知道该怎么提高效率、节省成本，让数据的人去负责刷模型的点数和 benchmark 分数，由于他们最懂怎么喂模型，而算法人应该主要负责训练的范式革新。

曲凯：听起来很合理啊，目前许多团队不是这样的吗？

亦博：不是。目前在许多团队中，基本都是算法人在设计模型结构、刷模型点数。但实际上算法人不必定最适合做这些事。

曲凯：所以阶跃从一开始就在用最正确的方法吗？还是也踩过一些坑？

亦博：当然也踩过坑哈哈。列如我们一开始对自己的算力和能力都过于自信，所以干了一个比 Llama 还大的模型。虽然我们把它训出来了，但是这个巨大的模型有一些问题，过程中我们也犯了一些错误。

但我觉得这也没什么。你赌的所有事情就是可能会错，踩过坑之后再爬起来往前走呗。这一局输了，那下一局我再干回来。

曲凯：还有什么业内真实的踩坑案例吗？

亦博：列如最近有家公司开源了一个模型，声称自己虽然参数量不大，但由于算法做得好，所以效果可以越级媲美更大的模型。

但这个模型由于架构设计的问题，实际运行效率超级低，甚至还不如那些大模型快。

这背后反映的问题是，实则许多做算法的人并不真正懂硬件，也不了解模型在 Infra 层是怎么运行的。

算法人员做模型架构研究的时候，可能会画一张图，横轴是模型的尺寸或激活量，纵轴是某些算法效果指标。然后他们会尝试在这张图上找到一个 sweet point，能让模型在尺寸不大的情况下，算法效果还不错，然后就丢给 Infra 人去做优化了。

即便 Infra 人能满足算法人的需求，模型实际运行起来也会出问题。

如果真要画图，横轴应该是模型的实际运行成本或运行效率，纵轴是模型效果。你得跑大量实验，才能在这张图上画出各种点，然后在其中找到那个真正可落地的最优点。

而这件事情只有在拉通所有团队之后，才有可能完成。

曲凯：是。模型这边上一个 Aha Moment 依旧是年初的 DeepSeek。虽然最近一直有传言说 GPT-5 要发布了，但到底什么时候发、表现怎么样，还没人说得准。而且许多人一直在说 scaling law 撞墙了、数据不够了等问题。

那你怎么看未来模型的发展？

亦博：模型范式的革新不会那么快，但多模态还是有一些突破的可能性的，尤其是多模态生成和理解的统一。

目前多模态的状态，实则挺像 20 年的 bert 模型，就是具备了理解能力，但还没有真正做通理解和生成。

做通的标志，是同一个模型在理解任务上能超越专门做理解的模型，在生成任务上也能击败专门做生成的模型。就像 GPT-3.5 出来之后，直接让许多做翻译之类的专用模型退休了一样。

曲凯：Google Veo 3 的效果看起来已经很不错了。

亦博：但 Veo 3 还是偏上一代的模型，核心是做生成。只不过它的工程做得比较好，把配乐之类的各种功能都很好地融合了起来。

实则技术突破和产品效果并不是线性相关的。Veo 3 的确把上一代的技术发挥到了超级强的水平，但它本身并没有带来太多范式上的创新。

曲凯：清楚。那你觉得对于初创或者第三方的 AI Infra 公司来讲，机会在哪？

亦博：我个人觉得训练侧的商业模式不太成立。由于目前训模型的人都超级懂行，所以你很难挣到这些人的钱。而且他们也不太愿意把训练过程中的研发细节交给第三方，否则就泄露了自己的核心竞争力。

排除训练之后，推理侧还是有一些机会的，列如推理加速、推理优化。

曲凯：那开源模型对 AI Infra 市场来讲会有什么影响吗？

亦博：整体而言，开源模型对 AI Infra 的发展是有促进作用的。由于一个开源模型火起来，大家就会去研究怎么把它跑得更好，这个过程实则就促进了 AI Infra 的进步。

但所有事情都有两面性。如果某个开源模型太火，然后大家都花许多精力去优化它，可能反而会影响创新。列如 DeepSeek 出来之前，许多人都在优化 Llama，结果 DeepSeek 的新范式一出，之前大家在 Llama 上的许多积累就废掉了。

这里我还想再补充一点。目前的 Infra 基本都是围绕英伟达卡来做优化的，虽然也有团队尝试用国产芯片替代英伟达，但许多时候国产卡不是跑不动，而是性价比不如英伟达。

举个例子，当 DeepSeek 这样超级好用的开源模型出现之后，一些做一体机的公司会发现，他们用英伟达卡跑 DeepSeek 就是比用国产卡更有性价比，所以他们就更愿意选择英伟达的卡。

但我们超级希望国产卡在技术层面也能具备竞争力。列如，是不是可以根据国产卡的特性去专门设计模型结构，让它在国产卡上也能高效运行，并达到 SOTA 水平？

我们最近开源的 Step 3，就是在这个方向上的一次实践。Step 3 是国内首个支持第三方商用的、数百 B 规模的视觉推理模型，并且能跑出 SOTA 水平。

曲凯：怎么理解视觉推理？

亦博：视觉推理就是模型可以根据图片、视频抽帧等视觉信息，直接完成推理任务。

列如，你让机器人去柜子里拿一个东西，但那个目标物品被杂物遮挡住了。这时机器人要完成这个任务，就要进行视觉推理，来进行任务的拆解和决策。

对于机器人或者手机、汽车等智能设备来说，它们天然就有视觉这个模态。那么根据周边的环境、看到的东西去决定怎么完成复杂任务的过程，就是典型的视觉推理模型做的事情。

视觉推理模型还有一个更常见的应用场景，就是拍照解题。

曲凯：这件事之前也有一些模型可以做到，它们应该就是把图片转成文字，再去做文字推理。

亦博：但我认为这种方式不是真正的视觉推理。我们目前不需要中间那段转文字的过程，而是让模型好似真的能看懂图片，然后直接看图推理。

还是举刚才那个让机器人拿东西的例子。如果你要拿的那个目标物品周围有许多遮挡，你实则很难用文字把它们在物理世界中的位置关系描述清楚，也会丢掉许多信息。

但如果模型直接看图，就能很直观地知道应该先把这个东西拿开，再把那个东西拿开，最后拿到目标物品。

曲凯：清楚。那你们为什么选择开源？

亦博：我们希望做到全国上下产业都获益。

我们决定给所有国产芯片一份免费商用的授权，开放模型权重，并且尽量帮他们做好模型适配。同时我们也把 Step 3 在国产卡上的推理成本压到了一个很低的水平，提高了国产卡在性价比上的竞争力。

通过开源，我们希望能够协助国产芯片构建商业竞争力，也希望他们能推广我们的模型，最后实现共赢。

曲凯：我突然想到一个问题，就是多模态模型的成本未来到底会以什么速度下降到什么程度？由于目前多模态还是太贵了。

亦博：多模态理解目前已经不算贵了，不过生成还是挺贵的，尤其是视频生成。

但我对成本降低还是蛮乐观的。我觉得一年后，应该能下降许多，能不能到十分之一不好说，但几分之一没问题。

曲凯：你觉得目前做 Infra 的人在许多公司里，是不是还是容易被低估?

亦博：在大模型时代，这种情况已经好许多了。目前 Infra 已经是模型能力的核心组成部分之一。

之前也有人说过，DeepSeek 做得好就是由于梁文锋是 Infra 人。

曲凯：这怎么讲？

亦博：由于梁文锋是做量化出身的，而量化很强调低延迟，所以他需要对 Infra 有研究。在算法、数据和 Infra 之间，他可能最擅长的就是 Infra。这在业界也算是共识。

而且据我所知，DeepSeek 的 Infra 工程师数量比算法工程师要多。

但在许多大公司里，这个情况是反过来的。这可能也是在过去一段时间里，一些大厂比较挣扎的缘由之一。

实则在大模型快速发展的阶段，就是需要有大量的 Infra 人，来把硬件设计和模型优化做到极致，并且做好垂直整合。但在大厂里，他们的人才结构是错配的，不符合做好 AI 的本质需求。

曲凯：清楚。最后，你会给正在做或者想转行做 AI Infra 的人什么提议？

亦博：前面有提到过，我的提议就是靠近模型，或者靠近硬件。

另外，希望你还是打心底对 Infra 感兴趣，有足够的主观能动性去做各种各样的 co-design。

最后我想再补充一点。我最喜爱的一篇文章就是 Richard Sutton 的《The Bitter Lesson》。文中的核心观点是，从长期来看，胜出的永远是那些能最大程度利用计算资源的方法。短期内各种奇技淫巧可能有效，但都不能本质地解决问题。

虽然这篇文章是从算法视角写的，但对 Infra 人也同样有很重大的指导意义。由于我们最根本的任务，就是设计出能发挥硬件全部性能的模型和系统软件，让模型能充分利用这些资源。

当然，我最希望的是也许有朝一日，我们还能反过来影响硬件，换取摩尔定律的不断延续。42章经思考事物本质

本文由人人都是产品经理作者【曲凯】，微信公众号：【42章经】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Meta 刚刚在 Hugging Face 上发布了 MobileLLM-R1 边缘推理模型，参数少于 10 亿性能提升 2–5×，超越其他完全开源模型：MobileLLM-R1 MATH 准确率上比 Olmo-1.B 高约 5 倍，比 SmolLM2-1.7B 高约 2 倍

Meta 刚刚在 Hugging Face 上发布了 MobileLLM-R1 边缘推理模型，参数少于 10 亿性能提升 2–5×，超越其他完全开源模型：MobileLLM-R1 MATH 准确率上比 Olmo-1.B 高约 5 倍，比 SmolLM2-1.7B 高约 2 倍

内容分享 # 技术分享 # 日常生活 # 每天跟我涨知识

10个月前

0140

Docker基础教程（二十四）Mac OS版安装教程：鲸鱼敲门！Mac电脑安装Docker全攻略，开发效率飙升不是梦

Docker基础教程（二十四）Mac OS版安装教程：鲸鱼敲门！Mac电脑安装Docker全攻略，开发效率飙升不是梦

10个月前

060

nginx 配置里upstream的作用是什么

nginx 配置里upstream的作用是什么

9个月前

080

第2章点亮你的LED（2.5）

第2章点亮你的LED（2.5）

8个月前

010

1 条评论

何一凡读者

[db:评论]

2个月前无记录

回复