AI Infra作为人工智能发展的基石,正随着大模型的崛起而备受瞩目。本文深入探讨AI Infra的内涵、发展历程、技术要求以及未来趋势,通过与行业专家的对话,为我们揭示了这一领域的机遇与挑战,协助读者全面了解AI Infra的核心价值与发展方向,一起来看。
本文嘉宾朱亦博可以说是国内最了解 AI Infra 的人之一,从微软、字节 AI Infra 负责人到谷歌、再到阶跃联创,他的职业经历几乎和 AI Infra 的发展并行。
本期播客对谈原文约 19000 字,本文经过删减整理后约 7000 字。
曲凯:从你的视角来看,怎么理解 AI Infra?
亦博:AI Infra 包括硬件和软件两部分。
硬件是指 AI 芯片、GPU、交换机等设备。软件层面我喜爱用云计算来类比,可以分为三层:
最底层类似 IaaS,解决的是最基础的计算、通信和存储问题。
中间一层类似 PaaS,包含资源调度、资源管理等平台。MaaS(Model-as-a-Service)就归属这一层。
最上层近似 SaaS 应用层,但在 AI Infra 领域,我更倾向于把这一层理解为训练及推理框架的优化层。
曲凯:可以说你的职业生涯跟 AI Infra 的发展基本是同步的吗?
亦博:是,但我实则是第二批 AI Infra 人,第一批是贾扬清、李沐、陈天奇这些有算法背景的人。他们当时要做先进的算法,需要充分利用 GPU,于是就做了 AI Infra。
曲凯:所以是第一批人从无到有把这件事做了出来?
亦博:可以这么理解。我们这第二批人干的更多是上规模的事情,让 AI Infra 在工业界得到应用。
曲凯:那大模型这两年的兴起,对 Infra 从业者来说应该是一个特别好的机会吧?由于 AI Infra 一下子进入了主舞台。
亦博:的确 如此,这也是为什么我觉得必定要出来创业。
过去 Infra 人才很难参与到一个公司的初创过程中,由于 Infra 服务于上层应用和数据处理,只有当业务规模足够大时,对 Infra 的需求才会凸显。
但是大模型的确 带来了一个超级好的机会。
上一次类似的节点,是搜索引擎刚刚兴起的时候。列如 Google 当年面对的是规模空前的互联网数据,而要处理这些数据,它就需要世界一流的 Infra。所以从某种程度上讲, Google 本质是一家 Infra 公司,它的成功从一开始就离不开它强劲的 Infra。
而如今,大模型一上来就对算力和数据提出了前所未有的要求,所以我认为目前是 Infra 从业者真正进入核心舞台的少有机会。这样的窗口,可能十年、二十年才会出现一次。
曲凯:那移动互联网的 Infra 和 AI Infra 有哪些异同?
亦博:它们的底层目标是一致的,就是要高效稳定地整合计算、通信和存储资源。
但在实操层面,它们对硬件、网络互联、存储方式的要求都完全不同。列如,AI Infra 的绝对核心是 GPU,而传统 Infra 的核心是 CPU。
在 Infra 的世界里,太阳底下没有太多的新鲜事,但 AI Infra 在许多方面要做到更极致、更贴合 AI 的特殊需求。
曲凯:那在这样的背景下,未来做 AI Infra 的人,更多会是新一批成长起来的工程师,还是由传统 Infra 人转型而来的?
亦博:我觉得都会有。这方面 Infra 和算法很不一样。
算法超级依赖年轻人。甚至我有做算法的朋友说过,算法人只有两年的保质期,两年后 Ta 把自己的机智才智发挥完了,就会陷入思维定势,反而跟不上后面的新东西了。
但 Infra 相对来说更强调积累。
曲凯:那你们关注的核心指标有哪些?
亦博:列如在线上服务侧,我们会看模型响应的首字延迟、后面吐字是不是稳定顺畅、整体的成本能不能降低等等。在训练侧,我们主要看每张 GPU 能处理的数据量和训练效率。
曲凯:听起来是不是只有规模很大的公司才需要用到 AI Infra?
亦博:实则所有的产品都依赖 Infra,区别在于你要不要投入成本去做自己的 Infra,以及这种投入对你的业务来说值不值得。
这笔账实则很好算。
假设你有 1 万张 GPU,每月租金 1 个亿。如果你雇了一批 Infra 工程师,能把 GPU 利用率提升 10%,那你每月就能节省 1000 万,或者说多赚 1000 万。
那你愿意为了这 1000 万投入多少人力成本?
无论是在前司还是现司,我们优化 Infra 之后省下的钱,都可以很轻松地 cover 这部分的人力成本。从这个角度来说,投入 Infra 是可以帮公司挣钱的,而且这件事的确定性很高。
对于一些较小的公司来说,也可以用同样的逻辑进行计算:你值不值得雇 10 个人来优化百分之多少的性能?
你可以对比一下,要做到同样的优化效果,云厂商的标准化方案需要多少钱。如果你自己做不到更低的成本,那就说明用 MaaS 或公有云服务更划算。
这也是目前这些服务商的价值锚点:协助规模较小的公司节省 Infra 优化的成本。
曲凯:那按理说,Infra 这件事应该是云厂商和模型方做到极致了才对,为什么还有一些第三方公司在做?
亦博:短期来看,第三方的价值,是为客户提供一个「API 集贸市场」,让他们自由选择不同的 API,由于模型厂商的 Infra 主要服务于自家的模型或 API。虽然有些公有云也在提供类似的服务,但还是有第三方的空间。
不过长远来看,如果第三方公司没有独特的价值,的确 很容易被云厂商或模型公司吃掉。
那突破口在哪里?我是这么思考的:
AI Infra 的底层是硬件,上层是模型。当硬件和模型都逐渐趋于开放和普及时,只做中间那一层 Infra 的价值的确 会很有限,而且会超级卷。由于说白了,没人能在 Infra 这一层拉开特别大的技术差距,也很难形成长期壁垒。你今天领先一点,几个月后可能就被赶上了。
所以我认为,第三方想做出壁垒,就得和硬件或者模型去做垂直整合。
以 MaaS 的生意为例。MaaS 可以看作是一个 API 的分发平台,除了标准 API 之外,真正能留住用户的,是那些别人没有的东西。
就像你为什么要买 PS5?是由于这个游戏机上有一些独占的游戏。
同理,有的 MaaS 服务商与特定的硬件厂商有深度合作,能以更低成本获得算力资源,同时它还有对硬件的独到见解,那这些就是它的差异化优势。
所以这里可以给从业者一个提议,就是不要做夹在模型和硬件中间的那个人。
我目前选择站在模型这一侧,你也可以选择站在硬件那一端。
这是由于 AI Infra 有个超级独特的背景,就是当前是硬件和模型都在追求极致的时刻。如果有人想做出像 DeepSeek 那样在硬件上跑得超级有效率和性价比的模型,就需要既懂硬件又懂模型。而这种「两头通」的能力,恰恰是 Infra 人的特长。
所以,如果你愿意迈出这一步,往上和模型做深度整合,或往下与硬件做 co-design,就有许多机会。但如果你固步自封,只在中间做优化,那的确 就把路走窄了。
曲凯:但和模型或者硬件绑定之后,万一最后发现选错了怎么办?
亦博:所以关键在于你必须是主动的参与者,而不是被动搭便车的人。
如果你比硬件厂商更懂模型,那你就可以影响硬件的设计方向。如果你比模型团队更懂硬件,也可以反向影响模型架构的设计。
当你具备了这种影响力,成功了当然是共赢,即使失败,那也是你主动做出的判断和选择。
曲凯:清楚。
我们前面讲的主要是 Infra 降本增效的事情,那实际上它对模型最终的训练效果到底有多大的影响?该怎么评判?
亦博:Infra 水平的确 会影响模型的效果,这也是为什么 Infra 对大模型公司而言超级重大。
实则各家公司都在参与同一场比赛,就是「给定算力,怎么训出最好的模型」。
假设大家都拿 5000 张卡,在其他条件一样的前提下,如果我的 Infra 优化得更好,效率高出 20%,那在同样的时间里,我就能多学 20% 的数据,训练出的模型自然也会有更好的效果。
曲凯:所以 Infra 是有标准化的性能指标的?
亦博:对,列如 MFU 就是一个比较常见的指标。它衡量的是硬件利用率,分子是实际完成的浮点运算次数,分母是理论最大算力,MFU 越高,说明硬件被用得越充分。
曲凯:我记得当时 DeepSeek 公开了他们的 MFU?
亦博:实际上 DeepSeek 的 MFU 是偏低的,但你也不能说他们的 Infra 做得不好。
衡量 Infra 的性能实则很复杂,仅靠单一指标很难判断 Infra 的优劣。Infra 的性能和硬件、模型,还有优化目标都密切相关。
实则 DeepSeek 之所以能冲出来,一大缘由是选对了优化目标。
当时 DeepSeek 的优化目标和其他所有人都不一样。列如我们当时的优化目标是「给定训练算力,怎么训出最好的模型」,而 DeepSeek 的目标是「给定推理的成本,怎么训出最好的模型」。
至少在 24 年上半年时,DeepSeek 的基模并不比大家强。
那这个局面什么时候扭转了呢?
就是在 24 年 9 月 o1 发布之后。
o1 让大家看到,如果在推理阶段让模型多思考一会,模型最终输出的效果会更好。这种训练方式,正是强化学习的典型机制。而由于 DeepSeek 的优化目标更符合强化学习的需求,所以他们能以更低的推理成本、更快的速度去输出结果和训练模型。于是他们率先完成了 R1,一下子甩开了其他团队。
你可以说 DeepSeek 的成功有一些运气因素。他们最初在设定优化目标时,大致率也没料到 Test-Time Scaling 会在 24 年下半年变成关键趋势。但许多事情的成功,靠的就是天时地利人和。
所以说回来,Infra 的确 有各种性能指标,但如果想取得好的结果,最重大的是你要想清楚,哪一个指标的优先级最高。这个指标不仅要符合你的产品需求,也要顺应整个行业的发展方向和未来技术趋势。
不同团队的技术水平固然有高低之分,但真正拉开差距的,往往是有没有选对努力方向。
曲凯:所以当下有比较通用的第一指标吗?
亦博:这件事还有许多非共识。
实则从 o1、 R1 验证了强化学习的路径之后,我认为当前最重大的指标就是 decoding 的速度。
推理分为输入和输出两部分。输入的关键指标是模型处理长文本的速度,输出的关键指标则是模型吐字的速度。我认为目前最重大的指标是后者。它决定了线上业务的成本,也直接决定了强化学习的效率。由于如果你输出很慢,那你获得 reward 的速度就比其他模型要慢。
但目前还有人很看重 MFU 之类的老指标。在我看来,还特别关注这类指标的人,对当下技术的认知是有问题的。
曲凯:你前面有提到,Infra 人是既懂硬件又懂模型的人,那算法人是什么样的?二者该怎么合作?
亦博:最理想也最简单的合作方式,就是大家像一个团队一样,为共同目标协作。
许多事情都有 trade-off,列如有时损伤系统性能,但能换来算法上的提升,有时候则是反过来。遇到这些情况,最好是两边能一起讨论该谁来让步。
不过这是小团队的优势。在许多大厂里,很难实现这一点。
在大厂,Infra 总被视为支持性的角色。许多时候是算法人给 Infra 人提需求,但是 Infra 人没有反向的影响力。
曲凯:对,而且在许多人眼里,Infra 的核心就是「降本」,但「降本」一般不是一个最优先的目标。
亦博:这正是我认为需要被纠正的观念。前面提到过,Infra 实际上是可以对模型效果有正向影响的,而不仅仅是只能降本。
曲凯:听起来就是要 Infra 人发挥主观能动性?
亦博:还不够。列如你带一个 Infra 团队,另一个人带算法团队,大家向同一个 leader 汇报,但这个 leader 只懂算法,那你猜会发生什么?
所以许多问题到最后都是组织架构的问题。
模型实则由算法、Infra 和数据这个铁三角决定。三者缺一不可,必须协同。
但许多人对模型的理解存在偏差。列如,一个模型的算法效果往往取决于数据,而不是算法;一个模型的效率成本主要由 Infra 决定,也不是算法。
所以实际上比较合理的组织架构是,让 Infra 人去设计模型结构,由于 Infra 人最知道该怎么提高效率、节省成本,让数据的人去负责刷模型的点数和 benchmark 分数,由于他们最懂怎么喂模型,而算法人应该主要负责训练的范式革新。
曲凯:听起来很合理啊,目前许多团队不是这样的吗?
亦博:不是。目前在许多团队中,基本都是算法人在设计模型结构、刷模型点数。但实际上算法人不必定最适合做这些事。
曲凯:所以阶跃从一开始就在用最正确的方法吗?还是也踩过一些坑?
亦博:当然也踩过坑哈哈。列如我们一开始对自己的算力和能力都过于自信,所以干了一个比 Llama 还大的模型。虽然我们把它训出来了,但是这个巨大的模型有一些问题,过程中我们也犯了一些错误。
但我觉得这也没什么。你赌的所有事情就是可能会错,踩过坑之后再爬起来往前走呗。这一局输了,那下一局我再干回来。
曲凯:还有什么业内真实的踩坑案例吗?
亦博:列如最近有家公司开源了一个模型,声称自己虽然参数量不大,但由于算法做得好,所以效果可以越级媲美更大的模型。
但这个模型由于架构设计的问题,实际运行效率超级低,甚至还不如那些大模型快。
这背后反映的问题是,实则许多做算法的人并不真正懂硬件,也不了解模型在 Infra 层是怎么运行的。
算法人员做模型架构研究的时候,可能会画一张图,横轴是模型的尺寸或激活量,纵轴是某些算法效果指标。然后他们会尝试在这张图上找到一个 sweet point,能让模型在尺寸不大的情况下,算法效果还不错,然后就丢给 Infra 人去做优化了。
即便 Infra 人能满足算法人的需求,模型实际运行起来也会出问题。
如果真要画图,横轴应该是模型的实际运行成本或运行效率,纵轴是模型效果。你得跑大量实验,才能在这张图上画出各种点,然后在其中找到那个真正可落地的最优点。
而这件事情只有在拉通所有团队之后,才有可能完成。
曲凯:是。模型这边上一个 Aha Moment 依旧是年初的 DeepSeek。虽然最近一直有传言说 GPT-5 要发布了,但到底什么时候发、表现怎么样,还没人说得准。而且许多人一直在说 scaling law 撞墙了、数据不够了等问题。
那你怎么看未来模型的发展?
亦博:模型范式的革新不会那么快,但多模态还是有一些突破的可能性的,尤其是多模态生成和理解的统一。
目前多模态的状态,实则挺像 20 年的 bert 模型,就是具备了理解能力,但还没有真正做通理解和生成。
做通的标志,是同一个模型在理解任务上能超越专门做理解的模型,在生成任务上也能击败专门做生成的模型。就像 GPT-3.5 出来之后,直接让许多做翻译之类的专用模型退休了一样。
曲凯:Google Veo 3 的效果看起来已经很不错了。
亦博:但 Veo 3 还是偏上一代的模型,核心是做生成。只不过它的工程做得比较好,把配乐之类的各种功能都很好地融合了起来。
实则技术突破和产品效果并不是线性相关的。Veo 3 的确 把上一代的技术发挥到了超级强的水平,但它本身并没有带来太多范式上的创新。
曲凯:清楚。那你觉得对于初创或者第三方的 AI Infra 公司来讲,机会在哪?
亦博:我个人觉得训练侧的商业模式不太成立。由于目前训模型的人都超级懂行,所以你很难挣到这些人的钱。而且他们也不太愿意把训练过程中的研发细节交给第三方,否则就泄露了自己的核心竞争力。
排除训练之后,推理侧还是有一些机会的,列如推理加速、推理优化。
曲凯:那开源模型对 AI Infra 市场来讲会有什么影响吗?
亦博:整体而言,开源模型对 AI Infra 的发展是有促进作用的。由于一个开源模型火起来,大家就会去研究怎么把它跑得更好,这个过程实则就促进了 AI Infra 的进步。
但所有事情都有两面性。如果某个开源模型太火,然后大家都花许多精力去优化它,可能反而会影响创新。列如 DeepSeek 出来之前,许多人都在优化 Llama,结果 DeepSeek 的新范式一出,之前大家在 Llama 上的许多积累就废掉了。
这里我还想再补充一点。目前的 Infra 基本都是围绕英伟达卡来做优化的,虽然也有团队尝试用国产芯片替代英伟达,但许多时候国产卡不是跑不动,而是性价比不如英伟达。
举个例子,当 DeepSeek 这样超级好用的开源模型出现之后,一些做一体机的公司会发现,他们用英伟达卡跑 DeepSeek 就是比用国产卡更有性价比,所以他们就更愿意选择英伟达的卡。
但我们超级希望国产卡在技术层面也能具备竞争力。列如,是不是可以根据国产卡的特性去专门设计模型结构,让它在国产卡上也能高效运行,并达到 SOTA 水平?
我们最近开源的 Step 3,就是在这个方向上的一次实践。Step 3 是国内首个支持第三方商用的、数百 B 规模的视觉推理模型,并且能跑出 SOTA 水平。
曲凯:怎么理解视觉推理?
亦博:视觉推理就是模型可以根据图片、视频抽帧等视觉信息,直接完成推理任务。
列如,你让机器人去柜子里拿一个东西,但那个目标物品被杂物遮挡住了。这时机器人要完成这个任务,就要进行视觉推理,来进行任务的拆解和决策。
对于机器人或者手机、汽车等智能设备来说,它们天然就有视觉这个模态。那么根据周边的环境、看到的东西去决定怎么完成复杂任务的过程,就是典型的视觉推理模型做的事情。
视觉推理模型还有一个更常见的应用场景,就是拍照解题。
曲凯:这件事之前也有一些模型可以做到,它们应该就是把图片转成文字,再去做文字推理。
亦博:但我认为这种方式不是真正的视觉推理。我们目前不需要中间那段转文字的过程,而是让模型好似真的能看懂图片,然后直接看图推理。
还是举刚才那个让机器人拿东西的例子。如果你要拿的那个目标物品周围有许多遮挡,你实则很难用文字把它们在物理世界中的位置关系描述清楚,也会丢掉许多信息。
但如果模型直接看图,就能很直观地知道应该先把这个东西拿开,再把那个东西拿开,最后拿到目标物品。
曲凯:清楚。那你们为什么选择开源?
亦博:我们希望做到全国上下产业都获益。
我们决定给所有国产芯片一份免费商用的授权,开放模型权重,并且尽量帮他们做好模型适配。同时我们也把 Step 3 在国产卡上的推理成本压到了一个很低的水平,提高了国产卡在性价比上的竞争力。
通过开源,我们希望能够协助国产芯片构建商业竞争力,也希望他们能推广我们的模型,最后实现共赢。
曲凯:我突然想到一个问题,就是多模态模型的成本未来到底会以什么速度下降到什么程度?由于目前多模态还是太贵了。
亦博:多模态理解目前已经不算贵了,不过生成还是挺贵的,尤其是视频生成。
但我对成本降低还是蛮乐观的。我觉得一年后,应该能下降许多,能不能到十分之一不好说,但几分之一没问题。
曲凯: 你觉得目前做 Infra 的人在许多公司里,是不是还是容易被低估?
亦博:在大模型时代,这种情况已经好许多了。目前 Infra 已经是模型能力的核心组成部分之一。
之前也有人说过,DeepSeek 做得好就是由于梁文锋是 Infra 人。
曲凯:这怎么讲?
亦博:由于梁文锋是做量化出身的,而量化很强调低延迟,所以他需要对 Infra 有研究。在算法、数据和 Infra 之间,他可能最擅长的就是 Infra。这在业界也算是共识。
而且据我所知,DeepSeek 的 Infra 工程师数量比算法工程师要多。
但在许多大公司里,这个情况是反过来的。这可能也是在过去一段时间里,一些大厂比较挣扎的缘由之一。
实则在大模型快速发展的阶段,就是需要有大量的 Infra 人,来把硬件设计和模型优化做到极致,并且做好垂直整合。但在大厂里,他们的人才结构是错配的,不符合做好 AI 的本质需求。
曲凯:清楚。最后,你会给正在做或者想转行做 AI Infra 的人什么提议?
亦博:前面有提到过,我的提议就是靠近模型,或者靠近硬件。
另外,希望你还是打心底对 Infra 感兴趣,有足够的主观能动性去做各种各样的 co-design。
最后我想再补充一点。我最喜爱的一篇文章就是 Richard Sutton 的《The Bitter Lesson》。文中的核心观点是,从长期来看,胜出的永远是那些能最大程度利用计算资源的方法。短期内各种奇技淫巧可能有效,但都不能本质地解决问题。
虽然这篇文章是从算法视角写的,但对 Infra 人也同样有很重大的指导意义。由于我们最根本的任务,就是设计出能发挥硬件全部性能的模型和系统软件,让模型能充分利用这些资源。
当然,我最希望的是也许有朝一日,我们还能反过来影响硬件,换取摩尔定律的不断延续。42章经思考事物本质
本文由人人都是产品经理作者【曲凯】,微信公众号:【42章经】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
© 版权声明
文章版权归作者所有,未经允许请勿转载。




[db:评论]