引言
2026年5月9日,百度正式发布文心大模型5.1(ERNIE 5.1)。这是继2025年6月文心5.0(总参数2.4万亿)之后,百度在大模型架构优化方向上的一次针对性迭代。最引人关注的是百度披露的数据:文心5.1的预训练成本仅为业界同规模模型的6%,即降低了约94%。
在全球大模型竞争从”参数军备竞赛”转向”推理效率博弈”的阶段,文心5.1的技术路径值得拆解。
成本骤降的核心:Once-For-All 弹性训练框架
文心5.1成本优势的来源,并非简单的”缩小模型”,而是一套名为 Once-For-All(一遍过)的弹性预训练框架。
传统做法是:要做小模型,得从头预训练一遍;要做中模型,再预训练一遍。每个规模各跑一次完整预训练,算力成本是线性叠加的。
Once-For-All 的思路是:在一次预训练中,同时优化一个”子模型矩阵”——通过动态采样机制,让不同深度、不同宽度、不同稀疏度的子模型共享同一套权重。训练完成后,从中挑出性能最优的配置,即为文心5.1。
具体在三个维度上实现弹性。
弹性深度:训练时随机跳过部分 Transformer 层,让浅层和深层子模型同时得到优化,最终可以按需选取不同深度的子模型部署。
弹性宽度:对 MoE(混合专家)层的专家池做动态掩码,不同子模型的专家规模可变,提升专家参数的整体利用率。
弹性稀疏度:可变 Top-k 路由,同一个训练好的模型家族,推理时可以根据预算灵活调整每次激活的专家数量。
百度给出的数据是:文心5.1总参数约为文心5.0的1/3,每次推理激活参数约为文心5.0的1/2,但基础能力保留程度较高。
基准测试表现:Search Arena 全球第四,国内第一
根据百度引用的 LM Arena(原 LMSYS Chatbot Arena)Search 榜单数据,截至2026年5月9日,文心5.1得分1223,排名全球第四、国内第一。
|
排名 |
模型 |
分数 |
|
1 |
Claude Opus 4.6 Search |
1255 |
|
2 |
GPT-5.5 Search |
1242 |
|
3 |
Claude Opus 4.7 |
1236 |
|
4 |
文心 5.1 |
1223 |
需要指出,Arena 榜单基于用户盲测投票,具有必定参考价值,但投票群体分布、题目类型偏向性都会对排名产生影响,不宜将排名等同于综合技术实力。
在专项能力上,百度披露了以下数据(均为官方测试结果)。
AIME26(数学竞赛,含工具调用):文心5.1得分99.6,仅次于 Gemini 3.1 Pro(99.9)。
GPQA(专家级问答):效果接近 Gemini 3.1 Pro。
MMLU-Pro(多任务理解):效果接近 Gemini 3.1 Pro。
τ³-bench(Agent 评测):超越 DeepSeek-V4-Pro。
SpreadsheetBench-Verified Agent:超越 DeepSeek-V4-Pro。
从这组数据看,文心5.1在 Agent 类任务上的提升较为明显,这与其后训练阶段重点投入 Agent 能力对齐有关。
后训练四阶段流水线:解决”跷跷板效应”
文心5.1 的后训练采用了一条四阶段流水线,百度称之为 OPD(On-Policy Distillation,在线策略蒸馏)多阶段强化学习训练管线。
阶段一:统一 SFT。用多领域指令数据做监督微调,建立基础对话、代码、数学、工具调用能力。
阶段二:领域专家模型并行训练。同时训练代码专家、推理专家、Agent 专家等多个定向优化的专家模型,各自有独立的奖励信号。
阶段三:在线策略蒸馏。用多个专家模型作为”教师”,对同一个”学生”模型做 Token 级 KL 散度融合,把不同专家的能力压缩进单个模型,避免传统串行微调出现的”学了这个、忘了那个”的跷跷板效应。
阶段四:通用在线强化学习。针对创意写作、开放对话等高熵任务,放弃蒸馏路线,改用 RLHF 类方法提升输出多样性和人类偏好对齐。
这条流水线的工程价值在于:传统做法是按顺序做 SFT → 推理微调 → Agent 微调,每一步都可能覆盖掉前一步的能力;并行训专家 + 蒸馏融合,理论上可以在单模型内容纳更多能力维度。
推理成本与部署
除了预训练成本,推理成本是直接决定大模型能否规模化落地的关键指标。
百度称文心5.1 相比文心5.0 “显著降低了推理成本”,并在工程上做了两项针对性优化。
FP8 训推一致性优化。通过 Rollout Router Replay(R3)技术,让训练时的低精度计算与推理时的实际精度对齐,KL 散度下降约50%,且基本不增加推理耗时。
弹性 CPU 池化。将代码沙箱、Verifier 等逻辑密集型计算从 GPU 上卸载到 CPU 池,利用集群中一般闲置的 CPU 算力,降低整体推理成本。
文心5.1 已接入百度自有产品(文心一言)和飞桨 AI Studio 模型库。外部合作平台方面,百度列出的已接入方包括 ISEKAI ZERO(AI Roleplay 平台)、Mulan AI(创意 Agent 平台)、谛听幻流(AI 创意画布)、Storymaster(AI 短剧生成)等。
与 DeepSeek-V4 的对比视角
文心5.1 在 Agent 评测中超越 DeepSeek-V4-Pro,这一对比在中文技术社区引发了较多讨论。需要厘清的是:
第一,τ³-bench 和 SpreadsheetBench 是特定任务类型的评测,不代表全面能力对比。DeepSeek-V4 在代码生成、数学推理等任务上仍有其优势区间。
第二,两家的技术路径差异明显。DeepSeek-V4 主打开源权重 + MoE 架构极致稀疏化,文心5.1 则选择闭源 + 弹性训练框架降低预训练成本,并重点优化 Agent 能力。不同的技术选型对应不同的商业化逻辑,直接比高低意义有限。
第三,两家均未开放第三方独立评测所需的完整模型权重(DeepSeek-V4 开源了部分权重,但评测条件与文心5.1不完全对等),因此目前所有的”对比”都只能基于各自官方披露的数据,需保持审慎。
结语
文心5.1 的核心价值主张可以概括为:用显著更低的预训练成本,做出综合能力接近全球第一梯队的模型,并在 Agent 方向上做了针对性强化。
这条路径如果可复现,对国内大模型行业的影响会比单一模型的发布更深远——它意味着大模型训练的算力门槛可能存在比预期更大的压缩空间。
但置于当前全球大模型竞争格局中看,文心5.1 面临的挑战也很明确:闭源路线下,开发者粘性依赖生态而非模型本身;Agent 能力虽有提升,但真正的企业级落地案例仍需时间验证;与国际顶尖闭源模型的综合差距,仍存在且不容忽视。
信息来源
官方:百度文心团队,《文心 5.1 正式发布》,2026年5月9日,
https://ernie.baidu.com/blog/zh/posts/ernie-5.1-0508-release/
报道:The Decoder,《Baidu's Ernie 5.1 cuts 94 percent of pre-training costs while competing with top models》,2026年5月11日,
https://the-decoder.com/baidus-ernie-5-1-cuts-94-percent-of-pre-training-costs-while-competing-with-top-models/
报道:CnTechPost,《Baidu releases Ernie 5.1 with pre-training cost at only 6% of industry peers》,2026年5月9日,
https://cntechpost.com/2026/05/09/baidu-releases-ernie-5-1-pre-training-cost-at-only-6-industry-peers/
汇总:AI Guide,《文心 5.1:百度推出的旗舰大语言模型》,https://aiguide.cc/22857/
#百度文心大模型##ERNIE5.1##大模型训练成本#