百度发布文心大模型5.1：成本骤降，Search Arena排名全球第四

引言

2026年5月9日，百度正式发布文心大模型5.1（ERNIE 5.1）。这是继2025年6月文心5.0（总参数2.4万亿）之后，百度在大模型架构优化方向上的一次针对性迭代。最引人关注的是百度披露的数据：文心5.1的预训练成本仅为业界同规模模型的6%，即降低了约94%。

在全球大模型竞争从”参数军备竞赛”转向”推理效率博弈”的阶段，文心5.1的技术路径值得拆解。

成本骤降的核心：Once-For-All 弹性训练框架

文心5.1成本优势的来源，并非简单的”缩小模型”，而是一套名为 Once-For-All（一遍过）的弹性预训练框架。

传统做法是：要做小模型，得从头预训练一遍；要做中模型，再预训练一遍。每个规模各跑一次完整预训练，算力成本是线性叠加的。

Once-For-All 的思路是：在一次预训练中，同时优化一个”子模型矩阵”——通过动态采样机制，让不同深度、不同宽度、不同稀疏度的子模型共享同一套权重。训练完成后，从中挑出性能最优的配置，即为文心5.1。

具体在三个维度上实现弹性。

弹性深度：训练时随机跳过部分 Transformer 层，让浅层和深层子模型同时得到优化，最终可以按需选取不同深度的子模型部署。

弹性宽度：对 MoE（混合专家）层的专家池做动态掩码，不同子模型的专家规模可变，提升专家参数的整体利用率。

弹性稀疏度：可变 Top-k 路由，同一个训练好的模型家族，推理时可以根据预算灵活调整每次激活的专家数量。

百度给出的数据是：文心5.1总参数约为文心5.0的1/3，每次推理激活参数约为文心5.0的1/2，但基础能力保留程度较高。

基准测试表现：Search Arena 全球第四，国内第一

根据百度引用的 LM Arena（原 LMSYS Chatbot Arena）Search 榜单数据，截至2026年5月9日，文心5.1得分1223，排名全球第四、国内第一。

排名	模型	分数
1	Claude Opus 4.6 Search	1255
2	GPT-5.5 Search	1242
3	Claude Opus 4.7	1236
4	文心 5.1	1223

需要指出，Arena 榜单基于用户盲测投票，具有必定参考价值，但投票群体分布、题目类型偏向性都会对排名产生影响，不宜将排名等同于综合技术实力。

在专项能力上，百度披露了以下数据（均为官方测试结果）。

AIME26（数学竞赛，含工具调用）：文心5.1得分99.6，仅次于 Gemini 3.1 Pro（99.9）。

GPQA（专家级问答）：效果接近 Gemini 3.1 Pro。

MMLU-Pro（多任务理解）：效果接近 Gemini 3.1 Pro。

τ³-bench（Agent 评测）：超越 DeepSeek-V4-Pro。

SpreadsheetBench-Verified Agent：超越 DeepSeek-V4-Pro。

从这组数据看，文心5.1在 Agent 类任务上的提升较为明显，这与其后训练阶段重点投入 Agent 能力对齐有关。

后训练四阶段流水线：解决”跷跷板效应”

文心5.1 的后训练采用了一条四阶段流水线，百度称之为 OPD（On-Policy Distillation，在线策略蒸馏）多阶段强化学习训练管线。

阶段一：统一 SFT。用多领域指令数据做监督微调，建立基础对话、代码、数学、工具调用能力。

阶段二：领域专家模型并行训练。同时训练代码专家、推理专家、Agent 专家等多个定向优化的专家模型，各自有独立的奖励信号。

阶段三：在线策略蒸馏。用多个专家模型作为”教师”，对同一个”学生”模型做 Token 级 KL 散度融合，把不同专家的能力压缩进单个模型，避免传统串行微调出现的”学了这个、忘了那个”的跷跷板效应。

阶段四：通用在线强化学习。针对创意写作、开放对话等高熵任务，放弃蒸馏路线，改用 RLHF 类方法提升输出多样性和人类偏好对齐。

这条流水线的工程价值在于：传统做法是按顺序做 SFT → 推理微调 → Agent 微调，每一步都可能覆盖掉前一步的能力；并行训专家 + 蒸馏融合，理论上可以在单模型内容纳更多能力维度。

推理成本与部署

除了预训练成本，推理成本是直接决定大模型能否规模化落地的关键指标。

百度称文心5.1 相比文心5.0 “显著降低了推理成本”，并在工程上做了两项针对性优化。

FP8 训推一致性优化。通过 Rollout Router Replay（R3）技术，让训练时的低精度计算与推理时的实际精度对齐，KL 散度下降约50%，且基本不增加推理耗时。

弹性 CPU 池化。将代码沙箱、Verifier 等逻辑密集型计算从 GPU 上卸载到 CPU 池，利用集群中一般闲置的 CPU 算力，降低整体推理成本。

文心5.1 已接入百度自有产品（文心一言）和飞桨 AI Studio 模型库。外部合作平台方面，百度列出的已接入方包括 ISEKAI ZERO（AI Roleplay 平台）、Mulan AI（创意 Agent 平台）、谛听幻流（AI 创意画布）、Storymaster（AI 短剧生成）等。

与 DeepSeek-V4 的对比视角

文心5.1 在 Agent 评测中超越 DeepSeek-V4-Pro，这一对比在中文技术社区引发了较多讨论。需要厘清的是：

第一，τ³-bench 和 SpreadsheetBench 是特定任务类型的评测，不代表全面能力对比。DeepSeek-V4 在代码生成、数学推理等任务上仍有其优势区间。

第二，两家的技术路径差异明显。DeepSeek-V4 主打开源权重 + MoE 架构极致稀疏化，文心5.1 则选择闭源 + 弹性训练框架降低预训练成本，并重点优化 Agent 能力。不同的技术选型对应不同的商业化逻辑，直接比高低意义有限。

第三，两家均未开放第三方独立评测所需的完整模型权重（DeepSeek-V4 开源了部分权重，但评测条件与文心5.1不完全对等），因此目前所有的”对比”都只能基于各自官方披露的数据，需保持审慎。

结语

文心5.1 的核心价值主张可以概括为：用显著更低的预训练成本，做出综合能力接近全球第一梯队的模型，并在 Agent 方向上做了针对性强化。

这条路径如果可复现，对国内大模型行业的影响会比单一模型的发布更深远——它意味着大模型训练的算力门槛可能存在比预期更大的压缩空间。

但置于当前全球大模型竞争格局中看，文心5.1 面临的挑战也很明确：闭源路线下，开发者粘性依赖生态而非模型本身；Agent 能力虽有提升，但真正的企业级落地案例仍需时间验证；与国际顶尖闭源模型的综合差距，仍存在且不容忽视。

信息来源

官方：百度文心团队，《文心 5.1 正式发布》，2026年5月9日，
https://ernie.baidu.com/blog/zh/posts/ernie-5.1-0508-release/

报道：The Decoder，《Baidu's Ernie 5.1 cuts 94 percent of pre-training costs while competing with top models》，2026年5月11日，
https://the-decoder.com/baidus-ernie-5-1-cuts-94-percent-of-pre-training-costs-while-competing-with-top-models/

报道：CnTechPost，《Baidu releases Ernie 5.1 with pre-training cost at only 6% of industry peers》，2026年5月9日，
https://cntechpost.com/2026/05/09/baidu-releases-ernie-5-1-pre-training-cost-at-only-6-industry-peers/

汇总：AI Guide，《文心 5.1：百度推出的旗舰大语言模型》，https://aiguide.cc/22857/

#百度文心大模型##ERNIE5.1##大模型训练成本#