清华+Kimi发布新论文：把KVCache玩成跨机房大模型推理“加速器”

内容分享2个月前发布 Eigiya-

8 1 0

大模型推理效率长期受制于 Prefill 与 Decode 阶段的耦合限制：
传统架构中，这两个阶段必须运行在同一数据中心，否则会因高带宽缓存（KV Cache）传输瓶颈而陷入性能瓶颈。

但随着长上下文需求爆发式增长，这种模式显然难以应对：

KV Cache 随上下文线性增长，高速依赖专有 RDMA 通道。
不同硬件资源无法灵活组合。

核心突破：PrFaaS — Prefill‑as‑a‑Service（预填充即服务）

该工作由 清华大学郑纬民院士团队 & 月之暗面 联合提出，核心亮点是：

✅ 彻底解耦 Prefill 与 Decode
Prefill 阶段可“卸载”到专用计算集群执行，再把生成的 KV Cache 通过普通以太网传回 Decode 节点。

✅ 支持 跨数据中心调度
只要是标准以太网带宽（如 100Gbps），就足够支撑 KV Cache 传输，这让原本只能在 RDMA 网络域内工作的 PD（Prefill‑Decode）架构变得跨机房可用。

为什么它如此关键？

传统 PD 架构瓶颈在于：

Prefill 与 Decode 强绑定在单个集群内
如果最适合做 Prefill 的算力芯片和最适合做 Decode 的带宽芯片不在一起，就无法联合使用
固定资源导致浪费严重、扩展性差

而 PrFaaS 的出现让：

计算资源可以跨地域灵活调度
硬件资源专业化扩展成为可能
长上下文场景下吞吐量与延迟表现显著提升

实测性能亮眼（可配图：性能对比表）

在典型混合注意力模型中对比：

指标	传统同构 PD 集群	PrFaaS‑PD 架构
吞吐量	—	提升约 54%
P90 延迟	—	降低约 64%

此外，跨数据中心传输仅用 13 Gbps 带宽，远低于 100 Gbps 以太网容量。

技术细节：新架构如何实现

PrFaaS 系统由三大子系统协同：

计算层

Prefill 在高算力集群完成
Decode 在带宽优化集群处理

网络层

集群内仍用 RDMA
集群间用普通以太网或云 VPC 连接

缓存层

KV Cache 分为 “本地复用缓存” 与 “传输缓存”
动态调整调度策略，实现高效资源利用

这一组合使得原本算力资源“固化配比”的困局得以破解。

长上下文时代的推理新方向

随着大模型对长上下文支持的需求飙升，这项研究为：

✔ 大模型跨地域部署
✔ 异构硬件资源协同
✔ 大规模推理服务高效调度

提供了清晰可行的新路径。

内容分享

文章版权归作者所有，未经允许请勿转载。

Rust并发编程双雄：async/await vs 多线程的抉择与融合

内容分享

3个月前

070

初中实数的乘方与开方及其运算指导

内容分享

7个月前

1190

2026生产力工具之AI篇

内容分享

2个月前

0190

新C# UI控件源码 198个经典WinForm实例源码控件操作报表打印

内容分享

47分钟前

100

1 条评论

绽放的美好读者

[db:评论]

2个月前无记录

回复

清华+Kimi发布新论文：把KVCache玩成跨机房大模型推理“加速器”

核心突破：PrFaaS — Prefill‑as‑a‑Service（预填充即服务）

为什么它如此关键？

实测性能亮眼（可配图：性能对比表）

技术细节：新架构如何实现

长上下文时代的推理新方向

论文结尾总结升华结论六大AI收尾优化工具

用Kimi写论文被骂惨，换豆包才懂：90%的人根本不会选AI

相关文章

Rust并发编程双雄：async/await vs 多线程的抉择与融合

初中实数的乘方与开方及其运算指导

2026生产力工具之AI篇

新C# UI控件源码 198个经典WinForm实例源码控件操作报表打印

1 条评论

热门网站

3699小游戏

小苹果网页助手

盼之代售

中国版首页

3699小游戏

商丘网 —— 商丘网络第一媒体

热门文章

前端人必看！10 个 Vue3 救命技巧，专治性能差、代码乱

常用的电脑操作系统快捷键，有没有你喜欢的

deepseek又被遥遥领先了？

前端基础：从输入URL到看到页面发生了什么？详细描述整个过程

苹果备份文件在哪里？iPhone使用技巧

金鯱叙事：教你解决0x80040200错误代码

清华+Kimi发布新论文：把KVCache玩成跨机房大模型推理“加速器”

核心突破：PrFaaS — Prefill‑as‑a‑Service（预填充即服务）

为什么它如此关键？

实测性能亮眼（可配图：性能对比表）

技术细节：新架构如何实现

长上下文时代的推理新方向

论文结尾总结升华结论六大AI收尾优化工具

用Kimi写论文被骂惨，换豆包才懂：90%的人根本不会选AI

相关文章

热门网站

3699小游戏

小苹果网页助手

盼之代售

中国版首页

3699小游戏

商丘网 —— 商丘网络第一媒体

热门文章

标签云