头像

亮文张

帅气的我简直无法用语言描述!

CUDA Graph 如何重塑推理性能?

随着 LLM 的参数规模与应用场景以前所未有的速度扩张,推理(Inference)阶段的性能优化,已从单纯追求理论浮点运算(FLOPs)的竞赛,转向一场对系统极致效率的、毫秒必争的“压榨”。 ...
头像21小时前
200