亮文张

帅气的我简直无法用语言描述！

随着 LLM 的参数规模与应用场景以前所未有的速度扩张，推理（Inference）阶段的性能优化，已从单纯追求理论浮点运算（FLOPs）的竞赛，转向一场对系统极致效率的、毫秒必争的“压榨”。 ...

9个月前

2740