头像

九月

帅气的我简直无法用语言描述!

KV-Cache(2)进阶理解:从计算瓶颈到优化前沿

之前写了一篇文章:《深入浅出KV-Cache》。 在大语言模型(LLM)的实际应用里,KV-Cache早就成了推理优化的标配。大家都知道它靠"缓存Key和Value"加速自回归生成,走的是"用空间换时...
头像24小时前
100