头像

匠人春锁

帅气的我简直无法用语言描述!

大模型基础知识之kvcache

.KV Cache是大模型推理优化的一个常用技术,该技术以空间换时间的思想,通过缓存上一次推理得到的KVs,可以在不影响任何计算精度的前提下,提高推理性能,降低端到端的时延。
头像20小时前
100