分享一个国外博客,包括了500+的大模型推理优化技术,涵盖技术范围太广,挑一些笔者熟悉的: 1,大模型量化技术; 2,算子优化,涵盖gemv、gemm、softmax等; 3,attention算子优化技术; 4,kv cache管理技术,包括kv cache量化、稀疏化、offload等; 5,底从知乎过来的,请问可以讲一下为什么大模型分布式推理又回归传统分布式了呢(希望这个专栏继续更新
可以的
熊总放假不放工哦
新时代CV够卷
[g=youling] 大佬,请问有资料吗
请问熊佬,现阶段做 kvcache 稀疏化有前景吗?作为硕士毕设
传统分布式到大模型分布式嘛?会更的,最近比较忙