头像

妈咪最爱的听话小狗

帅气的我简直无法用语言描述!

大模型推理优化篇之投机采样Decoding

🌟🌟🌟投机采样可以从解码方式上缓解内存访问带宽的瓶颈,并且保证了原始大模型和近似小模型输出分布保持一致。 1⃣️投机采样使用两个模型,一个是原始大模型,一个是参数更少,规模更小的近似小模型。近似模型用...
头像13小时前
200