头像

海阔天空任你翱翔

帅气的我简直无法用语言描述!

大模型推理优化的几个常见技术

。结构裁剪面对超大参数量模型,不做裁剪直接部署,那是真不现实。常用的一招是剪掉影响不大的层,列如中间冗余的attention block,或者MLP里维度特别高的部分。 也可以用结构重参数化的思路,把...
头像19小时前
100