新这篇论文《Scaling Laws for Autoregressive Generative Modeling》探讨了自回归生成模型的缩放规律,主要集中在以下几个方面: 1. 缩放规律的识别:研究表明,自回归Transformer模型在生成图像、视频、多模态图像与文本模型以及数学问题解决等多个领域中,随着模型规模和计算预算的增加,性能平滑提升,遵循幂律加常数的缩放规律
2. 信息论解释:交叉熵损失可以被解释为真实数据分布的熵加上真实分布与模型分布之间的KL散度。通过这种解释,研究者预测了在不同分辨率下达到特定可减少损失所需的模型规模。 3. 领域特定的缩放规律: ...