今日大模型论文|838
论文标题:Scaling Laws for Optimal Data Mixtures
主要内容:大型基础模型通常使用来自多个领域的数据进行训练,而数据混合比例(即每个领域所占的比例)对模型性能起着关键作用。目前,选择这种混合比例的标准方法依赖于试错法,这在大规模预训练中变得不切实际。