LLM的SFT和RL有啥新发现？

1、SFT作为RL训练稳定剂的新认识以前我觉得SFT和RL是完全独立的阶段，但目前发现它们的关系要微妙得多。SFT阶段就像是为RL训练提供了一个稳定的基座，有了它，RL训练可以大幅减少不稳定性。在我尝试跳过SFT直接用RL训练时，模型的表现的确很拉胯，加了SFT后，训练变得稳多了。 2、奖励模型过拟合的陷阱机制有时候，奖励模型会投其所好，学会生成那些得高分但实际上质量不高的输出。列如在一个对话模型的训练中，奖励模型偏爱长回答，结果模型输出的答案不但长，而且废话连篇。调整奖励函数后，这个问题得到了改善。 3、RLAIF替代RLHF的可行性探索RLAIF作为RLHF的替代，虽然刚开始听起来有点套娃，但后来发现这个方案真的有前景。AI生成的反馈，成本低且一致性好，适合那些标注标准明确的任务。 4、变分方法简化RLHF的新思路我看到一个变分方法简化RLHF的思路，把复杂的强化学习问题转化为加权的监督学习。这个方案看似简单，但却能接近RLHF的效果，而且实现起来的工程复杂度大大降低。 5、多步骤推理中的RL应用新玩法RL在多步骤推理中的潜力很大。通过将复杂任务分解成多个步骤，每个步骤用RL优化，可以让模型学会更加系统化的思考方式。应用在数学题求解上，效果明显比传统监督学习好。 6、SFT数据质量对RL效果的深层影响SFT阶段的数据质量对RL效果的影响，比我们想象的要大得多。垃圾进垃圾出，尤其是对于涉及推理的任务，SFT阶段的数据质量决定了模型的输出。所以在数据准备上要更加注重质量，宁可少些数据，也要确保数据质量。 7、实际部署中的踩坑心得分享SFT+RL的组合在实际部署时真有不少坑。最大的问题是版本一致性，SFT训练的模型，RL阶段可能会由于框架不同出现奇怪问题。还有推理时的表现，训练时效果好不代表推理时输出格式就对。可以试试设置多个检查点，确保最终的推理效果符合预期。 LLM的SFT和RL有啥新发现？