LLM的SFT和RL有啥新发现?

1、SFT作为RL训练稳定剂的新认识以前我觉得SFT和RL是完全独立的阶段,但目前发现它们的关系要微妙得多。SFT阶段就像是为RL训练提供了一个稳定的基座,有了它,RL训练可以大幅减少不稳定性。在我尝试跳过SFT直接用RL训练时,模型的表现的确 很拉胯,加了SFT后,训练变得稳多了。 2、奖励模型过拟合的陷阱机制有时候,奖励模型会投其所好,学会生成那些得高分但实际上质量不高的输出。列如在一个对话模型的训练中,奖励模型偏爱长回答,结果模型输出的答案不但长,而且废话连篇。调整奖励函数后,这个问题得到了改善。 3、RLAIF替代RLHF的可行性探索RLAIF作为RLHF的替代,虽然刚开始听起来有点套娃,但后来发现这个方案真的有前景。AI生成的反馈,成本低且一致性好,适合那些标注标准明确的任务。 4、变分方法简化RLHF的新思路我看到一个变分方法简化RLHF的思路,把复杂的强化学习问题转化为加权的监督学习。这个方案看似简单,但却能接近RLHF的效果,而且实现起来的工程复杂度大大降低。 5、多步骤推理中的RL应用新玩法RL在多步骤推理中的潜力很大。通过将复杂任务分解成多个步骤,每个步骤用RL优化,可以让模型学会更加系统化的思考方式。应用在数学题求解上,效果明显比传统监督学习好。 6、SFT数据质量对RL效果的深层影响SFT阶段的数据质量对RL效果的影响,比我们想象的要大得多。垃圾进垃圾出,尤其是对于涉及推理的任务,SFT阶段的数据质量决定了模型的输出。所以在数据准备上要更加注重质量,宁可少些数据,也要确保数据质量。 7、实际部署中的踩坑心得分享SFT+RL的组合在实际部署时真有不少坑。最大的问题是版本一致性,SFT训练的模型,RL阶段可能会由于框架不同出现奇怪问题。还有推理时的表现,训练时效果好不代表推理时输出格式就对。可以试试设置多个检查点,确保最终的推理效果符合预期。LLM的SFT和RL有啥新发现?
LLM的SFT和RL有啥新发现?
LLM的SFT和RL有啥新发现?
LLM的SFT和RL有啥新发现?
LLM的SFT和RL有啥新发现?

© 版权声明

相关文章

暂无评论

none
暂无评论...