头像

灯火之邀

帅气的我简直无法用语言描述!

LLM的SFT和RL有啥新发现?

1、SFT作为RL训练稳定剂的新认识以前我觉得SFT和RL是完全独立的阶段,但目前发现它们的关系要微妙得多。SFT阶段就像是为RL训练提供了一个稳定的基座,有了它,RL训练可以大幅减少不稳定性。在我尝...
头像4天前
000