头像

徐志玲

帅气的我简直无法用语言描述!

RL为什么比SFT遗忘的更少

。1.RL和SFT的区别第一,得先搞清楚RL和SFT到底是啥。RL是通过与环境互动,靠奖励信号来优化模型的决策。简单来说,它像个小孩不断试错,得到奖励后就知道哪些做法是对的。而SFT嘛,就是靠大量的标...
头像4天前
000