极简导航
本机IP
记事本
网站导航
排行榜
极简导航
blog
收录投稿
在线工具
本机IP
高清壁纸
记事本
2FA验证器
计算器
文本对比
键盘测试
随机数生成
条形码生成
数字大小写
科学计算器
更多小工具
未登录
登录后即可体验更多功能
登录
注册
找回密码
网站导航
排行榜
极简导航
blog
收录投稿
在线工具
本机IP
高清壁纸
记事本
2FA验证器
计算器
文本对比
键盘测试
随机数生成
条形码生成
数字大小写
科学计算器
更多小工具
未登录
登录后即可体验更多功能
登录
注册
找回密码
徐志玲
帅气的我简直无法用语言描述!
文章
1
网址
0
书籍
0
软件
0
评论
0
已发布
1
新
RL为什么比SFT遗忘的更少
。1.RL和SFT的区别第一,得先搞清楚RL和SFT到底是啥。RL是通过与环境互动,靠奖励信号来优化模型的决策。简单来说,它像个小孩不断试错,得到奖励后就知道哪些做法是对的。而SFT嘛,就是靠大量的标...
内容分享
# 一对一指导
# 发文
# 强化学习
4天前
0
0
0
没有更多了
网址
网址
文章
软件
书籍