为什么RL的scaling law这么难搞?🤔

7个月前发布
0 0 0
全能 AI 聚合平台 免费

一站式接入主流 AI 大模型,支持对话 · 生图 · 生视频,即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama
AI对话 AI生图 AI视频
免费使用 →

为什么RL的scaling law这么难搞?🤔
为什么RL的scaling law这么难搞?🤔
为什么RL的scaling law这么难搞?🤔在LLM领域,大家早就习惯用 scaling law 来预测性能了:给定算力(FLOPs)、数据量、模型大小,大概就能算出什么 batch size、多少 epoch 才是最优解。小实验的结果就能推测出大规模的表现,不用真的烧掉几百万 GPU 小时去试错。
但到了RL,情况要复杂的多。LLM 的训练数据是固定的,RL

原po github:scaling law for value based rl

© 版权声明

相关文章

没有相关内容!

暂无评论

none
暂无评论...