头像

雪消寒谷春生-LY

帅气的我简直无法用语言描述!

FlowRL:基于奖励分布匹配的推理优化方法

FlowRL是一种RL方法,旨在解决传统的奖励最大化方法带来的多样性丧失问题。它通过将奖励转化为标准化的目标分布,并最小化策略和目标分布之间的逆KL散度,来促进多样化的推理路径。 核心创新: 奖励分布...
头像12小时前
010