以判别式监督学习强化推理LLM,解决难度不均与熵退化
DisCO 在数学推理微调任务上把 GRPO 和它的改善版远远甩在后面,1.5B 模型上平均领先 GRPO 约 7%、领先 DAPO 约 6%,甚至在最大响应长度(MRL)设为 8k 的情况下,表现超...
Tableau | 实时连接和数据提取一
。嗨,大家好! 本篇笔记主要讲Tableau数据连接的两种方式:实时 数据提取。它的工作原理、优缺点等基础知识点我总结了放在图片里,大家自行查看。 一、实时的适用场景1. 数据量较小或数据库性能较强2...