最近接手新项目搭建新团队实在是有些忙,距离上次写笔记又过了20多天了,时间是真快啊!今天记录的候选人,一直都在从事nlp算法方向,主要跟他聊了两个大模型相关的项目
他们做的金融大模型,整合了100B左右的金融数据,基于qwen-2.5进行了post-trainging,采用sft+grpo进行了多阶段的模型微调。在
100b做post-training真的有效吗?会不会太多了。
我大厂实习就是纯纯claude写workflow看来我要加把劲了
业务agent和tool级别的agent,为什么要区别下呀
100b是cpt的数据哈,不过目前cpt不怎么考察,我都没问
Fin-R1
目前怎么样了,我做agent也是天天写prompt,愁得很
是finr1嘛
[g=xiaojiujie] 保密
多轮对话,用户追问调到其他agent的问题怎么解决?上下文记忆咋处理
Sft ➕grpo ,grpo 是啥意思?
先做微调然后强化学习 [g=kun]
我大厂实习就是纯纯claude写workflow看来我要加把劲了
业务agent和tool级别的agent,为什么要区别下呀
100b是cpt的数据哈,不过目前cpt不怎么考察,我都没问
Fin-R1
目前怎么样了,我做agent也是天天写prompt,愁得很
是finr1嘛
[g=xiaojiujie] 保密
多轮对话,用户追问调到其他agent的问题怎么解决?上下文记忆咋处理
Sft ➕grpo ,grpo 是啥意思?
先做微调然后强化学习 [g=kun]