面了一个做金融Agent的同学

3个月前发布莹酱cc

面了一个做金融Agent的同学最近接手新项目搭建新团队实在是有些忙，距离上次写笔记又过了20多天了，时间是真快啊！今天记录的候选人，一直都在从事nlp算法方向，主要跟他聊了两个大模型相关的项目

他们做的金融大模型，整合了100B左右的金融数据，基于qwen-2.5进行了post-trainging，采用sft+grpo进行了多阶段的模型微调。在

100b做post-training真的有效吗？会不会太多了。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

没有相关内容!

10 条评论

呼延峰读者

先做微调然后强化学习 [g=kun]

3个月前无记录

回复
梦里花落无声201111 投稿者

100b是cpt的数据哈，不过目前cpt不怎么考察，我都没问

3个月前无记录

回复
俊哥真好读者

Fin-R1

3个月前无记录

回复
半凡读者

目前怎么样了，我做agent也是天天写prompt，愁得很

3个月前无记录

回复
水载舟读者

是finr1嘛

3个月前无记录

回复
谢王北车读者

[g=xiaojiujie] 保密

3个月前无记录

回复
小橘子读者

多轮对话，用户追问调到其他agent的问题怎么解决？上下文记忆咋处理

3个月前无记录

回复
英式没品笑话百科投稿者

Sft ➕grpo ，grpo 是啥意思？

3个月前无记录

回复
沈小星读者

我大厂实习就是纯纯claude写workflow看来我要加把劲了

3个月前无记录

回复
部落冲突Clash-of-Clans 投稿者

业务agent和tool级别的agent，为什么要区别下呀

3个月前无记录

回复