多模态大模型的前沿算法 。LLaVA架构视觉编码器+语言模型的融合,LLaVA算法我感觉还挺好用的。它用Vision Transformer提取图像特征,然后直接接入大语言模型,简单粗暴但效果炸裂。最大的好处就是可以复用现有... 内容分享# sci# 发文# 复现 2个月前000
LLM的SFT和RL有啥新发现? 1、SFT作为RL训练稳定剂的新认识以前我觉得SFT和RL是完全独立的阶段,但目前发现它们的关系要微妙得多。SFT阶段就像是为RL训练提供了一个稳定的基座,有了它,RL训练可以大幅减少不稳定性。在我尝... 内容分享# 一对一指导# 发文# 大模型 2个月前000