新多模态大模型的前沿算法 。LLaVA架构视觉编码器+语言模型的融合,LLaVA算法我感觉还挺好用的。它用Vision Transformer提取图像特征,然后直接接入大语言模型,简单粗暴但效果炸裂。最大的好处就是可以复用现有... 内容分享# sci# 发文# 复现 4天前000
新RL为什么比SFT遗忘的更少 。1.RL和SFT的区别第一,得先搞清楚RL和SFT到底是啥。RL是通过与环境互动,靠奖励信号来优化模型的决策。简单来说,它像个小孩不断试错,得到奖励后就知道哪些做法是对的。而SFT嘛,就是靠大量的标... 内容分享# 一对一指导# 发文# 强化学习 4天前000
新神经网络一般用多少层? 1.经典网络深度说到网络深度,实则没有标准答案,完全看任务需求。早期的AlexNet只有8层就能在ImageNet上称霸,VGG推到了19层,ResNet直接飙到152层甚至更深。目前主流的CNN b... 内容分享# 一对一指导# 发文# 复现 4天前000
新LLM的SFT和RL有啥新发现? 1、SFT作为RL训练稳定剂的新认识以前我觉得SFT和RL是完全独立的阶段,但目前发现它们的关系要微妙得多。SFT阶段就像是为RL训练提供了一个稳定的基座,有了它,RL训练可以大幅减少不稳定性。在我尝... 内容分享# 一对一指导# 发文# 大模型 4天前000