多模态大模型视觉编码器优化

。 视觉编码器扩展:传统的视觉语言模型(VLM)如CLIP使用的是基于ViT的编码器,一般采用监督学习进行训练。这些模型通过对齐图像与文本标签来提取图像特征,但对于分布外图片的处理存在不足,可能导致图...
头像3个月前
010

Meta 刚刚在 Hugging Face 上发布了 MobileLLM-R1 边缘推理模型,参数少于 10 亿 性能提升 2–5×,超越其他完全开源模型:MobileLLM-R1 MATH 准确率上比 Olmo-1.B 高约 5 倍,比 SmolLM2-1.7B 高约 2 倍

与 Qwen 相比,仅使用 1 10 的预训练 token:仅用 4.2 万亿 token(仅占 Qwen3 的 36 万亿 token 的 11.7%)进行训练,就在多个推理基准测试中达到或超过 Q...
头像3个月前
000

论文带读系列2023

第4集 | 。深度学习是指在教师的引领下,学生围绕具有挑战性的主题,全身心积极参与,体验成功,获得发展的有意义的学习过程。五个特征:联想与结构 体验与活动 本质与变式 迁移与应用 价值与评价 读后感...
头像3个月前
110

SFTSuitedFine-Tuning SFT是一种机器学习技术,特别是在深度学习领域,它指的是在一个预训练的模型基础上,通过在特定任务上进行额外的训练来进一步优化模型的性能

以下是SFT的一些关键点: 预训练模型在SFT中一般从一个已经在大规模数据集上训练好的模型开始,这个模型已经学习了大量通用的特征,可以作为进一步训练的基础。 SFT的目标是让模型在某个特定的任务上表现...
头像3个月前
000
1 2