新这篇题为《LEO:通过混合视觉编码器提升多模态大型语言模型》的论文由滑铁卢大学的Mozhgan Nasr Azadani、James Riddell、Sean Sedwards和Krzysztof Czarnecki撰写,提出了一种新的多模态大型语言模型(MLLM)LEO,该模型通过双分支视觉编码器框架和后适应融合策略来增强视觉理解能力,并在多个视觉语言基准测试中表现出色
研究背景 多模态大型语言模型(MLLM)通过结合预训练的大型语言模型(LLM)和强劲的视觉编码器,已经在视觉语言理解和推理任务中取得了显著进展。不过,由于当前视觉编码器和语言模型序列长度的限制,这些模...