头像

游戏安利社

帅气的我简直无法用语言描述!

Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought

摘要 大规模视觉-语言模型(LVLMs)在多模态任务中取得了显著成功,多模态思维链(MCoT)进一步提升了其性能和可解释性。最近的MCoT方法分为两类:(i)文本型MCoT(T-MCoT),接受多...
头像8小时前
000