头像

-薄荷白

帅气的我简直无法用语言描述!

多模态大模型的前沿算法

。LLaVA架构视觉编码器+语言模型的融合,LLaVA算法我感觉还挺好用的。它用Vision Transformer提取图像特征,然后直接接入大语言模型,简单粗暴但效果炸裂。最大的好处就是可以复用现有...
头像4天前
000