《如何用AI做任何事》第四讲：多模态与对齐

内容分享2小时前发布

0 0 0

全能 AI 聚合平台免费

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI对话 AI生图 AI视频

免费使用 →

当AI开始“同时理解世界”，真正的难题才刚刚开始。如果说前几讲，我们还停留在“一个模型处理一种数据”的世界，那么从这一讲开始，问题彻底变了。

现实世界，从来不是单模态的。你看一段视频，不只是“图像”，还包含声音、语言、情绪、时间节奏；你理解一个人，不只是“他说了什么”，还有语气、表情、语境。

而多模态AI，本质上就是在做一件事：让机器像人一样，把这些不同来源的信息“拼在一起理解”。

《如何用AI做任何事》第四讲：多模态与对齐

这听起来很自然，但技术上极其困难。

这一讲，讲的就是这件事背后的核心问题： 多模态（Multimodal）与对齐（Alignment）

一、多模态AI，是怎么一步步走到今天的？

在讲技术之前，我们先看一条超级关键的时间线。

多模态的发展，并不是一蹴而就的，而是经历了五个阶段：

1）行为时代（1970s–1980s）

研究停留在观察层面，人类是如何同时理解语音和表情？如何通过唇读理解语言？
这个阶段是有认知，没有模型。

2）计算时代（1980s末–2000）

开始出现早期系统，列如语音识别。但核心方法还是：规则 + 统计；模态之间几乎没有“深层理解”

3）交互时代（2000–2010）

重点变成人机交互：

多模态对话
手势识别
情感计算

机器开始“参与沟通”，但还不够机智

4）深度学习时代（2010s）

真正爆发：

CNN 处理视觉
RNN 处理序列
经典任务出现：图像描述、VQA、唇读

这个阶段模态开始“能被学出来”了。

5）基础模型时代（2020s）

关键转折点来了：

CLIP
DALL·E
GPT-4V

这些模型的本质是：它们天生就是多模态的

不再是“多个模型拼起来”，而是一个模型理解整个世界。

如果你把这五个阶段串起来，实则是一个很清晰的演化路径：

行为观察 → 计算建模 → 交互系统 → 深度学习 → 大规模预训练

每一次跃迁，本质上都在回答一个问题：不同模态之间，如何建立关系？

二、什么是“模态”？真正的定义是什么？

课程里给了一个超级精炼的定义：Modality = 信息被表达或被感知的方式

给公式：模态 = 你“怎么知道这件事”的

在人类世界里：

视觉：你“看到”
听觉：你“听到”
触觉：你“摸到”

在AI世界里：

图像 = 一个模态
文本 = 一个模态
语音 = 一个模态
视频 = 一个模态

甚至：图结构、传感器数据，都可以是模态

三、多模态，不是“多个数据”，而是三件事

《如何用AI做任何事》第四讲：多模态与对齐

课程里有一句超级关键的话：

Multimodal is the science of heterogeneous and interconnected data
直接翻译是：多模态是研究异构和相互关联数据的科学。但这种直译过来实则不够——真正要理解，需要拆成三个关键词：

1）异质性（Heterogeneity）

不同模态，本质完全不同。

文本：离散符号（词）
图像：连续空间（像素）
音频：连续时间（波形）

他们的底层结构不一样，但有个很有意思的现象，那就是越抽象的东西，不同模态反而越“像”。

列如“开心”：

文本：我很开心
表情：微笑
语音：轻快语调

表达不同，但语义一致

2）连接性（Connection）

模态之间不是随意拼的，它们有关系强弱：

强连接：图像 ↔ 描述
弱连接：视频 ↔ 背景音乐
无连接：猫图 ↔ 金融新闻

连接强弱，决定是否能相互协助

3）交互性（Interaction）

就是模态组合之后，会产生什么？

三种情况：

• Unique（独有信息）

某个模态独有：

文本：语义
语音：语气

• Redundancy（冗余）

多个模态表达同一件事：列如说“我很开心” + 微笑

• Synergy（协同）

最重大: 1 + 1 > 2

列如：

文本：I'm not sure
表情：困惑

结合起来才能真正判断“犹豫”，因而多模态的价值，不在叠加，而在协同

四、多模态的6个核心问题，实则就是你每天在做的6件事

《如何用AI做任何事》第四讲：多模态与对齐

你以为多模态很复杂，但实则——你每天都在做，只不过你做得太自然了。

我们一个一个来。

1. 表征（Representation）

这就是你在做把世界“看懂成一种形式”。

例如你看到一只猫。不是像素、不是颜色、不是边缘。而是你脑子里只剩一个东西 “猫”。

但对机器来说，不一样。

图像：是一堆像素
语音：是一段波形
文本：是一串符号

由于我们和机器根本不是一个“语言体系”

所以第一步必定是：把不同模态，翻译成一种“机器能统一理解的表明”

举个更直白的例子：

你刷短视频：

画面：一个人在跑
音乐：很燃
文案：冲！

你脑子里形成的是：“热血/激励”。这个过程，就是表征

本质一句话：表征 = 把不同模态，压缩成“同一种理解空间”

2. 对齐（Alignment）

就是知道“谁对应谁”。

列如你看一张图：

一个女生在喝咖啡。同时字幕写着 “她终于放松下来了”

你不会困惑“她”是谁？“放松”发生在哪？

你自动知道：“她”=图里的那个人，“放松”=她目前的状态。

但这些机器不知道。

因而它需要解决的问题是：文本里的词，对应图像里的哪个区域？

再换个生活例子：

你看电影：

角色说：“我来了”
镜头切到门口的人

你会自动对齐：说话的人 = 这个人

所以： 对齐 = 在不同模态之间，建立“对应关系”

3. 推理（Reasoning）

你看到一个视频:一个男生打开窗户,外面正下雨

问题来了： 他为什么开窗？

人类不会只看一个模态：由于只看画面不知道缘由，只有问题不知道场景。

所以机智的你会结合：场景 + 语义 +常识

得出结论：可能是需要通风、或者刚回家。这就是推理。

小结一下：

对齐：谁对应谁
推理：为什么发生

推理 = 用多个模态，推导出“隐含信息”

4. 生成（Generation）

就是把理解“说出来或者画出来”。

你看到一张照片：夕阳、海边、一个人。

你可以说：“一个人在海边看日落，很孤独”

或者你听到一句话：“一只宇航员猫在月球喝咖啡”，你脑子里会立刻出现画面。

这就是生成：

图 → 文（描述）
文 → 图（想象）

这个难点在不是生成本身，而是跨模态语义必须一致

本质一句话：生成 = 用一个模态，创造另一个模态

5. 迁移（Transference）

迁移就是用“熟悉的理解”，帮你理解陌生的东西

你没见过某种老虎。但你见过猫，想到老虎，你想到一个巨星猫。这就是用已有知识迁移。

在AI里：图像数据许多，语音数据少，就可以用视觉能力，去协助语音任务。

在举一个例子，我们多数人学英语的时候，都是用先中文理解的。

迁移的本质：用一个模态的知识，协助另一个模态

6. 量化（Quantification）

判断“它到底理解了吗？”。这是最容易被忽略，但很最重大的一点。

列如一个AI：

能生成图片
能回答问题

问题是：它是真的理解，还是在“瞎猜”？

你怎么判断？

准确率？
一致性？
人类评分？

衍生更深一层问题：如果文本说开心，表情是悲伤，这更可信吗？

这就是量化要解决的：如何衡量多模态之间的关系和质量

总结一下： 量化 = 判断多模态系统“到底有没有理解”

最后，把这6件事串起来

你会发现一件很有意思的事，这6个问题，实则就是一条完整链路：

表征 → 你先把世界“看懂”
对齐 → 再知道“谁对应谁”
推理 → 然后理解“为什么”
生成 → 再表达出来
迁移 → 用已有能力扩展
量化 → 最后判断好不好

所以真正的总结不是6个词，而是一句话：多模态AI，本质是在复刻人类理解世界的全过程。

如果你把这套理解建立起来，你再看CLIP、GPT-4V、视频模型。就不会觉得它们是“不同模型”，它们只是在这6个环节中，分别变强了。

最后的总结

如果你只记住一句话，我希望是这一句：

多模态AI，不是处理更多数据，而是理解“不同数据之间的关系”。

而这件事的核心，不是模型，是对齐（Alignment）。

再进一步说： 未来AI的能力边界，不取决于模型有多大，而取决于它能否把世界“对齐”。

如果你理解了这一点，你会发现：那些AI公司不是做“模型”，而是让让机器建立“世界的统一表明”。 也就是李飞飞说的世界模拟。

[!Tip]
专注于 AI 智能体实践与技术演进深度思考。主理人拥有资深技术背景与心理学视角，致力于通过真实实验（2025年更新361篇实操记录）探索 LLM、RAG 与 Agentic Workflow 的落地边界。

内容分享

文章版权归作者所有，未经允许请勿转载。

安装Dify源码并修改前端发布

内容分享

1个月前

010

程序员如何应对AI带来的职场变革

内容分享

6个月前

010

远程开关机

内容分享

5个月前

040

Golang的性能测试工具使用经验

内容分享

6个月前

010

暂无评论

暂无评论...

《如何用AI做任何事》第四讲：多模态与对齐

一、多模态AI，是怎么一步步走到今天的？

1）行为时代（1970s–1980s）

2）计算时代（1980s末–2000）

3）交互时代（2000–2010）

4）深度学习时代（2010s）

5）基础模型时代（2020s）

二、什么是“模态”？真正的定义是什么？

在AI世界里：

三、多模态，不是“多个数据”，而是三件事

1）异质性（Heterogeneity）

2）连接性（Connection）

3）交互性（Interaction）

• Unique（独有信息）

• Redundancy（冗余）

• Synergy（协同）

四、多模态的6个核心问题，实则就是你每天在做的6件事

1. 表征（Representation）

2. 对齐（Alignment）

3. 推理（Reasoning）

4. 生成（Generation）

5. 迁移（Transference）

6. 量化（Quantification）

最后，把这6件事串起来

最后的总结

Gemini3：ChatGPT地位不保，AI时代真正的王者归来！

300万GPTs有啥好东西？今晚直播一起点评｜直播预告

相关文章

热门网站

小苹果网页助手

通义

Shopee

腾讯元宝

ChatGPT

Gemini

热门文章

标签云