核心要点:
• 扩散模型通过”加噪-去噪”过程学习数据分布
• 关键公式:前向过程 q(x_t|x_{t-1}) 和反向过程 p_θ(x_{t-1}|x_t)
• Latent Diffusion (LDM) 让高分辨率图像生成成为可能
• GLIDE、DALL-E 2、Stable Diffusion都是扩散模型的变体
什么是扩散模型?
2020年,OpenAI的论文《Denoising Diffusion Probabilistic Models》(DDPM)让扩散模型成为AI生成领域的新宠。但其思想实则源于非平衡统计力学——模拟数据如何从”纯噪声”逐渐变成有意义的样本。
扩散模型的核心流程分为两步:
- 前向过程(加噪): 一步步往数据(如一张图片)中添加高斯噪声,直到它变成完全随机的噪声。这个过程是固定的,不需要学习。
- 反向过程(去噪): 训练一个神经网络(一般是U-Net)从噪声中逐步恢复原始数据。这个”去噪网络”就是我们要学习的模型。

图:前向加噪(固定)与反向去噪(学习)的对比
数学原理(简易版)
前向过程:在T步中,每一步加入少量噪声
q(x_t | x_{t-1}) = N(x_t; √(1-β_t) x_{t-1}, β_t I)
其中 β_t 是噪声调度参数。经过T步后,x_T ≈ N(0, I),即标准高斯噪声。
反向过程:训练网络预测每一步的均值(或噪声本身)
p_θ(x_{t-1} | x_t) = N(x_{t-1}; μ_θ(x_t, t), σ_t^2 I)
损失函数一般是预测噪声的均方误差:
L = E_{x_0, ε, t} [ || ε – ε_θ(x_t, t) ||^2 ]
训练完成后,从纯噪声 x_T 开始,重复T次”去噪”得到样本 x_0。采样时可以用DDPM、DDIM等不同策略,DDIM能大幅减少采样步数(从1000步降到50步甚至更少)。
⚡ 为什么扩散模型能战胜GAN?
2014年GAN问世后,生成式AI进入了新纪元。但GAN有固有缺陷:
- 训练不稳定:生成器和判别器的博弈容易导致模式崩溃。
- 多样性差:GAN倾向于只学习最”典型”的样本,忽略长尾分布。
- 评估困难:没有明确的似然下界,只能靠FID、Inception Score等间接指标。
扩散模型的优势:
- 训练稳定:不需要对抗训练,是纯粹的似然最大化(或变分下界优化)。
- 模式覆盖全面:理论上能学习完整的数据分布。
- 采样可控:通过Classifier-Free Guidance (CFG)等技巧,可以用文本引导生成方向。

图:扩散模型(左)与GAN(右)的生成质量对比
从DDPM到Stable Diffusion的飞跃
原始DDPM直接在像素空间操作,需要大内存、慢速度。2022年,Latent Diffusion Model (LDM) 横空出世,核心思想是:
- VAE编码: 用预训练的自编码器把高分辨率图片压缩到低维潜在空间(latent space)。例如512×512×3的图片变成64×64×4的latent。
- 在latent空间扩散: 在compact的latent空间进行加噪/去噪,计算量大幅降低。
- VAE解码: 生成结束后,用VAE decoder把latent还原为高分辨率图像。
这就是Stable Diffusion的核心架构。LDM让消费级显卡(8GB显存)也能跑1024×1024的图像生成,彻底引爆了AIGC浪潮。
文本引导:CLIP与CFG
如何让扩散模型按文字描述生成图像?关键组件是CLIP(Contrastive Language-Image Pretraining):
- CLIP同时训练图像编码器和文本编码器,学习图文对的联合表明。
- 在反向去噪过程中,用CLIP计算图像latent与文本提示的相关性,作为guidance。
Classifier-Free Guidance (CFG) 进一步提升控制力:
ε_guided = (1+w) ε_cond – w ε_uncond
其中 w 是guidance scale,控制文字提示的强度。w=0 ≈ 无条件生成;w=7~12是常用范围,太高会导致过饱和、细节丢失。

图:CLIP模型理解文本与图像的语义对应
扩散模型的应用版图
- 文生图: Stable Diffusion、DALL-E 2、Midjourney、DALL-E 3、Imagen
- 图生图: img2img、Inpainting(局部重绘)、Outpainting(扩展画布)
- 超分辨率: Latent Diffusion的变体如LatentSR
- 视频生成: Sora、Runway、Pika等逐步引入3D spatiotemporal attention
- 3D生成: Zero-1-to-3、Shap-E等将2D扩散扩展到3D空间
- 音频: AudioLDM、WaveGrad等用于语音合成、音乐生成
- 分子设计: Diffusion on graphs用于新药发现
未来展望
扩散模型仍在快速进化:
- 速度提升: Consistency Models、LCM(Latent Consistency Model)将采样步数降到1~4步,接近实时。
- 统一架构: DiT(Diffusion Transformer)用Transformer替代U-Net,性能更好、可扩展性强。
- 多模态融合: 文本+图像+音频+视频的统一生成框架。
- 可控生成: ControlNet、T2I-Adapter提供更细粒度的空间控制(姿态、深度、边缘等)。

图:扩散模型正从图像向视频、3D、音频等多模态扩展
总结
扩散模型从一个统计物理学的想法,成长为当今生成式AI的绝对主流。它的成功源于:
- 理论简洁(加噪-去噪)
- 训练稳定(无需对抗)
- 生成质量高(细节丰富、多样性好)
- 可扩展性强(Latent Diffusion、DiT)
如果你想动手实践,从HuggingFace的diffusers库开始是一个好选择——只需几行代码就能调用Stable Diffusion、DDIM、CFG等所有现代技巧。


