扩散模型：从DDPM到Stable Diffusion的逆袭之路

核心要点：
• 扩散模型通过”加噪-去噪”过程学习数据分布
• 关键公式：前向过程 q(x_t|x_{t-1}) 和反向过程 p_θ(x_{t-1}|x_t)
• Latent Diffusion (LDM) 让高分辨率图像生成成为可能
• GLIDE、DALL-E 2、Stable Diffusion都是扩散模型的变体

什么是扩散模型？

2020年，OpenAI的论文《Denoising Diffusion Probabilistic Models》(DDPM)让扩散模型成为AI生成领域的新宠。但其思想实则源于非平衡统计力学——模拟数据如何从”纯噪声”逐渐变成有意义的样本。

扩散模型的核心流程分为两步：

前向过程（加噪）：一步步往数据（如一张图片）中添加高斯噪声，直到它变成完全随机的噪声。这个过程是固定的，不需要学习。
反向过程（去噪）：训练一个神经网络（一般是U-Net）从噪声中逐步恢复原始数据。这个”去噪网络”就是我们要学习的模型。

扩散模型：从DDPM到Stable Diffusion的逆袭之路

图：前向加噪（固定）与反向去噪（学习）的对比

数学原理（简易版）

前向过程：在T步中，每一步加入少量噪声

q(x_t | x_{t-1}) = N(x_t; √(1-β_t) x_{t-1}, β_t I)

其中 β_t 是噪声调度参数。经过T步后，x_T ≈ N(0, I)，即标准高斯噪声。

反向过程：训练网络预测每一步的均值（或噪声本身）

p_θ(x_{t-1} | x_t) = N(x_{t-1}; μ_θ(x_t, t), σ_t^2 I)

损失函数一般是预测噪声的均方误差：

L = E_{x_0, ε, t} [ || ε – ε_θ(x_t, t) ||^2 ]

训练完成后，从纯噪声 x_T 开始，重复T次”去噪”得到样本 x_0。采样时可以用DDPM、DDIM等不同策略，DDIM能大幅减少采样步数（从1000步降到50步甚至更少）。

⚡ 为什么扩散模型能战胜GAN？

2014年GAN问世后，生成式AI进入了新纪元。但GAN有固有缺陷：

训练不稳定：生成器和判别器的博弈容易导致模式崩溃。
多样性差：GAN倾向于只学习最”典型”的样本，忽略长尾分布。
评估困难：没有明确的似然下界，只能靠FID、Inception Score等间接指标。

扩散模型的优势：

训练稳定：不需要对抗训练，是纯粹的似然最大化（或变分下界优化）。
模式覆盖全面：理论上能学习完整的数据分布。
采样可控：通过Classifier-Free Guidance (CFG)等技巧，可以用文本引导生成方向。

扩散模型：从DDPM到Stable Diffusion的逆袭之路

图：扩散模型（左）与GAN（右）的生成质量对比

从DDPM到Stable Diffusion的飞跃

原始DDPM直接在像素空间操作，需要大内存、慢速度。2022年，Latent Diffusion Model (LDM) 横空出世，核心思想是：

VAE编码：用预训练的自编码器把高分辨率图片压缩到低维潜在空间（latent space）。例如512×512×3的图片变成64×64×4的latent。
在latent空间扩散：在compact的latent空间进行加噪/去噪，计算量大幅降低。
VAE解码：生成结束后，用VAE decoder把latent还原为高分辨率图像。

这就是Stable Diffusion的核心架构。LDM让消费级显卡（8GB显存）也能跑1024×1024的图像生成，彻底引爆了AIGC浪潮。