扩散模型:从DDPM到Stable Diffusion的逆袭之路

内容分享2小时前发布 Q筱颜
0 0 0


核心要点:

• 扩散模型通过”加噪-去噪”过程学习数据分布
• 关键公式:前向过程 q(x_t|x_{t-1}) 和反向过程 p_θ(x_{t-1}|x_t)
• Latent Diffusion (LDM) 让高分辨率图像生成成为可能
• GLIDE、DALL-E 2、Stable Diffusion都是扩散模型的变体

什么是扩散模型?

2020年,OpenAI的论文《Denoising Diffusion Probabilistic Models》(DDPM)让扩散模型成为AI生成领域的新宠。但其思想实则源于非平衡统计力学——模拟数据如何从”纯噪声”逐渐变成有意义的样本。

扩散模型的核心流程分为两步:

  1. 前向过程(加噪): 一步步往数据(如一张图片)中添加高斯噪声,直到它变成完全随机的噪声。这个过程是固定的,不需要学习。
  2. 反向过程(去噪): 训练一个神经网络(一般是U-Net)从噪声中逐步恢复原始数据。这个”去噪网络”就是我们要学习的模型。

扩散模型:从DDPM到Stable Diffusion的逆袭之路

图:前向加噪(固定)与反向去噪(学习)的对比

数学原理(简易版)

前向过程:在T步中,每一步加入少量噪声

q(x_t | x_{t-1}) = N(x_t; √(1-β_t) x_{t-1}, β_t I)

其中 β_t 是噪声调度参数。经过T步后,x_T ≈ N(0, I),即标准高斯噪声。

反向过程:训练网络预测每一步的均值(或噪声本身)

p_θ(x_{t-1} | x_t) = N(x_{t-1}; μ_θ(x_t, t), σ_t^2 I)

损失函数一般是预测噪声的均方误差:

L = E_{x_0, ε, t} [ || ε – ε_θ(x_t, t) ||^2 ]

训练完成后,从纯噪声 x_T 开始,重复T次”去噪”得到样本 x_0。采样时可以用DDPM、DDIM等不同策略,DDIM能大幅减少采样步数(从1000步降到50步甚至更少)。

⚡ 为什么扩散模型能战胜GAN?

2014年GAN问世后,生成式AI进入了新纪元。但GAN有固有缺陷:

  • 训练不稳定:生成器和判别器的博弈容易导致模式崩溃。
  • 多样性差:GAN倾向于只学习最”典型”的样本,忽略长尾分布。
  • 评估困难:没有明确的似然下界,只能靠FID、Inception Score等间接指标。

扩散模型的优势:

  • 训练稳定:不需要对抗训练,是纯粹的似然最大化(或变分下界优化)。
  • 模式覆盖全面:理论上能学习完整的数据分布。
  • 采样可控:通过Classifier-Free Guidance (CFG)等技巧,可以用文本引导生成方向。

扩散模型:从DDPM到Stable Diffusion的逆袭之路

图:扩散模型(左)与GAN(右)的生成质量对比

从DDPM到Stable Diffusion的飞跃

原始DDPM直接在像素空间操作,需要大内存、慢速度。2022年,Latent Diffusion Model (LDM) 横空出世,核心思想是:

  1. VAE编码: 用预训练的自编码器把高分辨率图片压缩到低维潜在空间(latent space)。例如512×512×3的图片变成64×64×4的latent。
  2. 在latent空间扩散: 在compact的latent空间进行加噪/去噪,计算量大幅降低。
  3. VAE解码: 生成结束后,用VAE decoder把latent还原为高分辨率图像。

这就是Stable Diffusion的核心架构。LDM让消费级显卡(8GB显存)也能跑1024×1024的图像生成,彻底引爆了AIGC浪潮。

文本引导:CLIP与CFG

如何让扩散模型按文字描述生成图像?关键组件是CLIP(Contrastive Language-Image Pretraining):

  • CLIP同时训练图像编码器和文本编码器,学习图文对的联合表明。
  • 在反向去噪过程中,用CLIP计算图像latent与文本提示的相关性,作为guidance。

Classifier-Free Guidance (CFG) 进一步提升控制力:

ε_guided = (1+w) ε_cond – w ε_uncond

其中 w 是guidance scale,控制文字提示的强度。w=0 ≈ 无条件生成;w=7~12是常用范围,太高会导致过饱和、细节丢失。

扩散模型:从DDPM到Stable Diffusion的逆袭之路

图:CLIP模型理解文本与图像的语义对应

扩散模型的应用版图

  • 文生图: Stable Diffusion、DALL-E 2、Midjourney、DALL-E 3、Imagen
  • 图生图: img2img、Inpainting(局部重绘)、Outpainting(扩展画布)
  • 超分辨率: Latent Diffusion的变体如LatentSR
  • 视频生成: Sora、Runway、Pika等逐步引入3D spatiotemporal attention
  • 3D生成: Zero-1-to-3、Shap-E等将2D扩散扩展到3D空间
  • 音频: AudioLDM、WaveGrad等用于语音合成、音乐生成
  • 分子设计: Diffusion on graphs用于新药发现

未来展望

扩散模型仍在快速进化:

  • 速度提升: Consistency Models、LCM(Latent Consistency Model)将采样步数降到1~4步,接近实时。
  • 统一架构: DiT(Diffusion Transformer)用Transformer替代U-Net,性能更好、可扩展性强。
  • 多模态融合: 文本+图像+音频+视频的统一生成框架。
  • 可控生成: ControlNet、T2I-Adapter提供更细粒度的空间控制(姿态、深度、边缘等)。

扩散模型:从DDPM到Stable Diffusion的逆袭之路

图:扩散模型正从图像向视频、3D、音频等多模态扩展

总结

扩散模型从一个统计物理学的想法,成长为当今生成式AI的绝对主流。它的成功源于:

  • 理论简洁(加噪-去噪)
  • 训练稳定(无需对抗)
  • 生成质量高(细节丰富、多样性好)
  • 可扩展性强(Latent Diffusion、DiT)

如果你想动手实践,从HuggingFace的diffusers库开始是一个好选择——只需几行代码就能调用Stable Diffusion、DDIM、CFG等所有现代技巧。

© 版权声明

相关文章

暂无评论

none
暂无评论...