U-Net
U-Net 是一种对称的编码器-解码器架构,最初由 Ronneberger et al. 于 2015 年提出用于医学图像分割,后被 Stable Diffusion 用作核心噪声预测网络。
架构特点
输入 → [下采样 × N] → [瓶颈层] → [上采样 × N] → 输出
↓ ↑
└──── 跳跃连接 ────────┘
- 下采样路径:逐步降低空间尺寸、增加通道数,提取高层语义
- 上采样路径:逐步恢复空间尺寸
- 跳跃连接:将下采样特征直接拼接到上采样对应层,保留细节信息
在 Stable Diffusion 中的应用
- 输入:带噪声的潜在表示 + 时间步编码 + 文本条件
- 输出:预测的噪声
- UNet 通常配合交叉注意力机制注入文本条件