← 名词百科

U-Net

分类:模型架构

U-Net 是一种对称的编码器-解码器架构,最初由 Ronneberger et al. 于 2015 年提出用于医学图像分割,后被 Stable Diffusion 用作核心噪声预测网络。

架构特点

输入 → [下采样 × N] → [瓶颈层] → [上采样 × N] → 输出
              ↓                      ↑
              └──── 跳跃连接 ────────┘
  1. 下采样路径:逐步降低空间尺寸、增加通道数,提取高层语义
  2. 上采样路径:逐步恢复空间尺寸
  3. 跳跃连接:将下采样特征直接拼接到上采样对应层,保留细节信息

在 Stable Diffusion 中的应用

  • 输入:带噪声的潜在表示 + 时间步编码 + 文本条件
  • 输出:预测的噪声
  • UNet 通常配合交叉注意力机制注入文本条件

相关概念