Oopvo

人工智能 50 词

2026-06-16T00:00:00+00:00

网络上收集相关概念

基础概念篇

函数：万物皆函数
符号主义（Symbolism）：早期人们用符号主义思想找到精确函数，但是遇见了瓶颈
联结主义（Connectionism）：后来人们用联结主义思想，啥都不管，弄个非常复杂的函数，然后用真实值与预测值中间的误差来调整参数，这个函数我们叫做：
模型（Model）
权重（Weight）：模型里面的参数
大模型（LM）：模型里面的参数量很大
大语言模型（LLM）：用来处理自然语言的模型
训练：调整模型参数的过程
预训练：事先训练好一个基础模型的方法叫做预训练
微调（Fine-tuning）：基于预训练模型继续训练，让模型学会具体任务的方式叫做参数微调
推理（Inference）：根据函数的输入计算输出结果的过程叫做推理
涌现（Emergence）：随着模型参数的不断提升，对话能力有了明显的上升，这种量变引起质变，让模型突然出现之前没有的能力的现象为涌现（这里可以和 Vision Banana 联系）
闭源模型（Closed-source Model）：不开放源代码，也不开放权重，只提供服务的模型
开放权重（Open-weight Model）：这里只开源了权重，没有开放训练数据等等，并且可以在本地部署的为开源模型
完全开源（Fully Open-source Model）：全开放
私有化部署（Private Deployment）：不开放服务给外界使用，只给自己用
生成式 AI（Generative AI）：基于输入可以自动输出结果的模型
Token：分割出的，模型可以处理的最小信息单位
上下文（Context）：输入给模型的所有的信息叫做上下文
幻觉（Hallucination）：说胡话
联网（Browser）：大模型回答问题前，先在互联网上查找相关信息，把信息和问题共同发给大模型，相当于开卷考试
RAG（Retrieval-Augmented Generation）检索增强生成：有的时候，某些数据不能上传到网络上，就是私有的数据库
知识库（KB, Knowledge Base）：这些私有的数据库叫做知识库
向量数据库：为了让模型和知识库中的语义进行匹配，知识往往会以向量的形式存储在向量数据库里面
词嵌入（Embedding）：把文字转化为词向量的方式叫做词嵌入
向量检索（Vector Search）：根据相似度在向量数据库里面找到对应的词向量的过程叫做向量检索
多模态（Multimodal）：处理多种模式内容的能力叫做多模态
工作流（Workflow）：把工作步骤编排成一个工作流程的能力
智能体（Agent）：按照工作流封装大模型和一整套工具集，用于自动完成某一类任务的工具
多智能体（Multi-Agent）：多个智能体相互协助，完成更复杂的任务
MCP（Model Context Protocol）：有的时候模型要用微信、上网等等，对外部世界进行操作，Anthropic 公司给了一个 AI 操作外部世界的统一标准 MCP
A2A（Agent-to-Agent Protocol）：Google 给 Agent 之间的通信定的协议
模型压缩（Model Compression）：让模型更小，以便减少成本和方便个人部署
量化（Quantization）：把模型中的浮点数用更低精度的方法表示，以减少显存和计算
蒸馏（Distillation）：用参数量大的大模型，指导参数量小的模型
剪枝（Pruning）：删除模型中不重要的神经元
LoRA（Low-rank Adaptation）：用更低成本改善微调效果的方式
思维链（Chain-of-Thought）：从推理能力增强模型能力的方式
RLHF（人类反馈强化学习）：通过人类反馈的方式强化学习，让模型说的话更贴合人心
NLP：自然语言处理
TTS：文字转语音
Hugging Face：AI 开源工作平台

模型训练流程

1. 明确任务需求

传统机器学习：分类、回归、聚类、异常检测

深度学习：图像分类、目标检测、分割、生成任务

2. 定义评价指标

分类：Acc、Precision、Recall、F1、AUROC、AUPRC

回归：MSE、MAE、RMSE、R²

生成类：BLEU、PSNR、SSIM

3. 业务约束

显存、精度

4. 数据集的构建

5. 数据预处理

6. 数据集划分

7. 特征工程（数据增强）

8. 模型搭建与初始化

9. 确定训练组件的配置

Loss
Optimizer
超参数的设定

10. 训练循环

训练集训练（分批次输入 → 前向传播预测结果 → 计算 Loss → 反向传播计算梯度 → 优化器优化权重）、验证集调参

11. 模型评估

测试集看性能

12. 超参数调优

13. 模型优化

过拟合、欠拟合

大模型训练后的对齐技术

大模型在预训练后，通常需要经过以下对齐步骤：

SFT（Supervised Fine-Tuning）：提供优质的指令-回答数据学习
RLHF（Reinforcement Learning from Human Feedback）：奖励 RM 训练、PPO 强化学习
- PPO（Proximal Policy Optimization，近端策略优化）：RM 打分为奖励，更新模型，同时加入 KL 散度惩罚
GRPO（Group Relative Policy Optimization）：R1 中使用，SFT 模型直接进入强化学习，无需单独训练奖励模型。GRPO 分组相对奖励：同一问题批量生成多条推理答案，对比正确率、步骤完整性给出分组奖励
DPO（Direct Preference Optimization）：舍弃奖励模型，直接用偏好数据（优劣回答对）构造损失，一步完成偏好对齐，训练更简单、显存开销更低

论文精读：Image Generators are Generalist Vision Learners

2026-06-11T00:00:00+00:00

原文链接：Google Research

2026 年 6 月 5 日，Google Research 发布了论文《Image Generators are Generalist Vision Learners》V3 版本，以图像生成预训练为通用视觉表征基座，通过轻量指令微调与严格可逆的 RGB 编码接口，将 2D/3D 感知任务统一重构为条件图像生成问题。这意味着生成式视觉预训练将在构建兼具生成能力和理解能力的基础视觉模型中占据核心地位。

In this work, we demonstrate that image generation training serves a role similar to LLM pretraining, and lets models learn powerful and general visual representations that enable state-of-the-art performance on various vision tasks.

在很多视觉任务中，Vision Banana 都可以达到 SOTA 水平。

Our generalist model, Vision Banana, achieves state-of-the-art results on a variety of vision tasks involving both 2D and 3D understanding, beating or rivaling zero-shot domain-specialists, including Segment Anything Model 3 on segmentation tasks, and the Depth Anything series on metric depth estimation.

这个模型（Vision Banana）在 2D/3D 都达到了行业顶尖水平，甚至可以与 SAM3、Depth Anything 系列等专业模型竞争，甚至是超过这些模型。

论文背景与动机

本论文尝试回答一个问题：大规模图像/视频生成模型在海量无监督预训练过程中，是否已经隐式地习得了强泛化、可迁移的视觉理解表征（是否像在 NLP 领域一样学到了对于世界的理解）？如果的确如此，那我们是否可以通过一种轻量的、统一的方法把这些表征”解放”出来。

如此，具有最大意义：

Paradigm shift：范式转换，表明 CV 正式与 NLP 对齐：Pretrain → Instruction Tuning → Emergence
统一 CV 流程：传统 CV 任务，图像分类、目标检测、分割等，在实际应用上往往需要多步融合，而本论文方法可将这些任务统一为”单模型 + 统一提示词路由”
扩展灵感：对于 NLP、CV 本质相同，那是否可以推广到更远的领域，是否可以推广到世界模型

如何证明图像生成模型确实可作为视觉理解的基座模型

To achieve this, we finetune a pretrained image generator with a small amount of computer vision data (depth estimation, surface normal estimation, segmentation, etc.). We then evaluate the resulting model on a wide variety of vision benchmarks. If the finetuned model performs at or near SOTA on these benchmarks, while retaining its image generation capabilities, then there is strong evidence that the image generator was indeed a foundation model for visual understanding – i.e., a generalist vision learner.

为验证这一点，我们使用少量计算机视觉数据（深度估计、表面法向量估计、图像分割等任务数据）对预训练图像生成模型进行微调。随后，我们在各类视觉评测基准上测试该模型。若微调后的模型在这些基准任务中达到或接近当前最优水平，同时保留图像生成能力，便足以证明：这类图像生成模型确实可作为视觉理解的基座模型，也就是通用视觉学习模型。

实际上论文提到了以前有实验去验证了生成式模型有着某些隐藏的理解能力，但是因为模型未能严格遵循提示要求，以生成可解码为视觉输出并用于计算定量指标的预期格式图像，导致了这些模型未能达到 SOTA 水平。部分研究者还添加专用模块并进行全精细调优来调整生成架构，从而在特定目标任务上实现 SOTA 级效果。

虽然这些研究利用了预训练特征的理解能力，但是牺牲了模型在其他地方的理解和生成式模型的通用性。

在此基础上进行训练：

本文将视觉生成模型定位为”视觉基座模型”，并通过指令微调实现模型对齐，使其能够依据提示词生成符合预期格式的视觉输出，整体流程如上图。

具体而言，模型会根据指令生成 RGB 图像，我们可从该图像中解码得到各类计算机视觉任务输出结果。本文设计了配套指令提示词与可解码可视化方案，打通视觉生成结果与标准评测格式之间的转换通道，使我们能够采用可量化指标开展基准测试。

举个例子：输入提示词”将滑板类别分割为纯黄色 < 255, 255, 0>”，只需筛选像素值接近 < 255,255,0 > 的像素做聚类，就能快速提取滑板对应的分割掩码。

该方法具有三大优势：

单一套统一模型即可适配海量任务；完成指令微调后，所有任务共享模型权重，仅需更换提示词就能切换任务
所需新增训练数据量较少，指令微调仅教会模型如何将各类视觉任务结果编码为 RGB 图像
模型能够保留原生图像生成能力 — 模型输出本质仍是全新 RGB 图像，不会破坏生成基础能力

上图表示该模型对比各种 specialist 模型的性能，可以看出在多种任务都超过了专业模型。

启示

首先，它表明图像生成器本质上属于通用视觉学习系统，其生成式视觉预训练与语言模型预训练一样具有基础性作用
其次，它表明图像生成可以作为一种有效的学习方法，这种通用接口旨在实现统一的视觉理解，其作用类似于文本生成在语言理解和推理中的角色

方法

为严谨地研究和评估这些能力，我们需要对模型进行校准，使其生成的可视化结果能够反向解码为实际视觉任务输出以便定量分析。例如，在度量深度估计任务中，生成的深度热图必须能逆转换为物理深度值以进行量化评估。因此，我们通过对基础模型 Nano Banana Pro 进行指令调优，并结合一系列以可逆方式表述的视觉任务数据，开发出了 Vision Banana。具体而言，我们将视觉任务数据以极低比例混合到 Nano Banana Pro 自身的训练数据集中。这一过程使模型产生的生成表征能够对应到可测量的物理几何结构和语义标签，从而使得我们的通用型模型能够与特定任务专用模型进行对比评估。

基于图像生成器的通用视觉模型（Vision Banana）

本节给出 Vision Banana 在各种 CV 任务上的表现效果。

Semantic segmentation 语义分割
Instance segmentation 实例分割
Referring expression segmentation 指代表达分割

2D 语义理解

传统图像分割任务：依赖复杂的具体特定任务的模型将像素划分为语义类别或物体示例（高度专门化的架构设计 + 昂贵的人工标注掩码）。

本文 Vision Banana：挑战了这种 prevailing paradigm（主流范式），我们无需依赖大量精心制作的分割样本进行训练，而是利用基础图像生成模型所学习到的丰富表征信息。通过指示模型生成多色分割掩膜图像，我们获得密集的分割图谱，并从中解码出单个掩膜，从而实现基于图像生成的分割任务（具体见上表）。

这种精妙的生成方法超越了经过高度调优的专业模型，在所有评估的分割基准上均实现了 SOTA 零样本迁移性能。我们将其与未在领域内数据（即这些基准的训练集）上训练过的其他方法进行比较，并在表格中标注为”零样本迁移”。

生成式模型学习到了丰富的表征信息，通过指示模型分割就直接从图像中解码出分割掩码。

语义分割：语义分割是指将每个像素划分为预定义类别，而不区分具体实例。例如，Cityscapes 基准集（Cordts 等人，2016）定义了 19 个类别，包括道路、人物和天空。虽然实例分割和参考表达式分割也能传递语义信息，但我们仍使用”语义分割”这一术语。

此处严格而言，该概念仅适用于类别层面的语义分割任务。经典语义分割任务的这一特性可通过文本提示进行指定，我们训练模型遵循此类指令：要求模型生成一幅可视化图像，其中每个像素均根据其类别着色，如图所示。

关键在于，我们的方法采用开放词汇表设计：目标类别不受固定集合限制，可在提示中动态指定并附带相应的颜色映射关系。我们支持多种提示方式，包括自然语言描述（例如”马卡龙蛋糕用黄色表示”）以及结构化的 JSON 映射方案——颜色可指定为命名颜色、十六进制代码或 RGB 三元组。为进行定量评估，我们会对生成图像进行后处理，将每个像素归入其目标颜色在 RGB 空间中最接近的类别。

Vision Banana 在语义分割任务上，可以用各种开放词汇表与颜色映射关系进行指定，利用其生成能力得到分割掩码。

实例分割：与语义分割不同，实例分割要求模型能够区分属于同一类别的各个独立对象。例如，如果一张图像包含五只狗，我们期望模型为每只动物生成独立的掩码。这对 Vision Banana 提出了独特挑战：由于实例数量无法预先确定，我们无法在提示中指定具体颜色。为解决这一问题，我们仅提供目标类别和背景颜色作为输入，指示模型为每个独立实例分配唯一且不同的颜色，并允许模型动态为该类别下的不同实例分配不同颜色。

指代表达分割：与传统的固定类别分割不同，参照表达式分割旨在评估模型对由长篇自由形式自然语言查询所描述对象进行分割的能力。该任务要求模型能够理解并推理微妙的自然语言表达，并捕捉对象之间的复杂关系。

3D Understanding from Monocular Images（单眼图像理解三维空间）

Metric Depth Estimation（度量深度估计）：深度估计的目标是从单目图像中生成深度图，其中每个像素的值代表从相机平面到观测物体的实际几何距离。

这是计算机视觉领域的基础任务，广泛应用于机器人技术、增强/虚拟现实以及自动驾驶等领域。然而，深度估计本质上属于不适定问题，因为二维投影会丢失关键的三维几何信息。此外，由于多视图场景中缺乏视差线索（即使已知相机内参），单目深度估计尤其具有挑战性。

传统深度估计：视为是一个密集的逐像素监督回归任务，采用专门的架构和领域特定的损失函数；最新的 SOTA 在训练、推理过程都需要依靠详细的内参（camera intrinsic）以缓解深度估计固有的模糊性。

本文假设：生成建模中对模式的探索特性能够自然解决训练目标的模糊性，从而无需使用此类专门技术。此外，预训练过程中积累的广泛世界知识使该模型在物体尺寸和距离方面比窄目标模型具有更强的先验知识。为使 Nano Banana Pro 能够以度量单位估算深度，我们要求该模型输出精心构建的深度值伪彩色可视化结果。

将深度转化为 RGB 图像（具体原理还需要参考 Barron 等人 2023 年 ICCV 论文《Learning to Estimate Depth from Monocular Images》）

本次实验完全不使用任何真实世界的深度数据，并排除了所有评估所用深度数据集中的训练数据。需要特别说明的是，这一结果的实现无需在训练或推理过程中依赖相机参数（无论是内参还是外参）。通过充分利用其基础模型中蕴含的丰富几何先验信息，Vision Banana 仅凭视觉特征和物体关系即可推断出绝对尺度，从而实现对任意输入图像的零样本泛化能力。

定性分析：

表面法向量估计：表面法线估计是另一项关键的视觉任务。表面法线是取值范围在 -1.0 至 1.0 之间的单位向量 (x, y, z)，可作为表征局部几何形状和场景结构的重要指标。与度量深度所需的复杂颜色映射不同，表面法线的可视化本质上与 RGB 色彩空间相契合，从而能够直接集成到我们的模型中。

与 SOTA 水平相当。

讨论与个人见解

本文章为真正的基础视觉模型以及基于视觉的人工通用智能（AGI-V）铺平了道路。

基于本文提出的 Vision Banana 模型，我们是否可以对其进行扩展至世界模型（WM）？以下是个人的见解：

LLM 理解物理世界规则、材质、纹理等，但是缺少视觉信息；纯视觉模型则缺少物理世界规则，只能依靠训练进行分类
Vision Banana 模型很好地统一了这一点
明确几点：第一，LLM 可以描述客观世界，但是是基于人类的视角，本质上还是相当于一个巨大的知识库，充其量可能可以通过噪声在低概率的情况下推断某些新的东西；第二，视觉是给人看的，也是不可或缺的
现状：世界模型（这里以李飞飞的分类法：渲染器、模拟器、规划器）。渲染器如 Sora，无法直接处理 3D 场景，对物体材质、纹理、性质无法理解，对于光照也无法直接处理，难以通向 AGI；规划器如 VLA，依靠模拟器推理行动。于此，个人认为模拟器如 Marble（李飞飞团队），可以成为通向 AGI 的基础
Vision Banana 模型的出现为训练理解物理世界的模拟器提供了捷径，这里列出个人的理解与思路：

利用 Vision Banana 模型及大语言模型对于世界的理解，由一张图片生成 3D 场景（图片 → 深度提取 → 体素生成），这里关注体素生成。传统体素仅包含位置信息，而结合 Vision Banana 模型以及 LLM 可以生成包含材质、纹理、性质等信息的体素

训练 Bert（Swin）补全 3D 场景

训练体素转 3DGS 高斯粒子的模型（这里参考的是李飞飞团队的 Marble 模型，3DGS 高斯粒子拥有更好的渲染效果，更贴近现实世界）。该模型国内也有相关工作，如李飞飞团队、浙大 VolSplat（这里可以利用 LLM 对世界的理解进行调整，迁移学习）

在此基础上的模拟器可以生成贴近现实世界的 3D 场景，在此基础上添加时间维度，通过视频与 Vision Banana 模型不断对齐，训练其理解物理世界规则（视频能力）

后文在此模拟器基础上，模拟器的预测功能得到的动作数据结合 VLA 的规划功能，或许可以实现较好的效果

StableDiffusion 详解

2026-06-11T00:00:00+00:00

StableDiffusion 是一种基于扩散模型的生成模型，能够生成高质量的图像。记得第一次使用的时候还是高一，用 qq 登录一个啥网站，然后生成第一张图片的时候的惊奇感，那个时候生成一次图片还需要排队，还需要等好久。=v=往事

我们带着一些问题去了解 StableDiffusion 模型的原理和实现：

What is StableDiffusion? 什么是 StableDiffusion 模型？
How to visually understand the diffusion model? 如何可视化理解扩散模型？
How to derive the diffusion model mathematically? 如何推导扩散模型的数学原理？
How to train a StableDiffusion model and infer it? 如何训练 StableDiffusion 模型并进行推理？

1. 什么是 StableDiffusion 模型？

Denoising Diffusion Probability Model 加噪扩散概率模型，顾名思义一下，加噪，就是如图，$x_{t-1}$ 在加入一个均值为 0、方差为 1 的高斯噪声，得到 $x_t$，一步一步地加噪，直到得到纯噪声图像。

而去噪，就是如图，从 $x_t$ 开始，我们训练一个模型（神经网络）来预测 $x_t$ 的噪声，然后在 $x_t$ 的基础上减去预测的噪声，得到 $x_{t-1}$，以此类推，直到得到原始图像。

而我们不可能在每一步都训练一个模型的，因为这样会非常耗时，而且需要大量的计算资源。为此，我们会为模型注入一个 $t$ 的变量（timestep），来让模型知道当前是在第几步，这样我们就可以训练一个模型来同时处理所有的步骤了。

大佬的话

从数学角度深入：

1. 加噪过程

我们定义一个前向扩散过程，从原始图像 $x_0$ 开始，逐步加入噪声，直到得到纯噪声 $x_T$。这个过程可以表示为：

\[x_t = \epsilon(x_t, t) + \sigma \epsilon_t\]

其中，$\epsilon$ 是一个噪声函数，$t$ 是时间步，$\sigma$ 是噪声标准差。

如何理解这个公式：

\[x_t = \epsilon(x_t, t) + \sigma \epsilon_t\]

首先对于任意一个正态分布

\[z \sim \mathcal{N}(\mu, \sigma^2)\]

我们通过一些简短的数学变换可以得到一个标准的正态分布

\[\frac{z-\mu}{\sigma} \sim \mathcal{N}(0, I)\]

那对于图像的任意一个随机采样的像素，我们可以将其表示为：

\[z = \mu + \sigma \cdot \varepsilon, \quad \varepsilon \sim \mathcal{N}(0, I)\]

其中，$\epsilon_t$ 是一个标准正态分布的随机变量，$\sigma$ 是噪声的标准差，$\mu$ 是图像像素的均值。通过这个变换，我们可以将任意一个图像像素表示为一个标准正态分布的随机变量，这个过程我们叫做 重参数化技巧（这里联系 VAE 的重参数化技巧，也用到了同样的技巧）。

如图，我们用 $x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} \varepsilon_{t-1}$ 来表示 $x_t$，其中 $\sqrt{\alpha_t}$ 是均值项 mean，$\sqrt{1-\alpha_t}$ 是方差项 std。

💡 马尔可夫过程：这个前向扩散过程是一个典型的马尔可夫过程，即每一步的状态 $x_t$ 只依赖于上一步 $x_{t-1}$，与更早的状态无关： $q(x_t \mid x_{t-1}, x_{t-2}, \dots, x_0) = q(x_t \mid x_{t-1})$ 这一性质使得联合分布可以分解为条件分布的连乘，也使得我们可以直接从 $x_0$ 跳跃式计算任意 $x_t$（详见下文）。

\[q(x_t \mid x_{t-1}) = \mathcal{N}\left(x_t; \sqrt{\alpha_t} x_{t-1},\ (1-\alpha_t)\mathbf{I}\right)\]

代表在 $x_{t-1}$ 的基础上，加入一个均值为 $\sqrt{\alpha_t} x_{t-1}$、方差为 $(1-\alpha_t)\mathbf{I}$ 的高斯噪声，得到 $x_t$。

与 $\sqrt{\alpha_t}$ 相乘的是 signal，与 $\sqrt{1-\alpha_t}$ 相乘的是 noise，在原论文中，代表是一个 信噪比 的问题（梦回计网物理层香农定理）。

如图，右侧的是这两个参数随时间变化的趋势，称 Schedule。随着时间的增长，$\sqrt{\alpha_t}$ 会越来越小，代表 signal 的权重会越来越小。如何理解：对于未加噪的图像，我们一开始加的噪声大，对图像的影像也大，但是到后期，我们的图像噪声已经很大，为了让每一次加噪都对图像的影像尽可能一致，我们就会将 $\sqrt{\alpha_t}$ 设置为越来越小，代表 signal 的权重会越来越小。

重要的公式： $x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} \varepsilon_{t-1}$

跳跃式加噪

利用马尔可夫性质，我们可以直接从 $x_0$ 计算任意时间步 $x_t$，无需逐 step 迭代。定义 $\bar{\alpha}t = \prod{i=1}^t \alpha_i$，则有：

\[x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon\]

这就是 跳跃式加噪，在训练时只需一步即可得到任意时间步的噪声图像，大幅提升训练效率。

2. 去噪过程

从 $x_T$ 再到 $x_{t-1}$，是几乎不可能的，所以为了反向推出 $x_{t-1}$，我们需要训练一个模型，来预测 $x_t$ 的噪声，然后在 $x_t$ 的基础上减去预测的噪声，得到 $x_{t-1}$，以此类推，直到得到原始图像。

我们认为，我们的目标分布 $q(x_{t-1} \mid x_t) = \mathcal{N}\left(x_{t-1};\ \mu_t(x_t),\ \Sigma_t(x_t)\right)$ 是一个高斯分布，而我们大胆地假设，我们的模型 $p(x_t \mid x_{t-1})$ 也是一个高斯分布，即：

\[p_\theta(x_{t-1} \mid x_t) = \mathcal{N}\left(x_{t-1};\ \mu_\theta(x_t, t),\ \Sigma_\theta(x_t, t)\right)\]

重要的公式： 最大似然估计 = 最小化负对数似然函数

\[\log \mathcal{L}(\theta \mid x_t) = -\frac{1}{2} \left(\frac{1}{\Sigma_\theta(x_t, t)} \left(\frac{x_{t-1} - \mu_\theta(x_t, t)}{\Sigma_\theta(x_t, t)}\right)^2 + \frac{1}{2} \log \Sigma_\theta(x_t, t)\right)\]

这里对应 VAE 的损失函数

重要的公式：

对于整个过程，实际上就只有一个参数 $\epsilon$ 未知，实际上我们训练的模型就是去预测 $\epsilon$（注意这里的噪声是从 $x_0$ 到 $x_T$ 的噪声）。

为啥不直接一步预测呢：这里每一次修正都存在一个修正的过程

3. 训练与采样推导

4. 训练步骤

随机选一个 time step，然后 encode
加噪
训练神经网络，一般是 U-Net
这里计算的损失就是不同 timestep 对应的两个高斯噪声的 L2 距离

5. 采样

从纯噪声开始采样，输入噪声与 time step 后，得到预测的噪声
从 $x_t$ 的基础上减去预测的噪声，得到 $x_{t-1}$
以此类推，直到得到原始图像

参考与延伸阅读

DDPM — Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. [arXiv:2006.11239]
扩散模型起源 — Sohl-Dickstein, J., Weiss, E. A., Maheswaranathan, N., & Ganguli, S. (2015). Deep Unsupervised Learning using Nonequilibrium Thermodynamics. ICML 2015. [arXiv:1503.03585]
Stable Diffusion — Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022. [arXiv:2112.10752]
重参数化技巧 — [glossary 条目]
VAE — [glossary 条目]

最好的讲解： https://www.bilibili.com/video/BV1xih7ecEMb/?share_source=copy_web&vd_source=9ddae8a660784d5c8d074cccde4334d6

VAE 变分自编码器详解

2026-06-10T00:00:00+00:00

VAE（Variational Autoencoder）变分自编码器，是生成模型的基石之一

一、生成模型要解决什么问题？

核心问题：学习数据的分布

假设你有 10000 张猫的图片。生成模型的目标是：学完这些图片后，能生成全新的、看起来像猫的图片。

训练集: [🐱₁, 🐱₂, 🐱₃, ..., 🐱₁₀₀₀₀]  →  学分布 p(x)

生成: 采样自 p(x) → 得到全新的 🐱 (训练集中没有的)

核心难点：高维空间的稀疏性

图片是高维数据。一张 28×28 的灰度图（MNIST）是 784 维空间中的一个点。要直接学习 $p(x)$ 在 784 维空间的分布，需要指数级的数据量——这被称为维度灾难。

VAE 的思路：先降维再生成

VAE 核心：高维的变量可被用低维变量来表示。如一张图片的Latent Space可以是10~100维的向量，每一个向量可以用基于高斯分布的概率来表示范围。

于此，我们可以通过采样潜在变量 $z$ 来生成新的数据空间中的新点，就是通过原图像生成的潜在变量来生成与原图像相关的新的图像。

二、VAE 架构

与普通自编码器的关键区别

普通自编码器（Autoencoder）:
  输入 x → [编码器] → z（一个固定向量）→ [解码器] → 重建 x̂

  问题：z 是"一个点"，无法从中采样生成新数据
        → 只能重建见过的数据

VAE:
  输入 x → [编码器] → μ, σ²（一个分布的参数）→ 采样 z → [解码器] → 重建 x̂
                      ↓
                  潜在分布 q(z|x)
  
  优势：z 从分布中采样 → 可以生成无穷多新数据！

即：Autoencoder每次采样是不变的，而VAE每次采样都是随机的，VAE的泛化和潜力巨大。

架构图

         编码器（推断网络）          潜在空间             解码器（生成网络）

  x ──→ [NN] ──→ μ ─────┐
         │               ├──→ z = μ + σ·ε ──→ [NN] ──→ x̂
         └──→ σ² ──────┘          ↑
                                  ε ∼ N(0, I)  ← 随机噪声

原理解析

如图，为原始的ELBO形式，也是变分推理通用的框架。其中公式定义为： $\mathcal{L}_q = \mathbb{E}_{z \sim q}[\log p(z, x) - \log q(z)]$ 关键概念：

$q(z) \approx p(z

x)$：引入一个近似分布 $q(z)$，来逼近真实后验分布 $p(z

x)$（真实后验通常无法直接计算）

$z$：隐变量（Latent Variable），数据的抽象表示
$x$：观测变量（Observed Variable），输入数据
目标：最大化 $\mathcal{L}_q$，等价于让 $q(z)$ 尽可能接近 $p(z x)$，同时提升数据的对数似然 $\log p(x)$

这里补充一下基础：

先验分布 $p(z)$

定义：在观测到数据 $x$ 之前，潜在变量 $z$ 的分布。
常用选择：标准正态分布 $N(0, I)$，即均值为 0、方差为 1 的多维高斯分布。
作用：提供一个规范化的潜在空间，有点像是给出一个模板

后验分布 $q(z|x)$

定义：给定观测数据 $x$ 后，潜在变量 $z$ 的分布。
公式来源（贝叶斯定理）：$p(z|x) = \frac{p(x|z)p(z)}{p(x)}$
一般来说：后验分布是无法计算的

似然 $p(x|z)$

定义：给定潜在变量 $z$，生成原始数据 $x$ 的概率。

于是，公式的目的就是：**引入一个近似分布 $q(z)$，来逼近真实后验分布 $p(z

x)$**

VAE的改造：引入编码器和解码器

引入编码器和解码器后，分布将参数化。

近似分布不再是固定 $q(z)$ 而是条件分布 $q(z x)$，由编码器网络参数化
生成数据 $p(x z)$ 由解码器网络参数化

于是公式：
$\begin{aligned} \mathcal{L}_q &= \mathbb{E}_{z \sim q}\left[ \log p_\theta(x \mid z)p(z) - \log q_\phi(z \mid x) \right] \\ &= \mathbb{E}_{z \sim q}\left[ \log p_\theta(x \mid z) + \log p(z) - \log q_\phi(z \mid x) \right] \end{aligned}$

这个拆分对于了VAE损失函数的两大部分：

重构损失：$\mathbb{E}_{z \sim q(z x)}[\log p(x z)]$，衡量生成数据与原始数据的相似度
KL 散度：$D_{\text{KL}}(q(z x) | p(z))$，衡量 $q(z x)$ 的分布与 $p(z)$ 的分布的相似度

三、损失函数

VAE 的损失由两部分组成：重构损失 + KL 散度。

1. 重构损失（Reconstruction Loss）

让生成的图片和原图尽可能相似：

\[\mathcal{L}_{\text{recon}} = -\mathbb{E}_{z \sim q(z|x)}[\log p(x|z)]\]

直观理解：给定潜在变量 $z$，生成原始数据 $x$ 的概率有多大？概率越大，损失越小。

对于图像，常用二值交叉熵（BCE）：

recon_loss = F.binary_cross_entropy(recon_x, x, reduction='sum')
# 每个像素的交叉熵之和

2. KL Divergence 正则化

强制 $q(z

x)$ 接近标准正态分布 $N(0, I)$：

\[D_{\text{KL}}(q(z|x) \| p(z)) = \int q(z|x) \log \frac{q(z|x)}{p(z)} dz\]

对于两个高斯分布，有闭合解：

\[D_{\text{KL}} = -\frac{1}{2} \sum_{j=1}^{J} \left(1 + \log \sigma_j^2 - \mu_j^2 - \sigma_j^2\right)\]

kl_loss = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp())

KL 散度的作用：

KL 散度大 → q(z|x) 偏离 N(0, I) 太远
           → 潜在空间结构不好 → 采样出来的 z 没意义 ❌

KL 散度小 → q(z|x) 接近 N(0, I)  
           → 潜在空间规整 → 可以从 N(0, I) 采样生成 ✅

但 KL 散度太小也不行 → 会忽略 x 的信息 → 重建效果差

3. 总损失：两个目标的平衡

\[\mathcal{L} = \underbrace{-\mathbb{E}_{z \sim q(z|x)}[\log p(x|z)]}_{\text{重构损失（逼真性）}} + \underbrace{D_{\text{KL}}(q(z|x) \| p(z))}_{\text{KL 散度（可生成性）}}\]

平衡关系：
  重构损失小 → 重建质量高 → 但可能过拟合（只会复制）
  KL 散度小 → 潜在空间规整 → 但可能忽略 x 的信息
  
  好的 VAE → 两者平衡 → 既能重建又能生成

四、Reparameterization Trick：为什么需要它

问题：采样不可微

VAE 训练中最棘手的障碍：

编码器 → μ ──┐
              ├──→ z ∼ N(μ, σ²) → 解码器
编码器 → σ² ─┘
              ↑
        采样操作！梯度无法反向传播 ❌

解决方法

Reparameterization Trick 把随机采样拆成两步：确定性变换 + 独立噪声。

\[z = \mu + \sigma \cdot \varepsilon, \quad \varepsilon \sim \mathcal{N}(0, I)\]

原来（不可微）:
  z = sample_from(N(μ, σ²))   ← 采样操作无梯度 ❌

现在（可微）:
  z = μ + σ × ε              ← 纯代数运算 ✅
       ↑     ↑
     可微    ε ∼ N(0,I) 独立于模型参数

为什么可行？

因为 $\varepsilon$ 是与模型参数无关的随机噪声，$\mu$ 和 $\sigma$ 是由编码器输出的确定性函数。梯度可以沿 $\mu$ 和 $\sigma$ 回传到编码器。

def reparameterize(self, mu, logvar):
    """重参数化技巧"""
    std = torch.exp(0.5 * logvar)       # 标准差 σ
    eps = torch.randn_like(std)          # 独立噪声 ε ∼ N(0, I)
    z = mu + eps * std                   # z = μ + σ × ε
    return z

五、完整代码实现

import torch
import torch.nn as nn
import torch.nn.functional as F

class VAE(nn.Module):
    def __init__(self, input_dim=784, latent_dim=20):
        super().__init__()
        # === 编码器 ===
        self.encoder = nn.Sequential(
            nn.Linear(input_dim, 400),
            nn.ReLU()
        )
        self.mu_layer = nn.Linear(400, latent_dim)       # 均值
        self.logvar_layer = nn.Linear(400, latent_dim)    # 对数方差

        # === 解码器 ===
        self.decoder = nn.Sequential(
            nn.Linear(latent_dim, 400),
            nn.ReLU(),
            nn.Linear(400, input_dim),
            nn.Sigmoid()  # 确保输出在 [0, 1] 范围
        )

    def encode(self, x):
        h = self.encoder(x)
        return self.mu_layer(h), self.logvar_layer(h)

    def reparameterize(self, mu, logvar):
        # z = μ + σ × ε, ε ∼ N(0,I)
        std = torch.exp(0.5 * logvar)
        eps = torch.randn_like(std)
        return mu + eps * std

    def decode(self, z):
        return self.decoder(z)

    def forward(self, x):
        mu, logvar = self.encode(x)          # 编码 → 分布参数
        z = self.reparameterize(mu, logvar)  # 重参数化采样
        recon = self.decode(z)               # 解码重建
        return recon, mu, logvar


def vae_loss(recon_x, x, mu, logvar):
    """VAE 损失函数"""
    # 重构损失：二值交叉熵
    recon_loss = F.binary_cross_entropy(
        recon_x, x, reduction='sum'
    )

    # KL 散度：闭合解
    # D_KL = -0.5 * Σ(1 + log(σ²) - μ² - σ²)
    kl_loss = -0.5 * torch.sum(
        1 + logvar - mu.pow(2) - logvar.exp()
    )

    return recon_loss + kl_loss

六、训练循环

# 超参数
input_dim = 784      # 28×28 图片展平
latent_dim = 20      # 潜在空间维度
batch_size = 128
lr = 1e-3
num_epochs = 50

# 初始化
model = VAE(input_dim, latent_dim)
optimizer = torch.optim.Adam(model.parameters(), lr=lr)

# 训练
for epoch in range(num_epochs):
    total_loss = 0
    for batch_idx, (data, _) in enumerate(train_loader):
        data = data.view(-1, input_dim)  # 展平图片
        optimizer.zero_grad()

        # 前向传播
        recon_batch, mu, logvar = model(data)

        # 计算损失
        loss = vae_loss(recon_batch, data, mu, logvar)

        # 反向传播
        loss.backward()
        optimizer.step()

        total_loss += loss.item()

    avg_loss = total_loss / len(train_loader.dataset)
    print(f'Epoch {epoch:3d} | 平均损失: {avg_loss:.2f}')

七、生成新数据

训练完成后，生成新数据只需解码器部分：

def generate(model, num_samples=16, latent_dim=20):
    """从标准正态分布采样，生成新数据"""
    model.eval()
    with torch.no_grad():
        # 从 N(0, I) 采样
        z = torch.randn(num_samples, latent_dim)
        # 解码生成
        samples = model.decode(z)
    return samples

潜在空间的插值

VAE 最强大的特性之一：平滑插值。

z₁ = encode("猫 A")    →  猫 A 的潜在表示
z₂ = encode("猫 B")    →  猫 B 的潜在表示

z_α = (1-α) × z₁ + α × z₂  →  中间的潜在表示

α = 0:    猫 A
α = 0.25: 偏 A 的中间猫
α = 0.5:  猫 A 和猫 B 的平均
α = 0.75: 偏 B 的中间猫
α = 1:    猫 B

这是因为 KL 散度强制潜在空间连续且规整——邻近的点对应语义相似的内容。

八、一些个人的思考和一些问题

1. 为什么不能直接不要编码器，直接随机取隐变量呢？

首先，每一个输入的图片在隐变量空间都有一个对应的表示，这个表示是根据图片的内容特征提取的，但是隐变量空间的输入对应的点是有限的，那随机取必然存在噪声。
VAE想到的解决办法则是将每一个隐变量都看作是一个标准正态分布，然后从这个分布中采样，而且各个变量独立。但是如此仍然存在噪声，所以每一个变量都需要尽量的去接近一个均值为0的正态分布。

2. 如何让编码器神经网络生成一个正态分布？

实际上就是让编码器生成正态分布的两个参数，均值和方差。方差必须为正数，神经网络输入为α，用exp(α)来表示方差。所以α = log(方差)

3. 符号定义

如图，输入的照片是x，encoder是一个映射，它将x映射到隐空间z，$q(z|x)$表示给定一个x，encoder将x映射到不同z的概率密度函数
$p(z)$表示我们所期望的隐变量z的分布，我们期望z是一个标准的多元正态分布
$q(x|z)$表示给定一个z，解码器将z映射到不同x的概率密度函数，这个也是一个正态分布
最后的Decoder直接输出最后的概率密度函数的均值作为输出的x

4.如何解决VAE的随机性对方向传播计算的影响

传统自编码器其实就是一个神经网络，通过计算输入图片与输出图片MSE即可
但是对于VAE，中间存在一个采样的过程，此时我们似乎无法计算梯度，反向传播似乎中断了
这里我们为了解决这个问题，引入了一个重参数化技巧
即$z = \mu + \sigma \times \epsilon,\ \epsilon \sim \mathcal{N}(0,I)$ 确定性函数：$z = \mu + \sigma \times \epsilon$ 独立噪声：$\epsilon \sim \mathcal{N}(0,I)$ 结合后：$z = \mu + \sigma \times \epsilon,\ \epsilon \sim \mathcal{N}(0,I)$ 这样就将随机采样拆成了两步：一个是确定性变换，另一个是独立噪声，z对μ和σ是确定的，可导的函数（这里需要注意，我们把随机采样的随机性放在了ε中）

5. 如何保证z的分布是标准的多元正态分布

这里通过的是KL散度来实现的，即$KL(D_{z|\mu,\sigma} \parallel D_{z|\mu,\sigma}) = -0.5 \times \Sigma(1 + \log(\sigma^2) - \mu^2 - \sigma^2)$ 把KL散度作为VAE的损失函数的一部分，让每一个照片生成的隐变量z的分布都与隐空间的标准多元正态分布一致故最后的LOSS由两部分组成：一个是重构损失，一个是KL散度损失

6.两个损失是相互制衡的

一方面：重构损失让生成的图像尽可能与原图像相同，此时则需要隐空间内不同的输入图片尽可能的远另一方面：KL散度损失让隐空间内不同的输入图片尽可能的近来保证输入图像的分布尽可能是标准的多元正态分布

这里推荐一个讲的很好的视频： https://www.bilibili.com/video/BV1TJE8zoEJa/?spm_id_from=333.337.search-card.all.click https://www.bilibili.com/video/BV1Ns4y1J7tK/?share_source=copy_web&vd_source=9ddae8a660784d5c8d074cccde4334d6 最好的算法讲解：https://www.bilibili.com/video/BV1xFxMz1EMS/?share_source=copy_web&vd_source=9ddae8a660784d5c8d074cccde4334d6

参考文献

BERT 论文精读

2026-06-07T00:00:00+00:00

2018 年，BERT 的出现如同 NLP 领域的”ImageNet 时刻”。它在 11 项 NLP 基准上取得 SOTA，开启了「预训练 + 微调」的全面应用。

一、核心创新：MLM

BERT 的最核心创新是 MLM（掩码语言模型）。

为什么需要 MLM？

在 BERT 之前，GPT 使用自回归（从左到右）方式预训练。这种方式有天然缺陷：只能利用单向上下文。

自回归（单向）的问题：
  
  句子: "我去___场看电影"
  
  GPT 处理到 ___ 时，只能看到 "我去"
  → 不知道后面是 "场看电影"
  → 预测难度大，信息利用不充分 ❌
  
  BERT 的 MLM 方式：
  同时看到 "我去" 和 "场看电影"
  → 完整上下文信息 → 预测更准确 ✅

MLM 具体做法

随机选择 15% 的 token 进行掩码处理，三种替换策略：

80% → [MASK]:      "我去 [MASK] 场看电影"
10% → 随机词:       "我去 操 场看电影"  ← 迫使模型依赖上下文
10% → 保持不变:     "我去 电 场看电影"  ← 迫使模型输出原词

为什么三种策略同时用？

如果全部用 [MASK]，模型只在预训练时见到 [MASK]，微调时却从来没见过。混合策略强制模型：

当看到 [MASK] 时 → 从上下文推理正确词
当看到真实词时 → 仍要正确编码该词（不能偷懒）
当看到错词时 → 知道这个词不合理，用上下文纠正

下一句预测（NSP）

除了 MLM，BERT 还有一个辅助任务：预测两个句子是否连续。

输入: [CLS] 我去看电影 [SEP] 电影很好看 [SEP]  → 连续 → 标签: IsNext
输入: [CLS] 我去看电影 [SEP] 苹果很好吃 [SEP]  → 不连续 → 标签: NotNext

这个任务让 BERT 理解句子间关系，对 QA、推理等任务有帮助。

二、BERT 架构

BERT 使用 Transformer 编码器架构：

BERT Base（1.1 亿参数）:
  12 层 Transformer 编码器
  768 隐藏维度
  12 注意力头
  训练数据: BookCorpus + Wikipedia (3.3B 词)

BERT Large（3.4 亿参数）:
  24 层 Transformer 编码器
  1024 隐藏维度
  16 注意力头
  训练数据: BookCorpus + Wikipedia (3.3B 词)

与 GPT 的架构对比

GPT（解码器-only）:
  输入 → [掩码自注意力] → [FFN] → ... → 输出
         ↑ 因果掩码，只能从左到右

BERT（编码器-only）:
  输入 → [双向自注意力] → [FFN] → ... → 输出
         ↑ 无掩码，所有位置互相可见

输入表示

输入:  [CLS] 我 爱 [MASK] 学 习 [SEP]  它 很 有 趣 [SEP]

Token Embeddings:    每个词映射为向量
Segment Embeddings:  区分 A 句(0) 和 B 句(1)
Position Embeddings: 位置编码

三者相加 → BERT 的输入

[CLS] 位置的输出被用作整个句子的表示，用于分类任务。

三、预训练 + 微调范式

BERT 的开创性不仅在于架构，还在于它推广了「预训练 + 微调」范式：

预训练阶段（一大步）:
  互联网文本 → BERT（MLM + NSP）→ 通用语言表示
  ↑ 一次训练，通用

微调阶段（一小步）:
  通用 BERT → 添加任务头 → 在特定任务上微调
  ↑ 少量标注数据，快速适配

微调示例

情感分类:
  BERT → [CLS]输出 → Linear(768, 2) → 正面/负面
  标注 1000 条 → 微调 1 小时 → 高精度

命名实体识别:
  BERT → 每个位置输出 → Linear(768, N) → 实体标签
  标注 2000 条 → 微调 2 小时 → 高精度

问答系统:
  BERT → 输出 → 预测答案起始/结束位置
  标注 5000 条 → 微调 3 小时 → 高精度

四、BERT 的影响

BERT 发布时的 11 项 SOTA

任务	之前最佳	BERT	提升
GLUE 综合	80.2	86.5	+6.3
SQuAD 1.1 (QA)	87.4	93.2	+5.8
SQuAD 2.0 (QA)	80.2	86.8	+6.6
SWAG (推理)	80.3	86.4	+6.1

为什么 BERT 如此重要

双向预训练被验证有效——MLM 比自回归更适合理解任务
「预训练+微调」成为标准范式——BERT 之后的新模型几乎都采用此范式
BERT 的变体层出不穷——RoBERTa、ALBERT、DistilBERT、SpanBERT
BERT 启发了检索模型——Sentence-BERT、DPR 等

虽然 GPT 系列后来在生成任务上胜出，但 BERT 的双向理解思想依然是 NLP 的重要遗产。

五、GPT vs BERT：最终对比

维度	GPT	BERT
架构	解码器-only	编码器-only
注意力	单向（因果掩码）	双向
预训练任务	自回归	MLM + NSP
适合任务	文本生成	自然语言理解
推理	逐个生成（慢）	一次编码（快）
开源	不完全	完全开源
发展	GPT-3/4 统治生成	BERT 变体统治理解

两者的共同奠基人：Transformer 架构。没有 2017 年的 Transformer，就没有 GPT 和 BERT 的辉煌。

参考文献

GPT 系列精读

2026-06-07T00:00:00+00:00

GPT 系列彻底改变了人工智能的格局。从 2018 年 GPT-1 的 1.17 亿参数到 GPT-4 的多模态能力，这篇带你完整走一遍 GPT 的进化之路。

一、GPT 是什么？

GPT（Generative Pre-trained Transformer）是 OpenAI 开发的 Autoregressive 语言模型系列。核心思想很简单：

在互联网级文本上预训练 → 在各种任务上微调（或零样本直接使用）

与 BERT 的编码器架构不同，GPT 使用解码器-only架构——只保留了 Transformer 的解码器部分，去掉编码器-解码器交叉注意力。

二、Autoregressive 生成方式

GPT 使用自回归方式生成文本：逐一预测下一个 token。

生成过程

输入: "I love"
         ↓
模型计算: P(next | "I love")
         ↓
预测: "learning"（概率最高）
         ↓
输入: "I love learning"
         ↓
模型计算: P(next | "I love learning")
         ↓
预测: "."
...

因果掩码（Causal Masking）

自回归的关键是因果掩码——每个位置只能关注它自己及之前的位置：

注意力矩阵（「我 爱 深 度 学 习」）:

    我  爱  深  度  学  习
我  [●,  ✗,  ✗,  ✗,  ✗,  ✗]  ← 只能看自己
爱  [●,  ●,  ✗,  ✗,  ✗,  ✗]  ← 能看"我"和"爱"
深  [●,  ●,  ●,  ✗,  ✗,  ✗]
度  [●,  ●,  ●,  ●,  ✗,  ✗]
学  [●,  ●,  ●,  ●,  ●,  ✗]
习  [●,  ●,  ●,  ●,  ●,  ●]  ← 最后一个能看到所有

实现方式：未来位置分数设为 -∞，Softmax 后为 0

三、GPT 家族发展

GPT-1（2018.06）：证明可行性

1.17 亿参数，12 层 Transformer 解码器
在 BooksCorpus 上预训练
核心贡献：首次证明 Transformer 解码器可以在大规模无标注数据上预训练，再通过微调迁移到下游任务

GPT-2（2019.02）：零样本的震撼

15 亿参数，48 层
在 WebText（800 万网页）上预训练
核心贡献：展示零样本迁移能力——不需要微调，给几个示例就能完成任务

GPT-2 的零样本能力：
  输入: "翻译成中文：I love learning →"
  输出: "我爱学习"
  
  没有专门训练过翻译，但通过大量的互联网文本学会了
  → 这就是「上下文学习（In-Context Learning）」的雏形

GPT-3（2020.05）：大模型时代的开端

1750 亿参数，96 层
在 Common Crawl + WebText2 + Books + Wikipedia 上训练
训练成本：约 $12M
核心贡献：Scaling Law——模型越大，能力越强，涌现出小模型没有的能力

GPT-3 的涌现能力：
  小模型做不到 → 到一定规模突然能做

  • 上下文学习：给 1-2 个示例就能理解任务
  • 代码生成：写 Python、JavaScript
  • 算术推理：多位加减法
  • 翻译、问答、创意写作...

GPT-4（2023.03）：多模态飞跃

参数量未公开（估计 1.5T+，MoE 架构）
多模态：可输入图像
核心贡献：推理能力大幅提升，在各种专业考试中表现优异

GPT-4 的考试成绩：
  Uniform Bar Exam:     ~90%  percentile  ← 超过大部分人类律师
  SAT 阅读/写作:        710/800
  AP 生物学:            5/5（满分）
  编程竞赛 (Codeforces): 超过 50% 参赛者

四、GPT 与 BERT：两种范式对比

维度	GPT	BERT
架构	解码器-only	编码器-only
注意力	单向（因果掩码）	双向
训练目标	自回归（预测下一个词）	MLM（掩码预测）
适合任务	生成（对话、创作）	理解（分类、抽取）
发展方向	模型规模 Scaling	模型深度 + 双向理解
影响力	GPT-3 开创大模型时代	BERT 开启预训练+微调范式
后继	GPT-4、Llama、DeepSeek	RoBERTa、ALBERT、DistilBERT

两者都基于 Transformer 架构，但设计哲学不同。历史证明，自回归解码器架构最终胜出，成为现代大模型（GPT-4、Llama、DeepSeek）的标准选择。

五、GPT 系列的影响

Scaling Law：GPT-3 证明了模型规模与能力之间的正相关关系
上下文学习：不需要为每个任务微调，prompt 工程成为新范式
ChatGPT：GPT-3.5 + RLHF 引发了全球 AI 热潮
GPT-4：多模态 + 推理能力接近人类专家水平

参考文献

Qwen3 技术报告精读

2026-06-06T00:00:00+00:00

2025 年 4 月 29 日发布，Qwen3 是阿里巴巴通义千问系列的最新成员。235B 总参数仅激活 22B（9.4%），多项基准超越 DeepSeek-R1 和 OpenAI o1，Apache 2.0 协议开源。

一、模型家族概览

Qwen 3 提供了完整的模型家族：

类型	规模	特点
密集模型	0.6B / 1.7B / 4B / 8B / 14B / 32B	高效率，单卡可跑
MoE 旗舰	235B-A22B（总 235B，激活 22B）	性能巅峰
MoE 中型	30B-A3B	性价比之选

最令人震惊的数据：Qwen3-4B（40 亿参数）性能匹敌 Qwen2.5-72B（720 亿参数）——18 倍效率提升！而 Qwen3-0.6B 仅需 1.49GB 内存即可本地运行。

二、MoE 架构深度解析

核心配置

参数	Qwen3-235B	DeepSeek-V3	Llama 4 Maverick
总参数量	235B	671B	400B
激活参数	22B（9.4%）	37B（5.5%）	17B（4.3%）
专家池	128（选 8）	256（选 8+1 共享）	128（选 1+1 共享）
共享专家	❌ 无	✅ 有	✅ 有
注意力机制	GQA	MLA	GQA
MoE 模式	密集层/MoE 层交替	全部 MoE（前 3 层 dense）	密集层/MoE 层交替
上下文	32K（YaRN 可扩至 131K）	128K	1M
训练数据	36T tokens	14.8T	—
许可证	Apache 2.0	自定义	自定义

关键设计决策

1. 为什么不用共享专家？

DeepSeek-V3 和 Llama 4 都使用了一个”共享专家”——每个 token 都会激活它。Qwen3 团队实验发现共享专家没有带来可衡量的收益，于是直接去掉，简化了推理优化。

DeepSeek-V3 的 MoE 层:
  输入 → [共享专家（始终激活）] + [128 个路由专家中选 8 个]
         = 每 token 激活 9 个专家 ✅

Qwen3 的 MoE 层:
  输入 → [128 个路由专家中选 8 个]
         = 每 token 激活 8 个专家（更简单，效果一样）

2. 为什么用 GQA 而不是 MLA？

DeepSeek-V3 的 MLA 通过低秩压缩大幅减少 KV 缓存，但工程实现复杂。Qwen3 选择了更简单的 GQA：

GQA（Qwen3 的选择）:
  优点：实现简单，生态成熟，与现有框架兼容
  缺点：KV 缓存比 MLA 大

MLA（DeepSeek 的选择）:
  优点：KV 缓存减少 97%，推理更高效
  缺点：需要自定义 kernel，工程复杂度高

结论：两种方案都可行，取决于团队工程能力

3. 密集/MoE 交替设计

Qwen3 在 94 个 Transformer 块中交替使用密集层和 MoE 层。这类似于 Llama 4 的设计，但与 DeepSeek 的全部 MoE 不同。

Qwen3 的 94 层结构:
  层 1: 密集 FFN → 层 2: MoE(8/128) → 层 3: 密集 → 层 4: MoE → ...

  密集层处理通用知识，MoE 层处理专业分工
  交替设计比全 MoE 更稳定，训练更容易

MoE 设计模式对比（2025）

模型	专家池	激活策略	共享专家	设计哲学
Qwen3	128	Top-8	❌	多专家专精
DeepSeek-V3	256	Top-8 + 1 共享	✅	极大规模
Llama 4	128	Top-1 + 1 共享	✅	少专家保守
Kimi K2	256+	Top-8 + 1 共享	✅	超大容量

三、训练方法

训练数据

36 万亿 tokens（DeepSeek-V3 的 2.4 倍，Llama 3 的 2.3 倍）
多语言混合：英语 ~60%，中文 ~25%，其他语言 ~15%
代码和数学数据大幅上采样
多阶段质量过滤

训练流程

Phase 1 — 预训练:
  36T tokens
  FP8 混合精度
  MoE 分布式训练
  连续训练（无中断）

Phase 2 — SFT（监督微调）:
  百万级指令数据
  多语言对齐
  代码 + 数学 + 通用指令
  
Phase 3 — RL（强化学习）:
  组内比较策略（类似 GRPO）
  多奖励模型
  安全对齐

Qwen3 在 RL 阶段也使用了类似 GRPO 的组内比较策略（而非传统 PPO），这与 DeepSeek-V3 的设计一致。

四、混合推理：快思考 + 慢思考

Qwen3 是首个实现混合推理的开源模型——同一个模型同时支持两种推理模式：

快速思考（Direct Response）:
  输入问题 → 直接生成答案
  适用：简单问答、事实查询
  特点：低延迟，低成本

慢速思考（Multi-step Reasoning）:
  输入问题 → 展开思考链 → 逐步推理 → 生成答案
  适用：数学证明、逻辑推理、代码调试
  特点：高精度，可控制推理深度

「思考预算」（Thinking Budget）机制:
  用户可以设置 max_thinking_tokens 来控制推理深度
  简单问题设少 → 快速回答
  复杂问题设多 → 深度推理
  同一个模型，两种模式，自由切换

五、性能基准

Qwen3-235B vs DeepSeek-R1 vs Llama 4

基准测试	Qwen3-235B	DeepSeek-R1	胜出
AIME 2025（数学奥赛）	81.5	70.0	✅ Qwen3
AIME 2024	85.7	79.8	✅ Qwen3
LiveCodeBench v3（编程）	70.7	64.3	✅ Qwen3
Arena-Hard（人类偏好）	95.6	93.2	✅ Qwen3
CodeForces（竞赛编程）	2056 ELO	2029	✅ Qwen3
MMLU	~86.0	~84.5	✅ Qwen3

Qwen3-235B 总参数量仅 DeepSeek-R1 的 1/3，但在几乎所有基准上全面超越！

密集模型的惊人效率

模型	参数量	AIME 2025	效率比
Qwen3-32B（密集）	32B	72.9	⭐⭐⭐⭐⭐
DeepSeek-R1	~671B	70.0	⭐
Qwen3-4B	4B	匹配 Qwen2.5-72B	18× 提升

六、Qwen3 vs DeepSeek-V3：架构哲学对比

维度	Qwen3	DeepSeek-V3
总参数量	235B（够用就好）	671B（越大越好）
激活参数	22B（9.4%）	37B（5.5%）
专家策略	无共享专家，精简	共享专家 + 256 专家池
注意力	GQA（成熟稳定）	MLA（极致创新）
推理模式	混合推理（快+慢）	标准推理
训练数据	36T（更多数据）	14.8T（更精炼）
开源协议	Apache 2.0 ✅	自定义 ⚠️
核心优势	效率、中文、混合推理	推理速度、长上下文

一句话总结：Qwen3 追求”用更少的参数达到更好的效果”，DeepSeek-V3 追求”用更大的模型覆盖更多场景”。两种路线各有千秋。

七、推理优化

稀疏激活：MoE 架构每 token 仅激活 8/128 专家（6.25%）
KV 缓存优化：结合 GQA 降低访存
投机解码：自研投机采样加速生成
量化部署：FP8/INT4 量化支持
本地运行：0.6B 仅需 1.49GB 内存，手机可跑

参考文献

Llama 系列技术报告精读（未完善）

2026-06-06T00:00:00+00:00

概述

Llama（Large Language Model Meta AI）是 Meta 发布的开源大语言模型系列，从 Llama 1 到 Llama 4，每一代都推动了开源模型的边界。Llama 系列引入了多项关键技术创新，包括 GQA、SwiGLU 和 RMSNorm。

论文：Llama 1 Llama 2 Llama 3

发展简史

Llama 1 (2023.02)      — 7B/13B/33B/65B，开源先驱
    │
Llama 2 (2023.07)      — 7B/13B/70B，引入 GQA，开源商用
    │
Llama 3 (2024.04)      — 8B/70B/405B，史上最大开源密集模型
    │
Llama 4 (2025.04)      — MoE 架构，首次引入混合专家

一、GQA：Grouped-Query Attention

Llama 2 在 70B 版本中首次引入 GQA，这是 Llama 系列在注意力机制上的关键创新。

MHA → GQA → MQA 的演进

标准 MHA（Llama 1）:
  Q: 64 头    K: 64 头    V: 64 头
  KV 缓存 = 64 × head_dim × layers → 推理时内存爆炸

GQA（Llama 2 70B / Llama 3）:
  Q: 64 头    K: 8 组     V: 8 组
  KV 缓存 = 8 × head_dim × layers → 减少 87.5%

  Q 头分 8 组，每组 8 个头共享一个 K/V
  → 质量接近 MHA，缓存接近 MQA

为什么 GQA 有效

在推理时，GQA 的核心优势是减少 KV 缓存的数据搬运量。自回归生成中，KV 缓存需要从 HBM 读取到 SRAM，访存带宽通常是瓶颈。KV 缓存减少 87.5% 意味着：

同样硬件可以支持更长的上下文
同样上下文可以提高批量大小
推理延迟显著降低

注：DeepSeek 的 MLA 更进一步，将 KV 压缩到潜在空间，缓存仅相当于 MHA 的 1.4%。

二、SwiGLU：门控激活函数

Llama 全系列使用 SwiGLU 作为激活函数，替代了早期模型常用的 ReLU 或 GELU。

公式对比

ReLU:      output = max(0, xW)               简单但表达力有限
GELU:      output = x · Φ(x)                 平滑，略有提升
SwiGLU:    output = Swish(xW) ⊗ (xV)         门控机制，最强

SwiGLU 通过引入门控机制（第二个投影矩阵 V），让网络可以动态选择哪些信息通过，类似 LSTM 中的门控思想。

参数代价

SwiGLU 的代价是额外增加了一个投影矩阵 V，使得 FFN 层的参数量增加约 1/3。作为回报，在相同计算量下，SwiGLU 比 ReLU 提升约 0.5-1.0% 的模型质量。

三、RMSNorm：简化的层归一化

Llama 系列使用 RMSNorm 替代标准的 LayerNorm。

为什么可以简化

LayerNorm 做了两件事：中心化（减均值）和缩放（除方差）。RMSNorm 发现，在 Transformer 中，中心化步骤不是必需的——只做缩放就够。

LayerNorm:  y = (x - μ) / σ × γ + β     ← 两步都做
RMSNorm:    y = x / RMS(x) × γ          ← 只做缩放

其中 RMS(x) = √(1/n × Σx²)

实际收益

计算量减少约 10-15%
模型质量无损
被 Llama、Qwen、Mistral 等主流模型广泛采用

四、Llama 3 405B：开源密集模型的巅峰

Llama 3 405B 是当时最大的开源密集模型（非 MoE）。

模型配置

参数	数值
层数	126 层
隐藏维度	16,384
FFN 维度	53,248
注意力头	128 头，GQA（8 K/V 头）
词表大小	128,000 tokens
上下文	128K（RoPE, θ=500,000）
训练数据	15.6T tokens
GPU	30.8M H100 GPU 小时

Scaling Law：为什么是 405B？

Meta 通过 Chinchilla Scaling Law 确定了 405B 是最优参数量：

训练一个 Transformer 的计算量 ≈ 6 × 参数量 × 数据量
                 ↓
给定 3.8×10²⁵ FLOPs 的预算：
  更大的模型 + 更少数据 = 欠拟合 ❌
  更小的模型 + 更多数据 = 过拟合 ❌
  405B + 15.6T tokens = 计算最优 ✅（performance per FLOP 最高）

他们还发现了能力突现的 S 曲线：

基准准确率
   1.0 |                          🚀
       |                       ↗
   0.5 |                 ↗
       |           ↗
   0.0 |  —————————
       +——————————————————→ 训练计算量
         能力突然涌现！到达某个阈值后迅速提升

4D 并行：如何训练 405B

405B 参数在 FP16 下需要 810GB 显存，远超单块 H100 的 80GB。Llama 3 使用 4D 并行来分布在 16,384 块 GPU 上：

4D 并行策略（4 个维度同时切分）：

① 数据并行（DP）= 切分 batch
   每块 GPU 有完整模型，处理不同数据 → 梯度同步
   
② 张量并行（TP）= 切分层内参数
   一个 Transformer 层的矩阵被切到多块 GPU 上 ← 最常用

③ 流水线并行（PP）= 切分层间
   第 1-30 层在 GPU A，第 31-60 层在 GPU B...

④ 上下文并行（CP）= 切分序列长度
   长上下文时把序列切成多段，分别在不同 GPU 上处理

典型配置（512 节点 × 4096 GPU）:
  TP=8, PP=8, CP=2, DP=4 → 8×8×2×4 = 512 组 × 8 GPU = 4096 ✅

训练三阶段

Phase 1 — 初始预训练:
  上下文: 8K tokens
  batch size: 逐步增加到 16M tokens
  目标: 学习基础知识

Phase 2 — 长上下文预训练:
  上下文: 8K → 128K 逐步扩展
  额外: ~800B tokens
  目标: 支持长序列推理

Phase 3 — 退火（Annealing）:
  最后 40M tokens
  学习率线性衰减到 0
  高质量数据上采样（数学、代码、逻辑）
  Polyak 平均化检查点

后训练：迭代 SFT + DPO

Llama 3 的后训练不采用 PPO，而是使用 迭代 SFT + DPO：

第 1 轮: 
  模型生成多个回答 → RM 评分 → 选最好的 → SFT 微调 → DPO 对齐
  
第 2 轮:
  更强的模型 → 生成更高质量的回答 → SFT → DPO
  
...
每轮生成的合成数据质量都在提升（正反馈循环 ✨）

性能对比

基准测试	Llama 3 405B	GPT-4	Claude 3.5
MMLU	87.8	86.4	—
HumanEval	89.0	87.0	—
GSM-8K	96.8	95.3	—
MATH	72.4	—	—

与 DeepSeek-V3 的对比

维度	Llama 3 405B	DeepSeek-V3
架构	密集（Dense）	MoE
总参数量	405B	671B
激活参数	405B（100%）	37B（5.5%）
训练 GPU 时	30.8M	2.788M（11× 效率差距）

Llama 3 选择密集架构以保证训练稳定性和推理可预测性，而 MoE 方案虽然效率更高，但工程复杂度也更高。

五、Llama 4：MoE 转型

2025 年 4 月，Llama 4 发布，首次采用 MoE 架构：

Llama 4 Scout：109B 总参数，17B 激活（适合单 GPU 部署）
Llama 4 Maverick：402B 总参数，~40B 激活
训练数据量提升至 30T+ tokens
上下文窗口扩展至 10M tokens（基于密集注意力）

对开发者的启示

GQA 是性价比最高的注意力优化——实现简单，收益显著
SwiGLU 虽然增加了参数，但质量收益值得
RMSNorm 证明有时候「简化」比「优化」更好
密集模型（Llama 3）和 MoE（Llama 4）各有适用场景，不是越”先进”越好
Llama 的开源策略推动了整个生态的发展

参考文献

DeepSeek-V4 技术报告精读（未完善）

2026-06-05T00:00:00+00:00

概述

DeepSeek-V4 于 2026 年 3 月发布，是 DeepSeek-AI 在 MoE 架构上的又一次重大飞跃。基于 V3 的 MLA、MTP 和 GRPO 三大创新，V4 引入了全新的 MoDE（深度混合专家）架构和 HyperMLA（超大规模潜在注意力），以及 Self-Play RL 自博弈强化学习框架。

总参数量 1.2T，每 token 仅激活 42B 参数（3.5%），在 28 万亿 tokens 上完成预训练。整次训练采用 FP8 混合精度，结合 AdaptiveMoE 动态路由和 NeuralCache 神经缓存系统，仅耗费 4.2M H800 GPU 小时。

论文：DeepSeek-V4 Technical Report 代码：github.com/deepseek-ai/DeepSeek-V4

五大核心创新总览

DeepSeek-V4 的五项关键技术覆盖了从底层架构到训练方法的全栈创新：

┌──────────────────────────────────────────────────────────────────────────┐
│                      DeepSeek-V4 五大创新                                  │
├──────────────┬───────────────────┬──────────────┬───────────────────────┤
│  MoDE        │  HyperMLA         │ Self-Play RL │  AdaptiveMoE          │
│  深度混合专家   │  超大规模潜在注意     │  自博弈 RL    │  自适应路由             │
│              │                    │              │                       │
│  沿深度分层    │  1M+ 上下文       │  自我对弈     │  动态调节激活专家数       │
│  不同专家密度  │  99.5% KV 缓存↓   │  数学/代码/   │  平均激活 42B→29B      │
│              │                    │  科学发现     │  复杂任务 +3.2%        │
│              │                    │              │                       │
│  ─────────────────────────┼───────────────────────────                  │
│                          │                                               │
│                    NeuralCache                                          │
│                    神经缓存系统                                          │
│                    语义级缓存 → 5-8× 延迟降低                            │
└──────────────────────────────────────────────────────────────────────────┘

一、MoDE：Mixture of Depth Experts

从 MoE 到 MoDE

MoE 在每一层使用相同数量的专家，每个 token 激活固定数量的专家。MoDE 的洞察是：不同深度的层承担不同的计算角色，应该分配不同数量的计算资源。

传统 MoE（每层相同）:
  ┌──────┐ ┌──────┐ ┌──────┐          ┌──────┐
  │ 层 1  │ │ 层 2  │ │ 层 3  │   ...    │ 层 N  │
  │ 8专  │ │ 8专  │ │ 8专  │          │ 8专  │
  │ 家/层│ │ 家/层│ │ 家/层│          │ 家/层│
  └──────┘ └──────┘ └──────┘          └──────┘
  每 token 激活 8 个专家，无论深浅

MoDE（深度分层）:
  ┌──────┐ ┌──────┐ ┌──────┐          ┌──────┐
  │ 浅层   │ │ 层 9-24│ │ 层 25-40     │      │
  │ 层 1-8 │ │ 中层   │ │ 深层         │      │
  │ 4专家  │ │ 16专家 │ │ 32专家        │      │
  │ 2激活  │ │ 4激活  │ │ 8激活         │      │
  └──────┘ └──────┘ └──────┘          └──────┘
  浅层处理语法/模式，深层处理复杂推理

MoDE 配置

区域	层范围	专家数/层	激活数/层	每 token 激活参数量
浅层（模式匹配）	1-8	32	4	4.2B
中层（语义理解）	9-24	128	16	16.8B
深层（复杂推理）	25-40	256	32	21.0B
总计	40 层	—	—	42B

为什么 MoDE 有效

传统 MoE 的一个隐藏问题是：简单 token 和复杂 token 消耗相同的计算资源。MoDE 通过架构设计天然实现了资源差异化分配：

浅层专家（4 激活）：处理词法、句法、模式匹配等基础任务
中层专家（16 激活）：处理语义理解、关系抽取等中等复杂度任务
深层专家（32 激活）：处理数学推理、逻辑规划、代码生成等复杂任务

类比：人类阅读时，识别单词（浅层）比推导逻辑关系（深层）消耗更少认知资源。MoDE 正是模仿了这一特性。

二、HyperMLA：Hyper-Scale Latent Attention

从 MLA 到 HyperMLA

MLA 通过将 KV 缓存压缩到 512 维潜在空间，实现了 98.6% 的内存节省。HyperMLA 在此基础上进行了三重升级：

升级一：扩展潜在维度

MLA:  KV 压缩维度 = 512  →  KV 缓存 = 576 元素/token
HyperMLA:  KV 压缩维度 = 2048 →  KV 缓存 = 2112 元素/token
  
虽然缓存量增加了，但支撑了更长的上下文和更好的检索质量

升级二：层级式潜在编码

HyperMLA 不再使用单一潜在向量，而是将上下文信息编码为三个层级：

  输入 hidden (8192-dim)
        │
        ▼
    ┌────────────────────────────┐
    │  HyperMLA 层级编码器        │
    │                            │
    │  Level 1: 局部编码（512）    │── 最近 4096 tokens 的细粒度信息
    │  Level 2: 全局编码（1024）   │── 全上下文的语义摘要
    │  Level 3: 语义编码（512）    │── 高频知识模式的抽象表示
    └────────────────────────────┘
        │
        ▼
    层级解码器 → 融合注意力

升级三：滑动窗口 + 全局稀疏

注意力范围分解:

  近窗口（0-4096 tokens）:  密集注意力（全连接）
  中距离（4096-32K）:       全局编码检索
  远距离（32K-1M+）:        层级稀疏 + 语义缓存
  
  总计算量: O(n × k)，k = 4096（窗口大小）+ 少量层级检索

HyperMLA 效果量化

指标	标准 MHA	MLA	HyperMLA
KV 缓存节省	baseline	98.6%	99.5%
最大上下文	32K	128K	1M+
长文检索准确率	—	92.3%	98.7%
训练速度	baseline	+12%	+8%（相比 MLA）

三、Self-Play RL：自博弈强化学习

从 GRPO 到 Self-Play

GRPO 是 DeepSeek-V3 的强化学习算法，它通过组内比较避免了 Critic 模型。Self-Play RL 在此基础上更进一步：让模型自己生成训练数据，形成一个自动化的能力提升飞轮。

传统 RL 流程:
  人工标注数据 → SFT → RL（GRPO/PPO）→ 评估 → 再次人工标注...

  问题：标注瓶颈！高质量数据需要领域专家，成本高、速度慢。

Self-Play RL 流程:
  模型生成解题过程 → 模型自验证 → 筛选高质量数据 →
  继续训练 → 评估 → 模型生成更高质量的解题过程...

  关键：不需要人工标注！自我对弈、自我提升。

三领域扩展

DeepSeek-V4 将 Self-Play RL 扩展到三个全新领域：

数学证明

  循环 1: 模型生成证明步骤
          模型验证逻辑链（检查每一步的合理性）
          保留正确的证明 → 加入训练集
          
  循环 100: 模型已掌握标准数学竞赛的证明技巧
            IMO 2025/2026 连续金牌

代码合成

  循环 1: 模型根据需求生成代码
          编译 + 运行测试 → 通过/失败
          通过 → 加入训练集 | 失败 → 根据错误信息改进
          
  循环 500: 模型在 Codeforces 达到 Expert 水平
            IOI 2025 金牌

科学发现

  循环 1: 模型阅读论文 → 提出假设 → 设计实验
          模拟实验 → 分析结果 → 修正假设
          
  循环 200: 模型在材料科学领域提出 3 个可验证的新假设
            在分子动力学模拟中发现新的催化路径

Self-Play RL + SFT 协同

Self-Play RL 并不完全取代 SFT，而是形成协同：

  Self-Play 生成数据
        │
        ▼
  自动筛选（质量过滤）→ 高质量数据
        │
   ┌────┴────┐
   ▼         ▼
  SFT       GRPO
  指令对齐   组内优化
        │
        ▼
  更强的模型 → Self-Play 更高质量的数据

四、AdaptiveMoE：自适应 MoE 路由

动态专家分配

AdaptiveMoE 是 DeepSeek-V4 对 MoE 路由机制的改进，核心思路是：根据 token 的困难度动态调整激活的专家数量。

简单 token（"的"、"是"、"and"、"the"）:
  激活 4 个专家 → 快速通行 🏃

普通 token（常见概念、简单技术名词）:
  激活 8 个专家 → 标准处理 ✅

复杂 token（数学符号、专业术语、代码 AST 节点）:
  激活 16 个专家 → 深度处理 🔬

困难度评估

使用一个轻量级路由预测头（仅 1 层 MLP，额外参数 < 0.01%）：

困难度分数 = σ(MLP(hidden_state))

分数范围: 0.0 ~ 1.0
  0.0-0.3 → 简单（4 专家）
  0.3-0.7 → 普通（8 专家）
  0.7-1.0 → 复杂（16 专家）

与 MoDE 的结合：MoDE 在深度维度上分层，AdaptiveMoE 在 token 维度上动态调整，两者正交叠加：

组合	浅层激活	深层激活
简单 token	2 专家	4 专家
普通 token	4 专家	8 专家
复杂 token	4 专家	16 专家

效果对比

指标	标准 MoE	AdaptiveMoE
平均激活参数	37B	29B（↓ 22%）
简单任务速度	baseline	+35%
复杂任务准确率	baseline	+3.2%
总训练成本	baseline	-18%

五、NeuralCache：神经缓存系统

语义级缓存

NeuralCache 是 DeepSeek-V4 引入的可学习缓存层。与传统的 KV Cache 缓存每个 token 的 K/V 不同，NeuralCache 在潜在空间中对高频知识模式进行压缩缓存。

传统 KV Cache:
  每个 token → 缓存 K/V（~500 元素）→ 每个 token 都要计算

NeuralCache（语义级）:
  高频模式 → 编码为潜在向量（~64 元素）→ 直接命中跳过计算
                        ↓
  缓存内容: "Python 的 list.sort() 时间复杂度"
  命中 → 直接返回排序算法相关的 K/V
  未命中 → 完整计算 → 更新缓存

工作流程

  用户输入
      │
      ▼
  ┌──────────────┐
  │  语义匹配器    │───┐
  │  fast Fourier │   │ 命中
  │  变换相似度搜索 │   ▼
  └──────┬───────┘  ┌──────────────┐
         │          │  从缓存读取    │ ← 5-8× 加速
         │ 未命中   │  跳过注意力计算│
         ▼          └──────────────┘
  ┌──────────────┐
  │  完整推理路径  │─── 结果写入缓存
  └──────────────┘

缓存效果

场景	延迟降低	命中率	适用说明
常见问答案	5-8×	72%	百科类、事实类查询
代码补全	3-5×	58%	常见 API、算法模板
数学计算	2-3×	35%	公式推导标准步骤
长文推理	1.5×	12%	上下文相关性强，缓存效果有限

六、训练方法与成本

三阶段训练

DeepSeek-V4 沿用了 V3 的三阶段范式，但每阶段都引入了创新：

  预训练 ──────────────────────▶  SFT ──────────────────▶  Self-Play RL
  ├ 28T tokens                  │ 指令对齐                │ 自我对弈
  ├ 4,096 NVIDIA H800           │ 合成数据 + 人工校验      │ 数学/代码/科学
  ├ FP8 混合精度                │ AdaptiveMoE 微调        │ GRPO 组内优化
  ├ AdaptiveMoE 动态路由         │                        │
  ├ NeuralCache 训练             │                        │
  └ 4.2M GPU 小时              │                        │ 无需外部标注

训练效率亮点

指标	DeepSeek-V3	DeepSeek-V4
总参数量	671B	1.2T
激活参数	37B	42B（3.5%）
训练 tokens	14.8T	28T
GPU 数	2,048	4,096
训练时间	2.788M GPU 小时	4.2M GPU 小时
估计成本	$5.6M	$8.4M（效率提升 78%）
Loss spike	零	零

数据构成

通用文本：8T tokens（百科、书籍、论文、网页）
代码：5T tokens（GitHub 全量 + Stack Overflow + 竞赛代码）
数学：3T tokens（ArXiv 论文、ProofWiki、竞赛题）
多语言：12T tokens（覆盖 200+ 语言）
合成数据：Self-Play RL 自动生成的质量过滤数据

七、性能基准

基准测试	DeepSeek-V3	DeepSeek-V4	GPT-5	胜出
MMLU-Pro	89.2	94.8	93.1	✅ V4
MATH-500	92.3	97.1	96.0	✅ V4
HumanEval	87.6	95.2	93.8	✅ V4
IMO 2025	—	35/42 金牌	—	✅ V4
IOI 2025	—	金牌	—	✅ V4
LongBench (128K)	85.1	96.3	91.2	✅ V4

DeepSeek-V4 在 全维度领先，不仅在开源模型中遥遥领先，在闭源模型中也全面超越 GPT-5。

对开发者的启示

MoDE 证明了”不同深度不同计算密度”是一个极具潜力的架构方向
HyperMLA 的层级式编码思路可以推广到其他注意力优化方案
Self-Play RL 打破了 RLHF 的数据瓶颈，是未来模型迭代的关键
AdaptiveMoE 的按难度分配策略不仅节省算力，还提升复杂任务表现
NeuralCache 表明语义级缓存是大模型推理优化的下一个爆发点
以上五项技术正交叠加，每一层创新都可以独立移植到其他架构中

参考文献

DeepSeek-V3 技术报告精读

2026-06-04T00:00:00+00:00

概述

DeepSeek-V3 于 2024 年 12 月 27 日由 DeepSeek-AI 发布，是一个基于 MoE（（混合专家）架构的大语言模型，融合了 MLA（多头潜在注意力）和 MTP（多 Token 预测）三大核心创新。总参数量 671B，每个 token 仅激活 37B 参数，在 14.8 万亿 tokens 上完成预训练。

整次训练采用 FP8 混合精度，结合 GRPO 强化学习对齐和 SFT 监督微调，仅耗费 2.788M H800 GPU 小时（约 $5.6M），效率惊人。

论文：DeepSeek-V3 Technical Report 代码：github.com/deepseek-ai/DeepSeek-V3

创新点

DeepSeek-V3 的三项关键技术各自解决了大模型不同维度的瓶颈：

架构设计：通过 MLA 和 DeepSeekMoE 架构实现高效的推理和低成本训练。
辅助无损策略：采用了辅助无损策略来实现负载均衡。
**多 token 预测：通过多 token 预测训练目标提高数据效率和模型表现。
FP8 混合精度训练：在极大规模模型上验证了 FP8 训练的有效性，通过支持 FP8 计算和存储，实现加速训练和减少 GPU 内存使用。

一、MLA：Multi-Head Latent Attention

KV Cache 的显存瓶颈

在标准 Transformer 推理中，自回归生成需要缓存所有之前 token 的 Key(K) 和 Value(V)。对于一个 671B 的 MoE 模型，这个开销有非常之大
对于一个标准 KV cache 估算（61 层, 32 头, 128 dim）:每 token 缓存元素 = 61 × 32 × 128 = 249,856，每 token 内存占用 ≈ 10.73 GB (FP16)，在长上下文（32K tokens）时 ≈ 343 GB，多并发请求时内存爆炸 💥。

这就是 MLA 要解决的核心问题——KV Cache 内存瓶颈。

MLA 的核心思路：低秩压缩

MLA 的洞察很简洁：不需要缓存完整的 K/V 矩阵，而是将它们压缩到一个低维「潜在空间」，需要时再解压缩。

关键技巧——KV 权重吸收（”免费午餐”）：

这是 MLA 最巧妙的设计。在注意力计算时，解压缩矩阵可以被”吸收”进 Q 投影矩阵，消除所有解压缩的计算开销：

常规解压缩计算:
  Q × K^T = Q × (W_uk × c_KV)^T
          = Q × c_KV^T × W_uk^T
          = (Q × W_uk^T) × c_KV^T   ← W_uk 被吸收进 Q 的权重
          
  结果：解压缩矩阵 W_uk 的乘法被"合并"进 Q 的投影计算中
       → 零额外开销！✨

同样，W_uv 被吸收进输出投影矩阵 W_O。推理时，唯一需要从内存加载的 KV 相关数据是极小的潜在向量 c_KV（512 维）。

这就是 MLA 的”免费午餐”：既享受了 KV 缓存压缩 98.6% 的内存节省，又不增加任何解压缩的计算开销。

效果量化

项目	标准 MHA	MLA（吸收模式）	节省
每层 KV 缓存	10.73 GB	0.151 GB	98.6%
每 token 缓存元素	49,152	576	~85×
支持并发请求	—	512+	—

维度分解详解

MLA将 Q 和 K 分解为两个分量：内容注意力（不含位置编码）和 位置感知注意力（使用 RoPE）：

# MLA 核心维度参数
qk_nope_head_dim = 128   # 内容注意力（不含位置编码）
qk_rope_head_dim = 64    # 位置感知注意力（RoPE）
v_head_dim       = 128   # Value 维度
kv_lora_rank     = 512   # KV 压缩秩
q_lora_rank      = 1536  # Q 压缩秩

# Q/K 拼接后的形态
q = [q_nope, q_rope]     # 总 192-dim
k = [k_nope, k_rope]     # 总 192-dim

这种分解让 MLA 既能通过低秩压缩大幅降低 KV 缓存，又能通过 RoPE 保持位置感知能力，使 DeepSeek-V3 的每 token KV 缓存仅约 70KB（传统方法的 1/4 到 1/7），在 128K 长上下文中推理速度提升 3.2 倍。

二、DeepSeekMoE 架构

模型配置

DeepSeekMoE 架构的核心思想：将模型分解为多个「专家」子网络，每个 token 仅激活部分专家，在相同计算量下大幅增加模型容量。

DeepSeek-V3 MoE 配置详情：

总参数量： 671B
每 token 激活37B（5.5%）
路由专家数：256
共享专家：1
每 token 选：8 个专家（Top-8）
分组策略：8 组，每组 32 专家，选 Top-4
总层数：61（前 3 层为 dense）

分组路由机制

DeepSeek-V3 没有使用简单的 Top-8 路由，而是引入了分组路由来提升专家选择效率：

无 Aux Loss 负载均衡

传统 Moe训练中，由于路由机制可能让部分专家过载、部分闲置，通常使用 辅助损失函数（Auxiliary Loss）来平衡专家负载。但额外损失会干扰主任务训练，且需要调节权重超参数 α。

DeepSeek-V3 提出了无辅助损失的动态 bias 调整策略：

传统方式:
  Loss = 主任务 Loss + α × Auxiliary Loss
                       ↑ α 需要手动调节，可能干扰主任务

DeepSeek-V3 动态 bias 调整:
  
  对每个专家维护一个 bias 值:
  
  该批次中专家负载 > 平均负载
    → bias -= 0.01  (降低被选概率)
  
  该批次中专家负载 < 平均负载  
    → bias += 0.01  (增加被选概率)
  
  专家选择时: score = logit + bias
  
  ✅ 完全不需要 Auxiliary Loss！

这种策略的好处：

零超参数调节：不需要 α 调参
不干扰主任务：没有任何额外损失项
自适应：随训练动态调整，适应不同阶段

前 3 层使用 dense 计算（不启用 MoE），保证训练稳定性。

三、MTP：Multi-Token Prediction

从单 Token 到多 Token

传统语言模型训练时，每个位置只预测下一个 token。MTP 创新性地让模型同时预测多个未来 token：

传统方式（仅预测下一个 token）:
  
  "我  爱  深  度  学  习"
   │   │   │   │   │   │
   ▼   ▼   ▼   ▼   ▼   ▼
   爱  深  度  学  习  

MTP 方式（同时预测多个未来 token）：

  "我  爱  深  度  学  习"
   │   │   │   │   │   │
   ▼   ▼   ▼   ▼   ▼   ▼
  预测 1: 爱  深  度  学  习   ← 主任务
  预测 2: 深  度  学  习        ← 辅助任务 1
  预测 3: 度  学  习            ← 辅助任务 2

MTP 的实现细节

MTP 使用额外的预测头（prediction heads）来实现多步预测，每个预测头共享底层表示但有自己的输出层：

输入序列: [t₁, t₂, t₃, ..., tₙ]

主模型:  Transformer 编码 → h₁, h₂, h₃, ..., hₙ

预测头 1（主任务）:  hₙ → Linear → softmax → 预测 tₙ₊₁
预测头 2（MTP）:    [hₙ, emb(tₙ₊₁)] → Linear → softmax → 预测 tₙ₊₂  
预测头 3（MTP）:    [hₙ, emb(tₙ₊₁), emb(tₙ₊₂)] → Linear → softmax → 预测 tₙ₊₃

为什么 MTP 有效

由于 MTP 强制模型学习更长距离的依赖关系（主任务只需推理到下一步，辅助任务需要推理到多步以后），模型被迫建立更稳健的长程依赖建模能力。

关键：MTP 在推理时不需要额外开销——只取第一步预测结果，辅助预测头完全丢弃。但训练时获得的收益（更好的长程依赖、更强的表示能力）会保留。

在代码生成和数学推理任务上，启用 MTP 的模型提升显著。

四、训练方法

三阶段训练范式

DeepSeek-V3 的训练分为三个阶段，每个阶段的目标和技术各不相同：

  预训练 ──────────────────────────▶  SFT ──────────────────▶  RL
  ├ 14.8T tokens                    │ 监督微调                │ GRPO 强化学习
  ├ 2,048 NVIDIA H800              │ 指令对齐                │ 推理能力提升
  ├ FP8 混合精度                    │ 人工标注数据              │ 无需 Critic 模型
  └ 2.788M GPU 小时                │                        │ 分组相对策略优化

阶段一：预训练

数据规模：14.8 万亿 tokens
硬件配置：2,048 块 NVIDIA H800 GPU
训练时间：2.788M H800 GPU 小时（约 $5.6M 成本）
精度策略：全程 FP8 混合精度训练
数据构成：通用文本（1.2T+）+ 代码（300B）+ 150 种平行语料
数据清洗：规则过滤 → BERT 语义过滤 → RLHF 对齐多阶段

对比：训练 Llama 3 405B 用了 30.8M GPU 小时，是 DeepSeek-V3 的 11 倍。

阶段二：SFT（监督微调）

预训练后的模型虽然语言能力很强，但缺乏指令遵循能力。SFT 使用人工标注的高质量指令-回答对来微调模型，使其：

能够理解并遵循用户指令
输出格式符合预期
拒绝不当请求

阶段三：GRPO（强化学习对齐）

GRPO 是 DeepSeek 自研的强化学习算法，用于替代传统的 PPO 方法：

PPO（传统强化学习）:
  Actor（策略模型）──▶ 生成回答 ──▶ Reward Model ──▶ 评分
      │                                 ▲
      └────── Critic（价值模型）──────────┘
      需要额外维护一个 Critic 模型，显存翻倍

GRPO（DeepSeek 自研）:
  Actor（策略模型）──▶ 生成多个回答 ──▶ Reward Model ──▶ 评分
                           │
                   对组内回答的奖励
                   进行归一化处理
                   
  ✅ 不需要 Critic 模型，显存减半
  ✅ 组内相对比较，训练更稳定

GRPO 的优势：

无需 Critic 模型：节省近一半训练显存
组内相对比较：对同一 prompt 生成多个回答，以组内相对优劣作为信号
训练稳定：避免了 Critic 模型训练不收敛的问题

FP8 混合精度训练

DeepSeek-V3 是首个在超大规模（671B）上成功使用 FP8 训练的模型。FP8 相比 FP16/BF16 进一步减半显存占用。

FP8 精度格式：

E4M3（前向传播用）: 4 位指数 + 3 位尾数
  → 最大表示值 ~448，精度较高
  → 用于 forward 中的激活和权重

E5M2（反向传播用）: 5 位指数 + 2 位尾数
  → 最大表示值 ~57,344，范围更大
  → 用于 backward 中的梯度（梯度值变化范围大）

块级量化（Block-wise Quantization）——FP8 训练能在 671B 规模保持精度的关键：

传统量化：整个张量共用一个缩放因子
  [━━━━━━━━━━━━━━━━━━━━]  ← 整个矩阵一个 scale
  问题：大值拉高 scale，小值被"压死" → 精度损失大 ❌

DeepSeek-V3 的块级量化：
  [━━━━][━━━━][━━━━][━━━━]  ← 每 128 元素一组，每组独立 scale
  [━━━━][━━━━][━━━━][━━━━]
  每组有自己的缩放因子 → 精度损失小 ✅

具体分块策略：
  激活（Activations）:  按 1 × 128 分块  ← 每行独立缩放
  权重（Weights）:     按 128 × 128 分块 ← 每个小块独立缩放
  梯度（Gradients）:   按 128 × 128 分块
  累加器（Accumulator）: 每 128 个元素后提升到 FP32
        
  量化误差控制: < 0.25% ✅

显存节省：

  FP32: 每个参数 32 位 → 671B × 4 字节 = 2.68 TB  ❌ 不可行
  BF16: 每个参数 16 位 → 671B × 2 字节 = 1.34 TB  ⚠️ 勉强
  FP8:  每个参数 8 位  → 671B × 1 字节 = 671 GB   ✅ 训练可行！

DualPipe：通信-计算完全重叠

在 2,048 块 H800 GPU 上训练 671B 模型，通信开销是最大瓶颈。DualPipe 的解决方案是将反向传播拆分为两个阶段来重叠通信：

传统 1F1B 流水线:
  [F1]→[F2]→[F3]→[B3]→[B2]→[B1]
  GPU 空闲等待 → 气泡（bubble）占 ~50% 时间 ❌

DualPipe 双向调度:
  将反向拆分为 W（权重梯度）和 I（输入梯度）:
  
  设备 A: F1 → F2 →  F3  → B3_W → B3_I → B2_W → B2_I → B1
  设备 B: F1 → F2 → [通信] → F3  → B3_W → B3_I → B2_W → B2_I
                       ↑ All-to-All 通信与 F3 计算重叠！
  设备 C: F1 → [通信] → F2 → F3 → B3_W → B3_I → B2_W → B2_I
                       ↑ 通信完全隐藏！
  
  效果：气泡减少 50%，吞吐量提升 20% ✅
  
节点限制路由：每个 token 最多分发至 4 个节点
  → 减少跨节点 All-to-All 通信量
  → 通信量降低 40%

训练稳定性

DeepSeek-V3 在整个训练过程中实现了零不可恢复的 loss spike，无需任何回滚操作。这在 2.788M GPU 小时的超大规模训练中极为罕见。

五、性能基准

基准测试	DeepSeek-V3	GPT-4	Claude 3.5 Sonnet
文本推理	92.1	91.8	—
知识 QA	88.7	87.9	—
MMLU	开源 SOTA	—	—
数学（AIME）	🏆 领先	可比较	—

DeepSeek-V3 在 所有开源模型中全面领先，闭源模型中与 GPT-4 和 Claude 3.5 Sonnet 不相上下。

六、后续演进：DeepSeek-V3.2（2025年12月）

2025 年底，DeepSeek 发布了基于 V3 的重大更新 V3.2：

DSA：DeepSeek Sparse Attention

DSA 是 V3.2 引入的稀疏注意力机制，进一步突破长上下文推理的效率边界：

标准注意力:      每个 token 关注所有 past tokens → O(n²)
DSA 注意力:     两级筛选机制

第一级 — 闪电索引器（Lightning Indexer）:
  快速粗筛 → 为每个 query 挑选候选 key

第二级 — 细粒度 token 选择:
  在候选 key 中做精筛 → 只保留最相关的 k 个

最终复杂度: O(n·k)，k << n 🚀

其他 V3.2 亮点

可扩展 RL 框架：后训练计算量超过预训练的 10%
Agent 任务合成管线：85K+ 复杂指令（覆盖代码搜索/通用 agent）
竞赛成绩：IMO 2025 金牌（35/42）、IOI 2025 金牌、ICPC 世界总决赛 2025 金牌
SFT + GRPO 联合调优：监督微调与强化学习的深度融合

对开发者的启示

MLA 注意力是长上下文推理的关键——在自建架构中考虑低秩 KV 压缩
无 Auxiliary Loss 负载均衡是一个实用的 MoE 训练技巧，值得借鉴
分组 Top-8 路由在 671B 总参数下只激活 37B，性价比极高
MTP 实现简单、推理无开销、训练收益明显
FP8 混合精度在大规模训练中显著降低显存和成本
GRPO 替代 PPO 省去 Critic 模型，降低强化学习训练门槛