📚 名词百科

全站技术名词汇总,点击查看详细解释

AdaptiveMoE

模型架构

自适应 MoE 路由(Adaptive Mixture of Experts)是 DeepSeek-V4 对 MoE 路由机制的改进。 核心思路 传统 MoE 对所有 token 一视同仁,每个 token 激活固定数量的专家。A...

📎 DeepSeek-V4 技术报告精读:迈向通用人工智能的架构革命

Attention

模型架构

Attention(注意力机制)是一种让模型在处理每个位置时动态关注输入序列中其他位置的机制。 QKV 计算流程可视化 输入序列: [x₁, x₂, x₃, x₄] Step 1: 计算 Q、K、V(通过线性投影) x₁...

Auxiliary Loss

训练方法

辅助损失函数是传统 MoE 训练中用于平衡各专家负载的额外损失项。 训练时需要在主任务 Loss 上加上 α × AuxLoss,α 是超参数需要手动调节。DeepSeek-V3 提出了无辅助损失的动态负载均衡策略,完全去除了 α ...

📎 DeepSeek-V3 技术报告精读:671B 参数的 MoE 奇迹

BERT

模型架构

Bidirectional Encoder Representations from Transformers(双向编码器表示)是 Google 于 2018 年提出的预训练语言模型。 核心创新:双向预训练 与 GPT 自回归(从...

DDPM

生成模型

DDPM(Denoising Diffusion Probabilistic Models,去噪扩散概率模型)是扩散模型的奠基性工作,由 Ho et al. 于 2020 年提出。 核心贡献 将扩散模型的前向加噪和逆向去噪过...

DSA

模型架构

DeepSeek Sparse Attention(DeepSeek 稀疏注意力)是 V3.2 引入的两级注意力机制。 闪电索引器 — 快速筛选出与当前 token 最相关的 k 个 token 细粒度 token 选择 ...

📎 DeepSeek-V3 技术报告精读:671B 参数的 MoE 奇迹

Degradation Problem

模型架构

Degradation Problem(退化问题)是指随着网络深度增加,模型性能出现饱和甚至下降的现象。 与过拟合的区别 特性 过拟合 退化问题 ...

Diffusion Model

生成模型

Diffusion Model(扩散模型)是一类受热力学启发的生成模型,通过逐步加噪破坏数据分布,再学习逆向去噪过程来生成数据。 核心思想 扩散模型定义了两个过程: 前向扩散过程(加噪):逐步向数据添加高斯噪声,直到数据变...

FP8

训练方法

8-bit Floating Point(8 位浮点数)是一种低精度数值格式。 相比 FP16(16 位)可减少 50% 显存占用,相比 FP32 减少 75%。DeepSeek-V3 全程使用 FP8 混合精度训练,显著降低了训练...

📎 DeepSeek-V3 技术报告精读:671B 参数的 MoE 奇迹

GPT

模型架构

Generative Pre-trained Transformer(生成式预训练 Transformer)是 OpenAI 开发的大语言模型系列。 发展历程 GPT-1 (2018.06) — 117M 参数,首次证明 Tra...

GQA

模型架构

Grouped-Query Attention(分组查询注意力)是 MHA(Multi-Head Attention)和 MQA(Multi-Query Attention)的折中方案。 演进对比 MHA(标准多头注意力): ...

📎 Llama 系列技术报告精读:Meta 的开源大模型之路

GRPO

训练方法

Group Relative Policy Optimization(分组相对策略优化)是 DeepSeek 自研的强化学习算法。 与传统的 PPO 不同,GRPO 不需要 Critic 模型(价值函数模型),而是通过对同一 pro...

📎 DeepSeek-V3 技术报告精读:671B 参数的 MoE 奇迹

Gaussian Noise

数学基础

Gaussian Noise(高斯噪声)指服从正态分布(高斯分布)的随机噪声,是扩散模型中使用的核心噪声类型。 定义 若随机变量 $\epsilon$ 服从均值为 $\mu$、方差为 $\sigma^2$ 的高斯分布,记作: \...

HyperMLA

模型架构

Hyper-Scale Latent Attention(超大规模潜在注意力)是 MLA 的下一代演进。 核心改进 HyperMLA 在 MLA 的基础上进行了三项关键升级: 1. 扩展潜在维度 KV 压缩维度从 512 ...

📎 DeepSeek-V4 技术报告精读:迈向通用人工智能的架构革命

KL Divergence

训练方法

KL Divergence(Kullback-Leibler 散度,KL 散度)衡量两个概率分布之间的差异。 在 VAE 中的作用 在 VAE 中,KL 散度作为正则化项,强制近似后验分布 q(z ...

Llama

模型架构

Llama(Large Language Model Meta AI)是 Meta 开发的开源大语言模型系列,包括 Llama 1(2023.02)、Llama 2(2023.07)、Llama 3(2024.04)和 Llama 4...

📎 Llama 系列技术报告精读:Meta 的开源大模型之路

MLA

模型架构

MLA(Multi-Head Latent Attention,多头潜在注意力) KV联合低秩压缩+潜在隐向量缓存+按需解压,做到「推理只存低维隐向量、计算还原完整多头K/V」,KV Cache最高压缩93%+,精度逼近原生MHA,超...

📎 DeepSeek-V3 技术报告精读:671B 参数的 MoE 奇迹

MLM

训练方法

Masked Language Model(掩码语言模型)是 BERT 的核心预训练任务。 原理 随机将输入中 15% 的 token 替换为 [MASK],让模型预测原始词: 输入: 我去 [MASK] 场看电影 ...

MTP

训练方法

MTP(Multi-Token Prediction) MTP是在主干Transformer尾部串联多层轻量预测模块,训练同时预测$t+1、t+2…t+n$连续多Token;训练端稠密监督提升推理/长文本能力,推理端原生充当Specu...

📎 DeepSeek-V3 技术报告精读:671B 参数的 MoE 奇迹

Markov Process

数学基础

Markov Process(马尔可夫过程)是一种随机过程,其核心特性是无后效性(马尔可夫性):未来状态仅依赖于当前状态,与过去状态无关。 数学定义 \[P(X_{t+1} \mid X_t, X_{t-1}, \dots, X_...

MoDE

模型架构

Mixture of Depth Experts(深度混合专家)是 DeepSeek-V4 引入的新型架构,沿深度维度分配不同计算密度的专家层。 核心思想 传统 MoE 在每一层使用相同数量的专家,而 MoDE 在不同深度层使用不...

📎 DeepSeek-V4 技术报告精读:迈向通用人工智能的架构革命

MoE

模型架构

MoE(Mixture of Experts,混合专家模型) 稀疏条件计算架构,把Transformer里的FFN拆成一堆专精小网络(专家),靠路由动态选少量专家运算,实现「总参数暴涨、单次算力基本不变」,是超大模型主流扩容方案。 ...

📎 DeepSeek-V3 技术报告精读:671B 参数的 MoE 奇迹

Multi-Head Attention

模型架构

Multi-Head Attention(多头注意力)是 Transformer 的核心组件之一,将查询、键、值分别投影到多个子空间(头),在每个子空间中独立计算注意力,最后拼接起来。 工作原理 输入 │ ├──→ 头...

NeuralCache

模型架构

神经缓存系统(Neural Cache System)是 DeepSeek-V4 引入的可学习缓存层。 核心思想 传统 KV Cache 缓存的是每个 token 的 Key/Value,但许多高频知识模式(如常见代码片段、数学公...

📎 DeepSeek-V4 技术报告精读:迈向通用人工智能的架构革命

PPO

训练方法

Proximal Policy Optimization(近端策略优化)是 OpenAI 于 2017 年提出的经典强化学习算法。 核心思想 PPO 通过裁剪策略更新幅度来保证训练稳定性。每次更新时,新策略不能偏离旧策略太远,否则...

📎 DeepSeek-V4 技术报告精读:迈向通用人工智能的架构革命

Positional Encoding

模型架构

Positional Encoding(位置编码)解决 Transformer 的一个固有问题:自注意力机制本身是置换不变的——它无法区分 “A→B” 和 “B→A”。 常用方法 正弦波位置编码(Sinusoidal) 使用不同...

Qwen

模型架构

Qwen(通义千问)是阿里巴巴开发的大语言模型系列,包括 Qwen 1(2023.08)、Qwen 2(2024.06)、Qwen 2.5(2024.12)和 Qwen 3(2025.04)。 核心特点 多语言能力:尤其中英...

RMSNorm

模型架构

RMSNorm(Root Mean Square Layer Normalization)是 LayerNorm 的简化变体,仅对输入的均方根进行归一化,省略了均值中心化步骤。 公式 LayerNorm: y = (x - μ)...

Reparameterization Trick

训练方法

Reparameterization Trick(重参数化技巧)解决了 VAE 训练中采样操作不可微的问题。 问题 VAE 需要从编码器输出的分布中采样来生成潜在变量: z ∼ N(μ, σ²) ← 采样操作不可微!梯度无法...

ResNet

模型架构

ResNet(Residual Network,残差网络)由 Kaiming He 等人在 2015 年提出(CVPR 2016 Best Paper),通过引入残差学习解决了深层网络的退化问题。 核心贡献 提出残差学习...

Residual Learning

模型架构

Residual Learning(残差学习)是 ResNet 的核心思想。 为什么需要 Residual Learning 随着网络加深,模型性能出现饱和甚至下降——这不是过拟合,而是优化困难。深层网络难以学习恒等映射(即 F(...

SFT

训练方法

Supervised Fine-Tuning(监督微调)是 LLM 训练三阶段的第二阶段。 使用人工标注的高质量指令数据对预训练模型进行微调,使其对齐人类偏好和指令遵循能力。SFT 是预训练和 RL 之间的关键桥梁。

📎 DeepSeek-V3 技术报告精读:671B 参数的 MoE 奇迹

Self-Play RL

训练方法

自博弈强化学习(Self-Play Reinforcement Learning)是 DeepSeek-V4 的核心训练方法。 原理 模型通过自我对弈生成训练数据 → 训练 → 评估的循环不断提升能力,无需外部标注: 回合 ...

📎 DeepSeek-V4 技术报告精读:迈向通用人工智能的架构革命

Shortcut Connections

模型架构

Shortcut Connections(快捷连接/跳跃连接)是 ResNet 实现残差学习的核心组件。 工作原理 快捷连接将输入直接跳过一些层传递到后面的层: 输入 x ───→ [权重层] ──→ [权重层] ──→ F(x...

SwiGLU

模型架构

SwiGLU(Swish-Gated Linear Unit)是 LLaMA 系列使用的激活函数,结合了 Swish 激活和门控线性单元(GLU)的优势。 公式 SwiGLU(x) = Swish(xW) ⊗ (xV) 其中 ...

Transformer

模型架构

Transformer 是一种基于自注意力机制的深度神经网络架构,2017 年由 Google 在论文 “Attention Is All You Need” 中提出。它摒弃了传统的循环/卷积结构,完全依赖注意力机制建模序列数据中的长...

U-Net

模型架构

U-Net 是一种对称的编码器-解码器架构,最初由 Ronneberger et al. 于 2015 年提出用于医学图像分割,后被 Stable Diffusion 用作核心噪声预测网络。 架构特点 输入 → [下采样 × N]...

VAE

模型架构

VAE(Variational Autoencoder,变分自编码器)由 Kingma & Welling 于 2014 年提出,是一种生成模型。 架构 编码器(推断) ...

信噪比

数学基础

信噪比(Signal-to-Noise Ratio, SNR)衡量信号与噪声的强度之比,在扩散模型中用于描述每一步加噪后图像保留的信息量。 在扩散模型中的定义 在前向扩散过程中: \[x_t = \sqrt{\alpha_t} ...

最大似然估计

训练方法

最大似然估计(Maximum Likelihood Estimation, MLE)是一种参数估计方法,核心思想是:找到一组参数 $\theta$,使观测数据出现的概率最大。 数学形式 给定观测数据 $X = {x_1, x_2,...