NeuralCache
神经缓存系统(Neural Cache System)是 DeepSeek-V4 引入的可学习缓存层。
核心思想
传统 KV Cache 缓存的是每个 token 的 Key/Value,但许多高频知识模式(如常见代码片段、数学公式、事实知识)是重复出现的。NeuralCache 在潜在空间中对这些高频模式进行压缩缓存:
传统 KV Cache:
每个 token → 缓存 K/V → 每次推理从头计算
NeuralCache:
高频模式 → 编码为潜在向量 → 缓存到语义层
重复请求 → 直接命中缓存 → 跳过计算
工作原理
用户输入
│
▼
┌──────────────┐
│ 语义匹配器 │─── 缓存命中 → 直接输出
└──────┬───────┘
│ 未命中
▼
┌──────────────┐
│ 完整推理路径 │─── 结果 → 更新缓存
└──────────────┘
效果
| 场景 | 延迟降低 | 命中率 |
|---|---|---|
| 常见问答 | 5-8× | 72% |
| 代码补全 | 3-5× | 58% |
| 数学计算 | 2-3× | 35% |
| 长文推理 | 1.5× | 12% |