← 名词百科

NeuralCache

分类:模型架构

神经缓存系统(Neural Cache System)是 DeepSeek-V4 引入的可学习缓存层。

核心思想

传统 KV Cache 缓存的是每个 token 的 Key/Value,但许多高频知识模式(如常见代码片段、数学公式、事实知识)是重复出现的。NeuralCache 在潜在空间中对这些高频模式进行压缩缓存:

传统 KV Cache:
  每个 token → 缓存 K/V → 每次推理从头计算

NeuralCache:
  高频模式 → 编码为潜在向量 → 缓存到语义层
  重复请求 → 直接命中缓存 → 跳过计算

工作原理

  用户输入
      │
      ▼
  ┌──────────────┐
  │  语义匹配器    │─── 缓存命中 → 直接输出
  └──────┬───────┘
         │ 未命中
         ▼
  ┌──────────────┐
  │  完整推理路径  │─── 结果 → 更新缓存
  └──────────────┘

效果

场景 延迟降低 命中率
常见问答 5-8× 72%
代码补全 3-5× 58%
数学计算 2-3× 35%
长文推理 1.5× 12%

📎 出处文章