← 名词百科

Llama

分类:模型架构

Llama(Large Language Model Meta AI)是 Meta 开发的开源大语言模型系列,包括 Llama 1(2023.02)、Llama 2(2023.07)、Llama 3(2024.04)和 Llama 4(2025.04)。

关键技术创新

  • GQA — Llama 2 70B 起引入分组查询注意力,降低 KV 缓存
  • SwiGLU — Llama 全系列使用的激活函数
  • RMSNorm — 替代 LayerNorm 的归一化层
  • RoPE — 旋转位置编码

Llama 3 405B 亮点

指标 数值
参数量 405B(当时最大开源密集模型)
训练数据 15.6T tokens
GPU 30.8M H100 GPU 小时
上下文窗口 128K
训练方法 SFT + PPO + DPO

📎 出处文章