Llama
Llama(Large Language Model Meta AI)是 Meta 开发的开源大语言模型系列,包括 Llama 1(2023.02)、Llama 2(2023.07)、Llama 3(2024.04)和 Llama 4(2025.04)。
关键技术创新
- GQA — Llama 2 70B 起引入分组查询注意力,降低 KV 缓存
- SwiGLU — Llama 全系列使用的激活函数
- RMSNorm — 替代 LayerNorm 的归一化层
- RoPE — 旋转位置编码
Llama 3 405B 亮点
| 指标 | 数值 |
|---|---|
| 参数量 | 405B(当时最大开源密集模型) |
| 训练数据 | 15.6T tokens |
| GPU | 30.8M H100 GPU 小时 |
| 上下文窗口 | 128K |
| 训练方法 | SFT + PPO + DPO |