人工智能 50 词

🏷️ 关键词

网络上收集相关概念

基础概念篇

函数：万物皆函数
符号主义（Symbolism）：早期人们用符号主义思想找到精确函数，但是遇见了瓶颈
联结主义（Connectionism）：后来人们用联结主义思想，啥都不管，弄个非常复杂的函数，然后用真实值与预测值中间的误差来调整参数，这个函数我们叫做：
模型（Model）
权重（Weight）：模型里面的参数
大模型（LM）：模型里面的参数量很大
大语言模型（LLM）：用来处理自然语言的模型
训练：调整模型参数的过程
预训练：事先训练好一个基础模型的方法叫做预训练
微调（Fine-tuning）：基于预训练模型继续训练，让模型学会具体任务的方式叫做参数微调
推理（Inference）：根据函数的输入计算输出结果的过程叫做推理
涌现（Emergence）：随着模型参数的不断提升，对话能力有了明显的上升，这种量变引起质变，让模型突然出现之前没有的能力的现象为涌现（这里可以和 Vision Banana 联系）
闭源模型（Closed-source Model）：不开放源代码，也不开放权重，只提供服务的模型
开放权重（Open-weight Model）：这里只开源了权重，没有开放训练数据等等，并且可以在本地部署的为开源模型
完全开源（Fully Open-source Model）：全开放
私有化部署（Private Deployment）：不开放服务给外界使用，只给自己用
生成式 AI（Generative AI）：基于输入可以自动输出结果的模型
Token：分割出的，模型可以处理的最小信息单位
上下文（Context）：输入给模型的所有的信息叫做上下文
幻觉（Hallucination）：说胡话
联网（Browser）：大模型回答问题前，先在互联网上查找相关信息，把信息和问题共同发给大模型，相当于开卷考试
RAG（Retrieval-Augmented Generation）检索增强生成：有的时候，某些数据不能上传到网络上，就是私有的数据库
知识库（KB, Knowledge Base）：这些私有的数据库叫做知识库
向量数据库：为了让模型和知识库中的语义进行匹配，知识往往会以向量的形式存储在向量数据库里面
词嵌入（Embedding）：把文字转化为词向量的方式叫做词嵌入
向量检索（Vector Search）：根据相似度在向量数据库里面找到对应的词向量的过程叫做向量检索
多模态（Multimodal）：处理多种模式内容的能力叫做多模态
工作流（Workflow）：把工作步骤编排成一个工作流程的能力
智能体（Agent）：按照工作流封装大模型和一整套工具集，用于自动完成某一类任务的工具
多智能体（Multi-Agent）：多个智能体相互协助，完成更复杂的任务
MCP（Model Context Protocol）：有的时候模型要用微信、上网等等，对外部世界进行操作，Anthropic 公司给了一个 AI 操作外部世界的统一标准 MCP
A2A（Agent-to-Agent Protocol）：Google 给 Agent 之间的通信定的协议
模型压缩（Model Compression）：让模型更小，以便减少成本和方便个人部署
量化（Quantization）：把模型中的浮点数用更低精度的方法表示，以减少显存和计算
蒸馏（Distillation）：用参数量大的大模型，指导参数量小的模型
剪枝（Pruning）：删除模型中不重要的神经元
LoRA（Low-rank Adaptation）：用更低成本改善微调效果的方式
思维链（Chain-of-Thought）：从推理能力增强模型能力的方式
RLHF（人类反馈强化学习）：通过人类反馈的方式强化学习，让模型说的话更贴合人心
NLP：自然语言处理
TTS：文字转语音
Hugging Face：AI 开源工作平台

模型训练流程

1. 明确任务需求

传统机器学习：分类、回归、聚类、异常检测

深度学习：图像分类、目标检测、分割、生成任务

2. 定义评价指标

分类：Acc、Precision、Recall、F1、AUROC、AUPRC

回归：MSE、MAE、RMSE、R²

生成类：BLEU、PSNR、SSIM

3. 业务约束

显存、精度

4. 数据集的构建

5. 数据预处理

6. 数据集划分

7. 特征工程（数据增强）

8. 模型搭建与初始化

9. 确定训练组件的配置

Loss
Optimizer
超参数的设定

10. 训练循环

训练集训练（分批次输入 → 前向传播预测结果 → 计算 Loss → 反向传播计算梯度 → 优化器优化权重）、验证集调参

11. 模型评估

测试集看性能

12. 超参数调优

13. 模型优化

过拟合、欠拟合

大模型训练后的对齐技术

大模型在预训练后，通常需要经过以下对齐步骤：

SFT（Supervised Fine-Tuning）：提供优质的指令-回答数据学习
RLHF（Reinforcement Learning from Human Feedback）：奖励 RM 训练、PPO 强化学习
- PPO（Proximal Policy Optimization，近端策略优化）：RM 打分为奖励，更新模型，同时加入 KL 散度惩罚
GRPO（Group Relative Policy Optimization）：R1 中使用，SFT 模型直接进入强化学习，无需单独训练奖励模型。GRPO 分组相对奖励：同一问题批量生成多条推理答案，对比正确率、步骤完整性给出分组奖励
DPO（Direct Preference Optimization）：舍弃奖励模型，直接用偏好数据（优劣回答对）构造损失，一步完成偏好对齐，训练更简单、显存开销更低

2026 年 06 月 16 日