第18章是整本书的“现代 AI 篇”的核心部分——它讲述了从「词向量」到「BERT」，再到「GPT 与智能体（Agent）」的整条技术演化主线。

这一章不仅是机器学习与深度学习的融合点，更是当代人工智能（尤其是大语言模型）的技术根基。

第18章　大模型与预训练范式

18.1 从词向量到 BERT

🔹 一、传统NLP的局限

在早期的自然语言处理中，机器学习模型（如SVM、朴素贝叶斯）使用的特征往往是：

词袋模型（Bag of Words）
TF-IDF 向量它们忽略了词序，也无法捕捉语义。例如：

“我爱学习” 与 “学习我爱” 的TF-IDF几乎一样。

这种稀疏、高维、无语义的表示严重限制了机器对语言的理解。

🔹 二、分布式表示与词向量（Word Embedding）

20世纪80年代后，学者提出了一个关键假设：

词义可以通过上下文来定义。 ——“你能看出一个词的意义，就看它周围的词。”

这催生了“分布式词表示”的思想：每个词都可以表示为一个低维、稠密的向量，语义相似的词在空间中也相近。

代表模型：

Word2Vec（2013, Google）
- Skip-gram / CBOW 模型：通过预测上下文或目标词学习词向量。
- 能捕捉“语义关系”：
  
  vector(“国王”) - vector(“男人”) + vector(“女人”) ≈ vector(“王后”)
GloVe（2014, Stanford）
- 利用全局词频共现信息（统计方法 + 神经网络）。

这阶段的模型静态，同一个词无论出现在什么语境中都只有一个向量。

🔹 三、从静态到动态：上下文词向量

自然语言的语义往往取决于上下文。例如：“bank”在以下两句话中的含义不同：

I went to the bank to deposit money.

The boat is on the bank of the river.

于是研究者开始探索上下文相关的词向量：

📘 代表进展：

ELMo（2018, AllenNLP）：双向LSTM建模上下文；
ULMFiT（2018, fast.ai）：提出“预训练 + 微调”的思想雏形；
BERT（2018, Google）：基于 Transformer 的双向编码器，彻底引爆 NLP。

🔹 四、BERT 的关键创新

BERT（Bidirectional Encoder Representations from Transformers）将 NLP 带入了“预训练语言模型”时代。

核心思想：

双向上下文建模：通过 Transformer Encoder 同时看到左右语境；
自监督预训练任务：
- MLM（Masked Language Modeling）：随机遮盖部分词，预测被遮盖的词；
- NSP（Next Sentence Prediction）：预测句子是否连续；
通用语义表示：在大规模语料上预训练，再迁移到下游任务（如分类、问答、命名实体识别等）。

18.2 预训练—微调范式

🔹 一、传统做法的缺陷

过去的 NLP 模型都是“任务特定”的：

每个任务（如情感分析、翻译、摘要）都需要独立训练；
需要大量标注数据；
模型之间无法共享知识。

🔹 二、预训练—微调（Pretrain-Finetune）范式

BERT 带来的最大变革，就是统一训练流程：

预训练（Pretraining）
- 在大规模无标签语料上，学习语言通用规律；
- 模型掌握“语言常识”和“语义知识”。
微调（Finetuning）
- 在下游任务的小数据集上，调整模型参数；
- 学会特定任务的模式。

这种方法极大地提升了模型的泛化能力与数据效率。

🔹 三、进一步的演化

GPT 系列（OpenAI）：使用“自回归”结构，只预测下一个词；
BART、T5（Google）：采用“Encoder-Decoder”架构，支持生成任务；
RoBERTa、ELECTRA：改进预训练任务与数据规模。

18.3 大语言模型（LLM）的架构与原理

🔹 一、从预训练到大规模预训练

当模型参数从百万级增长到百亿、千亿级时，出现了“涌现能力（Emergent Abilities）”：

能理解复杂语义；
会生成连贯、上下文一致的文本；
甚至具备逻辑推理与编程能力。

🔹 二、LLM 的架构核心：Transformer Decoder

大语言模型（如 GPT 系列）通常只使用 Transformer 的 Decoder 部分：

自回归机制：预测下一个 token；
多层堆叠的注意力网络；
大规模并行训练（分布式）；
位置编码 + LayerNorm + 残差连接 提高稳定性。

核心目标函数： [ \text{maximize } P(w_t | w_1, w_2, …, w_{t-1}) ]

🔹 三、训练要素

数据规模：数千亿 tokens；
参数规模：从 1B → 175B（GPT-3）→ 万亿（GPT-4）；
硬件支持：GPU/TPU 集群、张量并行、模型并行；
优化方法：AdamW、混合精度训练、梯度检查点、ZeRO。

🔹 四、涌现能力与知识涌现

随着模型规模扩大，出现了人类未显式设计的“智能特性”：

上下文学习（In-context learning）；
零样本 / 少样本推理；
逻辑推断；
多模态融合（语言 + 图像 + 音频）。

这些特性让 LLM 从“语言模型”逐渐进化为“通用智能系统”的雏形。

18.4 从 GPT 到 Agent：智能体的出现

🔹 一、LLM 不再只是“说话的模型”

当大模型具备理解、推理、规划、调用工具的能力时，它就开始具备“智能体（Agent）”的特征。

智能体不只是回答问题，而是能主动行动、调用外部工具、与环境交互。

🔹 二、从 GPT 到 ChatGPT

GPT-2 → GPT-3：实现强大的语言生成；
InstructGPT（2022）：引入人类反馈强化学习（RLHF），学会“听懂指令”；
ChatGPT（2022）：对话式交互 + 工具调用；
GPT-4（2023）：多模态输入 + 推理增强。

🔹 三、Agent 化的关键特征

能力	说明	示例
目标驱动	能基于用户目标规划任务	“帮我预订东京的行程”
工具使用	能调用外部API/数据库	浏览器、代码执行器、SQL查询
记忆机制	具备长期与短期记忆	回忆过去对话或上下文
推理与规划	多步思考与自我纠错	Chain-of-Thought, ReAct
自主行动	能执行决策并返回结果	AutoGPT, LangChain Agent

🔹 四、智能体生态

LangChain / AutoGPT / BabyAGI：构建多步骤任务代理；
OpenAI GPTs / Assistants API：让 LLM 化身为个人助理；
Toolformer / ReAct：融合推理与工具使用；
AI OS 概念：未来将是以 Agent 为核心的操作系统时代。

🔹 五、从大模型到通用智能（AGI）的路径

机器学习 → 深度学习 → Transformer → 大模型 → 智能体 → 通用人工智能（AGI）

大模型是“智能的核心引擎”，智能体是“智能的外在形态”，两者结合构成了未来 AI 的操作基座。

📘 小结

阶段	关键技术	代表模型	特征	意义
词向量	分布式语义	Word2Vec / GloVe	静态语义表示	语义理解的起点
上下文预训练	双向建模	ELMo / BERT	动态语义表示	NLP 通用模型诞生
自回归语言模型	Transformer Decoder	GPT 系列	生成式语言建模	通用生成能力
智能体（Agent）	LLM + 工具 + 记忆 + 推理	AutoGPT / LangChain	主动智能	向 AGI 迈进

第18章　大模型与预训练范式

第18章 大模型与预训练范式