第 1 个月:LLM 基础

很好。学习 LLM(Large Language Model) 时,不建议一开始就钻进深度学习细节,而是先建立 正确的心智模型(mental model)。 我会用 工程师视角把 LLM 的核心拆成几个逐步理解的模块。

今天先打基础:LLM 的 5 个核心概念


一、LLM 本质:预测下一个 Token

所有大模型的核心其实非常简单:

根据已有文本,预测下一个 token。

数学形式可以写成:

[ P(x_t \mid x_1, x_2, …, x_{t-1}) ]

P(x_t \mid x_1, x_2, \ldots, x_{t-1})

意思是:

根据前面所有 token
预测下一个 token 的概率

举个例子:

输入:

今天天气很

模型内部可能预测:

好    0.35
热    0.25
冷    0.18
不错  0.12

然后随机采样一个。

继续:

今天天气很好

再预测下一个 token。

这就是 生成文本的全过程


二、Token(最重要概念)

LLM 处理的不是“字”或“词”,而是 Token

Token 可以是:

字
词
子词
符号

例如:

句子:

ChatGPT is amazing

可能被拆成:

Chat
G
PT
 is
 amazing

中文:

人工智能改变世界

可能拆成:

人工
智能
改变
世界

大模型其实看到的是:

[1023, 8872, 3455, 9123]

这些是 token id


三、Embedding(向量化)

token 不能直接被神经网络处理。

所以需要变成 向量(embedding)

例如:

猫 → [0.12, -0.33, 0.98, ...]
狗 → [0.15, -0.30, 0.95, ...]
汽车 → [-0.88, 0.71, -0.44, ...]

关键性质:

语义相近 → 向量接近

例如:

猫 ≈ 狗
猫 ≠ 飞机

embedding 是:

语言的数学表示


四、Transformer(LLM核心结构)

大模型几乎全部基于一个架构:

Attention Is All You Need

Transformer 的核心思想是:

Attention(注意力)

模型在理解一个词时,会“关注”其他相关词。

例如:

句子:

小明把书放在桌子上,因为它太重了

“它”指的是谁?

模型通过 attention 发现:

它 → 书

因为语义最相关。


五、Context Window(上下文窗口)

LLM 不是无限记忆。

它只能看到一定数量的 token:

例如:

8k tokens
32k tokens
128k tokens

这叫:

context window

如果对话太长:

旧内容会被截断

这也是为什么:

  • 聊天会“忘记”
  • RAG 要检索知识

六、LLM 推理流程(完整)

把上面串起来:

文本输入
↓
Tokenization
↓
Embedding
↓
Transformer layers
↓
Next token probability
↓
采样
↓
生成 token
↓
循环

简化流程:

Text
↓
Token
↓
Vector
↓
Transformer
↓
Next token

七、为什么 LLM 会“幻觉”(Hallucination)

原因很简单:

模型做的是:

概率预测

不是:

事实查询

所以当知识不足时:

模型会生成 最可能的文本

例如:

问:

张三是哪一年获得诺贝尔奖?

如果没有这个人:

模型可能编造。


八、LLM 的三种能力来源

大模型能力来自三部分:

1 预训练(互联网数据)
2 指令微调(instruction tuning)
3 RLHF(人类反馈强化学习)

经典例子:

  • ChatGPT
  • Claude
  • DeepSeek
  • Qwen

九、LLM 能力边界(必须理解)

LLM 不擅长

精确计算
长逻辑推理
最新知识
复杂规划

所以需要:

RAG
Agent
Tool

这也是 AI 工程存在的原因。


十、一个最重要的工程理解

作为工程师要理解:

LLM 本质是:

概率文本生成器

而 AI 系统其实是:

LLM
+ 工具
+ 数据
+ 记忆
+ workflow

这就是为什么:

RAG
Agent
AI Platform

非常重要。


如果继续往下学,下一步最重要的知识其实不是 Transformer,而是:

LLM 的 6 个关键运行参数(几乎决定模型行为):

temperature
top_p
top_k
max_tokens
stop
seed

参考资料