第9章 概率模型与统计学习
9.1 朴素贝叶斯(Naive Bayes)
(1)核心思想
朴素贝叶斯是一种基于 贝叶斯定理(Bayes’ theorem) 和 特征条件独立假设 的概率分类方法。
贝叶斯定理:
[ P(y|x) = \frac{P(x|y)P(y)}{P(x)} ]
其中:
- (P(y)):先验概率(类别的总体概率);
-
(P(x y)):似然(在类别 y 下出现特征 x 的概率); -
(P(y x)):后验概率(给定特征后属于类别 y 的概率)。
核心假设: 所有特征 (x_i) 条件独立: [ P(x|y) = \prod_i P(x_i|y) ] 这就是“朴素(Naive)”的由来。
(2)分类过程
- 统计每个类别的先验概率 (P(y));
-
统计每个特征在类别下的条件概率 (P(x_i y)); - 对新的样本 x,计算每个类别的后验概率: [ P(y|x) \propto P(y)\prod_i P(x_i|y) ]
- 选取后验概率最大的类别。
(3)常见变体
- 高斯朴素贝叶斯(GaussianNB):特征服从正态分布;
- 多项式朴素贝叶斯(MultinomialNB):用于文本词频;
- 伯努利朴素贝叶斯(BernoulliNB):用于二值特征。
(4)优缺点
| 优点 | 缺点 |
|---|---|
| 简单高效,训练和预测速度快 | 条件独立假设过强 |
| 对小数据集鲁棒 | 不能捕捉特征间依赖 |
| 适合高维稀疏数据(如文本) | 精度不及复杂模型 |
(5)典型应用
- 垃圾邮件识别;
- 情感分类;
- 文本主题识别;
- 文档分类(如新闻、评论分类)。
9.2 隐马尔可夫模型(Hidden Markov Model, HMM)
(1)核心思想
HMM 是一个 带有隐状态的随机过程,假设:
- 存在一个不可见的状态序列 (S = (s_1, s_2, …, s_T));
- 每个状态会生成一个可见的观测序列 (O = (o_1, o_2, …, o_T));
- 状态转移满足马尔可夫性: [ P(s_t | s_{t-1}, …, s_1) = P(s_t | s_{t-1}) ]
换句话说:未来的状态只与当前状态有关,而与过去无关。
(2)模型参数
HMM 通常由三个参数定义(记为 λ):
[ \lambda = (A, B, \pi) ]
- (A):状态转移概率矩阵;
- (B):观测概率矩阵;
- (\pi):初始状态分布。
(3)三个核心问题
-
评估问题(Evaluation) 计算给定模型和观测序列的概率 (P(O|\lambda))。 → 用 前向-后向算法(Forward-Backward Algorithm)。
-
解码问题(Decoding) 寻找最可能的状态序列。 → 用 维特比算法(Viterbi Algorithm)。
-
学习问题(Learning) 根据观测数据估计模型参数 (A, B, \pi)。 → 用 Baum-Welch 算法(EM思想的具体实现)。
(4)典型应用
- 语音识别(最早的成功应用);
- 词性标注(POS tagging);
- 命名实体识别(NER);
- 手写识别、基因序列建模。
9.3 条件随机场(Conditional Random Field, CRF)
(1)HMM 的局限
HMM 是生成式模型,只能建模: [ P(X, Y) = P(Y)P(X|Y) ] 无法直接建模条件概率 (P(Y|X)),并且要求状态转移和观测独立。
(2)CRF 的思想
CRF 是一种 判别式的概率图模型,直接建模: [ P(Y|X) = \frac{1}{Z(X)} \exp \left( \sum_k \lambda_k f_k(Y, X) \right) ] 其中:
- (f_k(Y, X)):特征函数;
- (\lambda_k):特征权重;
- (Z(X)):归一化因子。
核心思想:不用关心数据是怎么生成的,只需建模“在给定输入 X 时,标签序列 Y 的条件概率”。
(3)与 HMM 的关系
| 比较项 | HMM | CRF |
|---|---|---|
| 模型类型 | 生成式 | 判别式 |
| 依赖假设 | 强独立性 | 放宽独立性 |
| 特征使用 | 仅限观测概率 | 可引入任意特征 |
| 性能 | 一般 | 更高 |
(4)CRF 的训练与推断
- 训练:最大化对数似然函数;
- 推断:常用维特比算法或前向-后向算法。
(5)典型应用
- 序列标注任务(词性标注、命名实体识别、分词);
- 生物信息学序列分析;
- OCR(光学字符识别);
- 对话状态追踪。
9.4 EM 算法与期望最大化思想
(1)核心思想
当数据中包含 隐变量(latent variables) 时,直接求解最大似然变得困难。 EM算法(Expectation-Maximization) 提供了一种 迭代优化方法。
它交替执行两步:
- E步(期望步):在当前参数下,计算隐变量的期望;
- M步(最大化步):在期望的基础上,重新估计模型参数以最大化似然。
[ \text{E-step: } Q(\theta | \theta^{(t)}) = E_{Z|X,\theta^{(t)}}[\log P(X,Z|\theta)] ] [ \text{M-step: } \theta^{(t+1)} = \arg\max_\theta Q(\theta | \theta^{(t)}) ]
(2)直观理解
你可以把 EM 看作“猜测 + 修正”的过程:
- 猜测隐变量的分布(E步);
- 根据猜测重新估计模型参数(M步);
- 反复执行,直到收敛。
(3)典型应用
- 高斯混合模型(GMM)聚类;
- 隐马尔可夫模型(HMM)参数学习;
- 缺失数据的估计;
- 图像分割;
- 用户画像聚类(如软聚类)。
✅ 总结:概率模型的演进逻辑
| 模型 | 类型 | 核心思想 | 典型应用 |
|---|---|---|---|
| 朴素贝叶斯 | 生成式 | 条件独立假设 | 文本分类、垃圾邮件检测 |
| HMM | 生成式 | 序列状态转移 + 发射概率 | 语音识别、词性标注 |
| CRF | 判别式 | 条件概率建模 + 全局最优 | NER、分词、序列标注 |
| EM算法 | 优化方法 | 隐变量 + 期望最大化 | GMM、HMM、聚类 |
📘 一句话总结:
朴素贝叶斯是“概率学习的起点”,HMM 是“序列概率的里程碑”,CRF 是“结构化预测的代表”,而 EM 是“隐变量问题的通用解法”。
