第9章　概率模型与统计学习

9.1 朴素贝叶斯（Naive Bayes）

（1）核心思想

朴素贝叶斯是一种基于 贝叶斯定理（Bayes’ theorem） 和 特征条件独立假设 的概率分类方法。

贝叶斯定理：

[ P(y|x) = \frac{P(x|y)P(y)}{P(x)} ]

其中：

(P(y))：先验概率（类别的总体概率）；
(P(x y))：似然（在类别 y 下出现特征 x 的概率）；
(P(y x))：后验概率（给定特征后属于类别 y 的概率）。

核心假设：所有特征 (x_i) 条件独立： [ P(x|y) = \prod_i P(x_i|y) ] 这就是“朴素（Naive）”的由来。

（2）分类过程

统计每个类别的先验概率 (P(y))；
统计每个特征在类别下的条件概率 (P(x_i y))；
对新的样本 x，计算每个类别的后验概率： [ P(y|x) \propto P(y)\prod_i P(x_i|y) ]
选取后验概率最大的类别。

（3）常见变体

高斯朴素贝叶斯（GaussianNB）：特征服从正态分布；
多项式朴素贝叶斯（MultinomialNB）：用于文本词频；
伯努利朴素贝叶斯（BernoulliNB）：用于二值特征。

（4）优缺点

优点	缺点
简单高效，训练和预测速度快	条件独立假设过强
对小数据集鲁棒	不能捕捉特征间依赖
适合高维稀疏数据（如文本）	精度不及复杂模型

（5）典型应用

垃圾邮件识别；
情感分类；
文本主题识别；
文档分类（如新闻、评论分类）。

9.2 隐马尔可夫模型（Hidden Markov Model, HMM）

（1）核心思想

HMM 是一个 带有隐状态的随机过程，假设：

存在一个不可见的状态序列 (S = (s_1, s_2, …, s_T))；
每个状态会生成一个可见的观测序列 (O = (o_1, o_2, …, o_T))；
状态转移满足马尔可夫性： [ P(s_t | s_{t-1}, …, s_1) = P(s_t | s_{t-1}) ]

换句话说：未来的状态只与当前状态有关，而与过去无关。

（2）模型参数

HMM 通常由三个参数定义（记为 λ）：

[ \lambda = (A, B, \pi) ]

(A)：状态转移概率矩阵；
(B)：观测概率矩阵；
(\pi)：初始状态分布。

（3）三个核心问题

评估问题（Evaluation） 计算给定模型和观测序列的概率 (P(O|\lambda))。 → 用 前向-后向算法（Forward-Backward Algorithm）。
解码问题（Decoding） 寻找最可能的状态序列。 → 用 维特比算法（Viterbi Algorithm）。
学习问题（Learning） 根据观测数据估计模型参数 (A, B, \pi)。 → 用 Baum-Welch 算法（EM思想的具体实现）。

（4）典型应用

语音识别（最早的成功应用）；
词性标注（POS tagging）；
命名实体识别（NER）；
手写识别、基因序列建模。

9.3 条件随机场（Conditional Random Field, CRF）

（1）HMM 的局限

HMM 是生成式模型，只能建模： [ P(X, Y) = P(Y)P(X|Y) ] 无法直接建模条件概率 (P(Y|X))，并且要求状态转移和观测独立。

（2）CRF 的思想

CRF 是一种 判别式的概率图模型，直接建模： [ P(Y|X) = \frac{1}{Z(X)} \exp \left( \sum_k \lambda_k f_k(Y, X) \right) ] 其中：

(f_k(Y, X))：特征函数；
(\lambda_k)：特征权重；
(Z(X))：归一化因子。

核心思想：不用关心数据是怎么生成的，只需建模“在给定输入 X 时，标签序列 Y 的条件概率”。

（3）与 HMM 的关系

比较项	HMM	CRF
模型类型	生成式	判别式
依赖假设	强独立性	放宽独立性
特征使用	仅限观测概率	可引入任意特征
性能	一般	更高

（4）CRF 的训练与推断

训练：最大化对数似然函数；
推断：常用维特比算法或前向-后向算法。

（5）典型应用

序列标注任务（词性标注、命名实体识别、分词）；
生物信息学序列分析；
OCR（光学字符识别）；
对话状态追踪。

9.4 EM 算法与期望最大化思想

（1）核心思想

当数据中包含 隐变量（latent variables） 时，直接求解最大似然变得困难。 EM算法（Expectation-Maximization） 提供了一种 迭代优化方法。

它交替执行两步：

E步（期望步）：在当前参数下，计算隐变量的期望；
M步（最大化步）：在期望的基础上，重新估计模型参数以最大化似然。

[ \text{E-step: } Q(\theta | \theta^{(t)}) = E_{Z|X,\theta^{(t)}}[\log P(X,Z|\theta)] ] [ \text{M-step: } \theta^{(t+1)} = \arg\max_\theta Q(\theta | \theta^{(t)}) ]

（2）直观理解

你可以把 EM 看作“猜测 + 修正”的过程：

猜测隐变量的分布（E步）；
根据猜测重新估计模型参数（M步）；
反复执行，直到收敛。

（3）典型应用

高斯混合模型（GMM）聚类；
隐马尔可夫模型（HMM）参数学习；
缺失数据的估计；
图像分割；
用户画像聚类（如软聚类）。

✅ 总结：概率模型的演进逻辑

模型	类型	核心思想	典型应用
朴素贝叶斯	生成式	条件独立假设	文本分类、垃圾邮件检测
HMM	生成式	序列状态转移 + 发射概率	语音识别、词性标注
CRF	判别式	条件概率建模 + 全局最优	NER、分词、序列标注
EM算法	优化方法	隐变量 + 期望最大化	GMM、HMM、聚类

📘 一句话总结：

朴素贝叶斯是“概率学习的起点”，HMM 是“序列概率的里程碑”，CRF 是“结构化预测的代表”，而 EM 是“隐变量问题的通用解法”。

第9章　概率模型与统计学习