第10章无监督学习与聚类（Unsupervised Learning & Clustering）

第10章　无监督学习与聚类

10.1 K-Means 与高维空间的挑战

（1）核心思想

K-Means 是最经典的无监督学习算法之一。它通过 最小化簇内样本的平方误差，将数据划分为 K 个相对紧密的簇。

其优化目标函数为： [ J = \sum_{i=1}^{K} \sum_{x_j \in C_i} ||x_j - \mu_i||^2 ] 其中：

(C_i)：第 i 个簇；
(\mu_i)：第 i 个簇的中心（均值）。

（2）算法流程

随机选取 K 个样本作为初始中心；
计算每个样本到各中心的距离，分配到最近的中心；
更新每个簇的中心为簇内样本均值；
重复步骤2-3，直到收敛（中心不再变化或误差变化很小）。

（3）优缺点

优点	缺点
简单高效、计算快速	需要指定 K
收敛性好（有限步内）	依赖初始中心，易陷局部最优
适合球形簇	对异常值敏感

（4）改进方法

K-Means++：通过距离加权的概率选择初始中心，提升稳定性；
Mini-Batch K-Means：适合大规模数据；
Bisecting K-Means：层次化地分裂簇，更稳健。

（5）高维空间的挑战（Curse of Dimensionality）

随着维度升高：

距离的差异变小 → “最近点”和“最远点”几乎等距；
数据稀疏，聚类边界模糊；
相似性度量失效。

解决思路：

降维（PCA、AutoEncoder）；
特征选择；
归一化或使用余弦相似度。

10.2 层次聚类与密度聚类（DBSCAN）

（1）层次聚类（Hierarchical Clustering）

基于样本间的距离层层合并或拆分，形成一棵“聚类树（dendrogram）”。

凝聚式（自下而上）：每个样本起初是一个簇，不断合并；
分裂式（自上而下）：所有样本起初是一个大簇，不断拆分。

常用距离度量：

单链（最短距离）
全链（最长距离）
平均距离
Ward 距离（最小化方差增加）

特点：

无需指定簇数；
适用于可解释分析；
计算复杂度高 (O(n^3))。

（2）密度聚类（DBSCAN）

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）通过“密度可达性”定义簇，而非距离阈值。

核心参数：

ε (eps)：邻域半径；
minPts：形成簇的最小点数。

基本概念：

核心点：邻域内样本数 ≥ minPts；
边界点：邻域内样本数 < minPts，但在核心点邻域内；
噪声点：既非核心也非边界点。

（3）DBSCAN 的优势

优点	缺点
可发现任意形状的簇	对参数敏感（ε, minPts）
自动识别噪声	难处理不同密度的簇
不需指定簇数	在高维数据上表现较差

（4）典型应用

空间数据聚类（地理、图像）；
异常检测；
轨迹聚类（如用户行为路径分析）。

10.3 PCA、LDA、ICA、t-SNE

（1）PCA（主成分分析）

目标：在保留数据主要方差的同时，找到最优的低维线性子空间。

数学形式： [ \max_W ; \text{Var}(W^T X) \quad s.t. ; W^T W = I ] 等价于求解协方差矩阵的特征向量问题。

结果解释：

主成分 = 特征空间中最大方差方向；
保留前几个主成分 ≈ 保留主要信息。

应用场景：

降维与可视化；
去噪；
特征压缩（图像、文本）。

（2）LDA（线性判别分析）

与 PCA 不同，LDA 是 有监督的降维方法。它最大化类间距离、最小化类内距离： [ W = \arg\max_W \frac{|W^T S_B W|}{|W^T S_W W|} ] 其中：

(S_B)：类间散度矩阵；
(S_W)：类内散度矩阵。

应用：人脸识别（Fisherfaces）、分类前的特征压缩。

（3）ICA（独立成分分析）

目标：找到线性变换，使得输出分量之间 统计独立。

[ X = A S \Rightarrow S = W X ]

(X)：观测信号；
(S)：独立信号；
(A)：混合矩阵。

应用：

信号分离（盲源分离，如鸡尾酒会问题）；
图像特征提取。

（4）t-SNE（t-Distributed Stochastic Neighbor Embedding）

一种非线性降维与可视化方法，特别适合高维数据（如词向量、图像特征）。

核心思想：

在高维空间中计算相似度（高斯分布）；
在低维空间中重建相似关系（t分布）；
通过最小化 KL 散度使局部结构保持一致。

优点：

保持局部结构；
可视化高维聚类效果佳。

缺点：

非线性、不可解释；
计算复杂；
不适合大规模数据。

10.4 异常检测与流形学习

（1）异常检测（Anomaly Detection）

目标：发现那些“不符合常规模式”的样本。

典型方法：

基于距离：KNN、LOF（局部异常因子）；
基于密度：Isolation Forest；
基于概率模型：高斯分布建模；
基于自编码器（AutoEncoder）：学习重建误差。

应用场景：

欺诈检测；
设备故障预测；
网络入侵检测；
医学异常筛查。

（2）流形学习（Manifold Learning）

核心思想：高维数据往往“嵌在”低维流形中（例如 3D 螺旋在 2D 平面上可展平）。

常见方法：

方法	核心思想	特点
Isomap	保持全局测地距离	适合平滑流形
LLE（局部线性嵌入）	保持局部邻域线性结构	保持局部关系
t-SNE	保持局部相似性（概率）	可视化效果最好

（3）无监督学习的应用案例

场景	任务	算法
用户分群	客户细分、精准营销	K-Means、DBSCAN
降维可视化	特征压缩	PCA、t-SNE
异常检测	欺诈识别、设备监控	Isolation Forest、AutoEncoder
推荐系统	用户兴趣建模	聚类 + 协同过滤
NLP 预训练	词向量学习	Word2Vec、BERT（自监督）

✅ 总结：无监督学习的本质

方法	类型	核心目标	特点
K-Means	划分聚类	最小化簇内方差	简单高效
DBSCAN	密度聚类	基于密度可达性	自动识别噪声
PCA	线性降维	最大方差保留	可解释性强
t-SNE	非线性降维	保持局部相似度	可视化强
AutoEncoder	深度无监督	重建输入特征	表示学习
Flow / Diffusion	概率生成	学习数据分布	现代生成模型基础

📘 一句话总结：无监督学习的使命是“发现数据中隐藏的秩序”。它让模型从“标签依赖”走向“结构理解”，是通往表示学习与自监督学习的必经之路。

第10章　无监督学习与聚类