第6章 线性模型家族
线性模型是机器学习中最早、最经典、也是最具代表性的算法家族。
几乎所有复杂模型(包括神经网络)在本质上都可以看作“非线性的线性组合”。
线性模型的魅力在于:
- 简单而强大 —— 可以解释、可计算、可扩展;
- 理论完备 —— 有清晰的概率解释和几何意义;
- 实用性极高 —— 仍被广泛用于工业界的特征工程、基线模型和可解释建模。
6.1 线性回归
✅ 一、问题定义
线性回归(Linear Regression)用于解决连续值预测问题。 其假设是:输出 (y) 与输入特征 (x) 之间呈线性关系:
[ \hat{y} = w^T x + b ]
其中:
- (x = (x_1, x_2, …, x_n)):输入特征向量
- (w = (w_1, w_2, …, w_n)):权重参数
- (b):偏置项(bias)
✅ 二、目标函数
为了让模型预测值 (\hat{y}) 尽可能接近真实值 (y), 最常用的损失函数是 均方误差(MSE):
[ L(w,b) = \frac{1}{N} \sum_{i=1}^{N} (y_i - (w^T x_i + b))^2 ]
✅ 三、解析解(Normal Equation)
当特征维度不太高时,可以直接通过矩阵求导获得最优参数:
[ w^* = (X^T X)^{-1} X^T y ]
其中 (X) 是特征矩阵,(y) 是目标向量。 这种闭式解(Closed Form)虽然简单,但在高维或大数据集上会导致计算瓶颈,因此实践中常用 梯度下降(GD / SGD)。
✅ 四、几何与统计解释
- 几何视角:线性回归相当于在高维空间中找到一个最贴近样本点的超平面。
- 统计视角:线性回归假设误差项服从高斯分布,等价于最大似然估计(MLE)。
✅ 五、优缺点
✅ 优点:
- 可解释性强;
- 计算效率高;
- 在噪声小、线性关系明显时表现好。
❌ 缺点:
- 无法建模非线性关系;
- 对异常值敏感;
- 可能发生多重共线性(特征相关)。
6.2 逻辑回归与分类边界
✅ 一、从回归到分类的跨越
逻辑回归(Logistic Regression)用于二分类任务。 虽然名字里有“回归”,但本质上是一个分类模型。
✅ 二、模型假设
我们希望预测样本属于正类(y=1)的概率:
[ P(y=1|x) = \sigma(w^T x + b) ]
其中 (\sigma(z)) 是 Sigmoid 函数:
[ \sigma(z) = \frac{1}{1 + e^{-z}} ]
它将线性输出 (w^T x + b) 压缩到 (0, 1) 区间。
✅ 三、决策边界
分类边界由方程 (w^T x + b = 0) 决定。 几何上,这是一个将样本空间划分为两部分的超平面。
- (w):决定超平面的方向;
- (b):决定平面的位置。
✅ 四、损失函数:对数似然
逻辑回归通过极大化样本出现的对数似然来训练:
[ L(w) = \sum_i [y_i \log p_i + (1 - y_i) \log(1 - p_i)] ]
通常优化其负数(即交叉熵损失):
[ \text{Loss} = -\frac{1}{N}\sum_i [y_i \log \hat{y}_i + (1 - y_i)\log(1 - \hat{y}_i)] ]
✅ 五、多分类扩展
- 一对多 (OvR):训练多个二分类器,每次区分“某一类 vs 其他类”;
- Softmax 回归:广义逻辑回归,使用 Softmax 函数输出多类概率:
[ P(y=k|x) = \frac{e^{w_k^T x}}{\sum_j e^{w_j^T x}} ]
✅ 六、概率与几何统一视角
逻辑回归既是线性分类器(超平面决策边界), 又是概率模型(输出类别的概率)。 这是线性模型家族的重要特征。
6.3 多项式回归与岭回归
✅ 一、多项式回归(Polynomial Regression)
线性模型的核心假设是输入特征与输出呈线性关系。 但通过构造“非线性特征”,它也能处理非线性问题。
例如: [ y = w_0 + w_1 x + w_2 x^2 + w_3 x^3 + \ldots ]
实际上它仍然是线性模型,只是对“特征”线性,而非对“输入”线性。
这种做法体现了机器学习的核心思想:
“用非线性特征去弥补线性模型的不足。”
✅ 二、岭回归(Ridge Regression)
当特征之间存在高度相关(多重共线性)时,普通最小二乘解不稳定。 岭回归通过在损失函数中加入 L2 正则项进行约束:
[ L(w) = ||y - Xw||^2 + \lambda ||w||^2 ]
解析解为:
[ w^* = (X^T X + \lambda I)^{-1} X^T y ]
- 当 (\lambda = 0),退化为普通线性回归;
- 当 (\lambda) 较大,抑制权重震荡,提高泛化能力。
✅ 三、Lasso 与 Elastic Net
- Lasso(L1正则化):鼓励稀疏性,能自动实现特征选择;
- Elastic Net:结合 L1 + L2,兼顾平滑与稀疏。
6.4 判别式与生成式模型比较
✅ 一、两种学习范式
| 模型类型 | 目标 | 代表算法 | 核心思想 | |
|---|---|---|---|---|
| 判别式模型 (Discriminative) | 直接学习条件概率 (P(y | x)) 或决策边界 | 逻辑回归、SVM、神经网络 | 关注“如何区分” |
| 生成式模型 (Generative) | 学习联合分布 (P(x, y)) 并通过贝叶斯公式推断 | 朴素贝叶斯、LDA、高斯混合模型 | 关注“如何生成” |
✅ 二、比较分析
| 维度 | 判别式模型 | 生成式模型 |
|---|---|---|
| 目标 | 学分类边界 | 建模数据分布 |
| 表现 | 通常分类效果更好 | 样本少时鲁棒性强 |
| 可解释性 | 弱(黑箱) | 强(有生成过程) |
| 计算 | 训练更快 | 通常更复杂 |
| 典型模型 | Logistic Regression, SVM | Naive Bayes, GMM |
✅ 三、统一视角
逻辑回归与朴素贝叶斯,虽然看似不同,但在数学上可以看作同一问题的两种路径:
-
生成式路径:先学 (P(x y)),再用贝叶斯定理求 (P(y x)); -
判别式路径:直接学 (P(y x))。
这也是机器学习理论发展的一个缩影:
从“生成数据” → “区分数据” → “理解数据”。
总结
| 小节 | 核心思想 | 关键公式 / 方法 | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 6.1 线性回归 | 用超平面拟合连续输出 | ( \hat{y}=w^T x+b ) | ||||||||
| 6.2 逻辑回归 | 概率化的线性分类 | ( P(y=1 | x)=\sigma(w^T x+b) ) | |||||||
| 6.3 多项式与岭回归 | 用非线性特征或正则化提升泛化 | ( L= | y-Xw | ^2+\lambda | w | ^2 ) | ||||
| 6.4 判别式与生成式 | 两种建模范式 | 学 (P(y | x)) vs 学 (P(x,y)) |
