第6章　线性模型家族

线性模型是机器学习中最早、最经典、也是最具代表性的算法家族。

几乎所有复杂模型（包括神经网络）在本质上都可以看作“非线性的线性组合”。

线性模型的魅力在于：

简单而强大 —— 可以解释、可计算、可扩展；
理论完备 —— 有清晰的概率解释和几何意义；
实用性极高 —— 仍被广泛用于工业界的特征工程、基线模型和可解释建模。

6.1 线性回归

✅ 一、问题定义

线性回归（Linear Regression）用于解决连续值预测问题。其假设是：输出 (y) 与输入特征 (x) 之间呈线性关系：

[ \hat{y} = w^T x + b ]

其中：

(x = (x_1, x_2, …, x_n))：输入特征向量
(w = (w_1, w_2, …, w_n))：权重参数
(b)：偏置项（bias）

✅ 二、目标函数

为了让模型预测值 (\hat{y}) 尽可能接近真实值 (y)，最常用的损失函数是 均方误差（MSE）：

[ L(w,b) = \frac{1}{N} \sum_{i=1}^{N} (y_i - (w^T x_i + b))^2 ]

✅ 三、解析解（Normal Equation）

当特征维度不太高时，可以直接通过矩阵求导获得最优参数：

[ w^* = (X^T X)^{-1} X^T y ]

其中 (X) 是特征矩阵，(y) 是目标向量。这种闭式解（Closed Form）虽然简单，但在高维或大数据集上会导致计算瓶颈，因此实践中常用 梯度下降（GD / SGD）。

✅ 四、几何与统计解释

几何视角：线性回归相当于在高维空间中找到一个最贴近样本点的超平面。
统计视角：线性回归假设误差项服从高斯分布，等价于最大似然估计（MLE）。

✅ 五、优缺点

✅ 优点：

可解释性强；
计算效率高；
在噪声小、线性关系明显时表现好。

❌ 缺点：

无法建模非线性关系；
对异常值敏感；
可能发生多重共线性（特征相关）。

6.2 逻辑回归与分类边界

✅ 一、从回归到分类的跨越

逻辑回归（Logistic Regression）用于二分类任务。虽然名字里有“回归”，但本质上是一个分类模型。

✅ 二、模型假设

我们希望预测样本属于正类（y=1）的概率：

[ P(y=1|x) = \sigma(w^T x + b) ]

其中 (\sigma(z)) 是 Sigmoid 函数：

[ \sigma(z) = \frac{1}{1 + e^{-z}} ]

它将线性输出 (w^T x + b) 压缩到 (0, 1) 区间。

✅ 三、决策边界

分类边界由方程 (w^T x + b = 0) 决定。几何上，这是一个将样本空间划分为两部分的超平面。

(w)：决定超平面的方向；
(b)：决定平面的位置。

✅ 四、损失函数：对数似然

逻辑回归通过极大化样本出现的对数似然来训练：

[ L(w) = \sum_i [y_i \log p_i + (1 - y_i) \log(1 - p_i)] ]

通常优化其负数（即交叉熵损失）：

[ \text{Loss} = -\frac{1}{N}\sum_i [y_i \log \hat{y}_i + (1 - y_i)\log(1 - \hat{y}_i)] ]

✅ 五、多分类扩展

一对多 (OvR)：训练多个二分类器，每次区分“某一类 vs 其他类”；
Softmax 回归：广义逻辑回归，使用 Softmax 函数输出多类概率：

[ P(y=k|x) = \frac{e^{w_k^T x}}{\sum_j e^{w_j^T x}} ]

✅ 六、概率与几何统一视角

逻辑回归既是线性分类器（超平面决策边界），又是概率模型（输出类别的概率）。这是线性模型家族的重要特征。

6.3 多项式回归与岭回归

✅ 一、多项式回归（Polynomial Regression）

线性模型的核心假设是输入特征与输出呈线性关系。但通过构造“非线性特征”，它也能处理非线性问题。

例如： [ y = w_0 + w_1 x + w_2 x^2 + w_3 x^3 + \ldots ]

实际上它仍然是线性模型，只是对“特征”线性，而非对“输入”线性。

这种做法体现了机器学习的核心思想：

“用非线性特征去弥补线性模型的不足。”

✅ 二、岭回归（Ridge Regression）

当特征之间存在高度相关（多重共线性）时，普通最小二乘解不稳定。岭回归通过在损失函数中加入 L2 正则项进行约束：

[ L(w) = ||y - Xw||^2 + \lambda ||w||^2 ]

解析解为：

[ w^* = (X^T X + \lambda I)^{-1} X^T y ]

当 (\lambda = 0)，退化为普通线性回归；
当 (\lambda) 较大，抑制权重震荡，提高泛化能力。

✅ 三、Lasso 与 Elastic Net

Lasso（L1正则化）：鼓励稀疏性，能自动实现特征选择；
Elastic Net：结合 L1 + L2，兼顾平滑与稀疏。

6.4 判别式与生成式模型比较

✅ 一、两种学习范式

模型类型	目标	代表算法	核心思想
判别式模型 (Discriminative)	直接学习条件概率 (P(y	x)) 或决策边界	逻辑回归、SVM、神经网络	关注“如何区分”
生成式模型 (Generative)	学习联合分布 (P(x, y)) 并通过贝叶斯公式推断	朴素贝叶斯、LDA、高斯混合模型	关注“如何生成”

✅ 二、比较分析

维度	判别式模型	生成式模型
目标	学分类边界	建模数据分布
表现	通常分类效果更好	样本少时鲁棒性强
可解释性	弱（黑箱）	强（有生成过程）
计算	训练更快	通常更复杂
典型模型	Logistic Regression, SVM	Naive Bayes, GMM

✅ 三、统一视角

逻辑回归与朴素贝叶斯，虽然看似不同，但在数学上可以看作同一问题的两种路径：

生成式路径：先学 (P(x y))，再用贝叶斯定理求 (P(y x))；
判别式路径：直接学 (P(y x))。

这也是机器学习理论发展的一个缩影：

从“生成数据” → “区分数据” → “理解数据”。

总结

小节	核心思想	关键公式 / 方法
6.1 线性回归	用超平面拟合连续输出	( \hat{y}=w^T x+b )
6.2 逻辑回归	概率化的线性分类	( P(y=1	x)=\sigma(w^T x+b) )
6.3 多项式与岭回归	用非线性特征或正则化提升泛化	( L=		y-Xw	^2+\lambda	w	^2 )
6.4 判别式与生成式	两种建模范式	学 (P(y	x)) vs 学 (P(x,y))

第6章　线性模型家族