这一章标志着从传统机器学习走向深度学习时代的关键转折点，它聚焦于两大深度结构 —— CNN（卷积神经网络） 与 RNN（循环神经网络）/Transformer（注意力模型），它们分别代表了机器在“看图”和“理解序列”上的两条主线。

第17章　卷积与序列模型

17.1 CNN 的思想：局部感受野与权重共享

🔹 一、背景

传统的全连接神经网络在图像处理上效率极低，因为每个像素点都与所有神经元相连，导致参数量巨大、过拟合严重、计算成本极高。为了解决这一问题，卷积神经网络（Convolutional Neural Network, CNN）应运而生。

🔹 二、核心思想

CNN 模型灵感来自生物视觉皮层的感知机制，核心有两大关键思想：

局部感受野（Local Receptive Field）
- 每个神经元只“看”输入图像中的局部区域，而不是整个图像。
- 这使模型能捕捉局部特征（如边缘、角点、纹理等）。
权重共享（Weight Sharing）
- 同一卷积核（Filter）在整张图像上滑动，用相同的参数检测不同位置的同类特征。
- 大幅减少参数量，提高泛化能力。

🔹 三、典型结构

CNN 一般包含以下层级：

卷积层（Convolution Layer）：提取局部特征。
激活层（ReLU）：引入非线性。
池化层（Pooling Layer）：降维、增强平移不变性。
全连接层（Fully Connected Layer）：进行分类或回归。

🔹 四、代表模型

LeNet-5（1998）：最早的手写数字识别网络。
AlexNet（2012）：ImageNet 大赛冠军，标志深度学习复兴。
VGG、ResNet、Inception：多层结构与残差连接的典型代表。

🔹 五、意义

CNN 的诞生使得“特征工程”从人工设计转向自动学习，成为计算机视觉（CV）领域的核心基础。

17.2 RNN、LSTM、GRU 与序列依赖

🔹 一、为什么需要 RNN？

在 NLP、语音识别、时间序列预测等任务中，输入数据是有顺序的。

传统神经网络无法捕捉“时间上的依赖关系”，因此引入了循环神经网络（RNN）。

🔹 二、RNN 的核心机制

RNN 的关键思想是：

当前时刻的输出不仅依赖当前输入，还依赖上一个时刻的隐藏状态。

即： [ h_t = f(Wx_t + Uh_{t-1}) ] 这样，模型可以“记住”先前的信息，实现序列建模。

🔹 三、RNN 的问题：梯度消失/爆炸

由于反向传播要在时间维度上展开（BPTT），RNN 很容易出现长期依赖问题，导致训练不稳定。

🔹 四、改进模型

LSTM（Long Short-Term Memory）
- 通过“门机制”（输入门、遗忘门、输出门）控制信息流动。
- 能更好地捕捉长期依赖。
GRU（Gated Recurrent Unit）
- LSTM 的简化版本，减少参数，提高训练速度。

🔹 五、典型应用

语言模型（预测下一个词）
机器翻译
语音识别
股票预测、传感器序列分析等

🔹 六、意义

RNN 系列模型让神经网络从“静态感知”迈向“动态理解”，为后续 Transformer 奠定了思想基础。

17.3 注意力机制与 Transformer

🔹 一、RNN 的局限性

序列依赖导致计算难以并行；
远距离依赖仍然难以捕捉；
训练时间长。

🔹 二、注意力机制（Attention Mechanism）

灵感来源于人类的注意力：

在处理信息时，人类不会平均关注所有输入，而是会“聚焦”在关键部分。

核心公式： [ Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V ]

Q：查询向量（query）
K：键向量（key）
V：值向量（value）

这个机制允许模型在每个时间步动态选择“该关注的输入部分”。

🔹 三、Transformer 的崛起

2017年，Google 提出了 Transformer 结构（论文《Attention is All You Need》），完全抛弃循环结构，仅依靠注意力机制建模序列关系。

Transformer 的优势：

完全并行化（适合 GPU 加速）；
捕捉长距离依赖；
可扩展性极强。

核心组件：

多头注意力（Multi-Head Attention）：让模型从多个角度关注不同的关系。
位置编码（Positional Encoding）：保留序列顺序信息。
前馈网络（Feed Forward Layer）：在每个位置独立变换特征。

🔹 四、代表模型与应用

BERT（2018）：预训练语言模型，引发 NLP 革命。
GPT 系列：从生成式预训练到大语言模型（LLM）。
Vision Transformer（ViT）：将 Transformer 引入计算机视觉。
Time Series Transformer：用于序列预测与异常检测。

🔹 五、意义

Transformer 的出现标志着“统一的深度学习架构”时代。它打通了文本、图像、语音等不同模态的壁垒，成为当今 AI 的底层支撑结构。

📘 小结

模型类型	核心思想	代表模型	典型应用	意义
CNN	局部感受野 + 权重共享	LeNet, ResNet	图像分类、检测、识别	视觉革命
RNN	序列依赖 + 时间状态	LSTM, GRU	NLP、语音、时间序列	序列建模
Transformer	注意力 + 并行化	BERT, GPT, ViT	NLP、CV、语音、跨模态	统一架构

第17章　卷积与序列模型

第17章　卷积与序列模型卷积神经网络（Convolutional Neural Network, CNN）

第17章　卷积与序列模型

17.1 CNN 的思想：局部感受野与权重共享

🔹 一、背景

🔹 二、核心思想

🔹 三、典型结构

🔹 四、代表模型

🔹 五、意义

17.2 RNN、LSTM、GRU 与序列依赖

🔹 一、为什么需要 RNN？

🔹 二、RNN 的核心机制

🔹 三、RNN 的问题：梯度消失/爆炸

🔹 四、改进模型

🔹 五、典型应用

🔹 六、意义

17.3 注意力机制与 Transformer

🔹 一、RNN 的局限性

🔹 二、注意力机制（Attention Mechanism）

🔹 三、Transformer 的崛起

Transformer 的优势：

核心组件：

🔹 四、代表模型与应用

🔹 五、意义

📘 小结

更多学习

第17章 卷积与序列模型

17.1 CNN 的思想：局部感受野与权重共享

🔹 一、背景

🔹 二、核心思想

🔹 三、典型结构

🔹 四、代表模型

🔹 五、意义

17.2 RNN、LSTM、GRU 与序列依赖

🔹 一、为什么需要 RNN？

🔹 二、RNN 的核心机制

🔹 三、RNN 的问题：梯度消失/爆炸

🔹 四、改进模型

🔹 五、典型应用

🔹 六、意义

17.3 注意力机制与 Transformer

🔹 一、RNN 的局限性

🔹 二、注意力机制（Attention Mechanism）

🔹 三、Transformer 的崛起

Transformer 的优势：

核心组件：

🔹 四、代表模型与应用

🔹 五、意义

📘 小结

更多学习

第17章　卷积与序列模型