-
第13章 NLP 领域的机器学习实践
第13章 NLP 领域的机器学习实践
第 13 章「NLP 领域的机器学习实践」是整个机器学习体系中最具代表性的实战篇章之一。
自然语言处理(Natural Language Processing, NLP)是机器学习在真实世界中最早、也最广泛的落地场景之一。
本章将从数据预处理、表示方法到经典任务与模型,系统地讲解传统机器学习如何“理解文字”。
第13章 NLP 领域的机器学习实践...
2025-11-03 12:40:12 |
AI
-
第12章 模型评估与调优
第12章 模型评估与调优
再好的算法,也需要科学的评估与精细的调优。
机器学习模型不是一劳永逸的“公式”,而是一个需要不断验证、优化、取舍的系统。
本章将系统介绍:如何评价模型好坏、如何合理分配数据、如何找到最优参数组合,以及如何理解模型的“可靠性”。
12.1 交叉验证与数据划分策略
🎯 1. 为什么要划分数据?
机器学习的核心是“从已知数据学习规律,以预测未知数据”。
如果用...
2025-11-03 12:40:12 |
AI
-
第11章 特征工程与数据处理
第11章 特征工程与数据处理
机器学习的成败,往往不在模型复杂度,而在于数据质量与特征表达能力。
这一章聚焦于如何「让模型看懂数据」,从特征提取、选择、编码到特征交互与自动化管理,系统解析特征工程的全流程。
11.1 特征提取、选择与编码
🧱 1. 特征提取(Feature Extraction)
目标: 将原始数据(文本、图像、日志、信号等)转化为机器可理解的数值表示。
典...
2025-11-03 12:40:12 |
AI
-
第10章 无监督学习与聚类(Unsupervised Learning & Clustering)
第10章 无监督学习与聚类
10.1 K-Means 与高维空间的挑战
(1)核心思想
K-Means 是最经典的无监督学习算法之一。它通过 最小化簇内样本的平方误差,将数据划分为 K 个相对紧密的簇。
其优化目标函数为:
[
J = \sum_{i=1}^{K} \sum_{x_j \in C_i} ||x_j - \mu_i||^2
]
其中:
(C_i):第 i 个...
2025-11-03 12:40:12 |
AI
-
第9章 概率模型与统计学习
第9章 概率模型与统计学习
9.1 朴素贝叶斯(Naive Bayes)
(1)核心思想
朴素贝叶斯是一种基于 贝叶斯定理(Bayes’ theorem) 和 特征条件独立假设 的概率分类方法。
贝叶斯定理:
[
P(y|x) = \frac{P(x|y)P(y)}{P(x)}
]
其中:
(P(y)):先验概率(类别的总体概率);
...
2025-11-03 12:40:12 |
AI
-
第8章 决策树与集成学习
第8章 决策树与集成学习
8.1 决策树构建原理(ID3、C4.5、CART)
(1)核心思想
决策树(Decision Tree)是一种 基于规则的监督学习方法。
它通过在特征空间中 逐步划分样本,最终形成一个 树状结构 来进行分类或回归。
每个内部节点表示一个“特征判定条件”,每个叶子节点对应一个“类别”或“预测值”。
直观理解:
就像人类判断事物一样,“如果温度高→再看...
2025-11-03 12:40:12 |
AI
-
第7章 基于距离与相似度的方法
第7章 基于距离与相似度的方法
在机器学习的世界里,有一类算法不依赖复杂的参数学习过程,而是通过“比较样本间的相似性”来进行预测。
这种思想源于人类的直觉学习方式——我们看到一个新事物时,会下意识地问:
“它像不像我见过的某个东西?”
这类方法的代表是 k-近邻算法(K-Nearest Neighbors, KNN)。
它是“基于实例”的学习(Instance-based Le...
2025-11-03 12:40:12 |
AI
-
第6章 线性模型家族
第6章 线性模型家族
线性模型是机器学习中最早、最经典、也是最具代表性的算法家族。
几乎所有复杂模型(包括神经网络)在本质上都可以看作“非线性的线性组合”。
线性模型的魅力在于:
简单而强大 —— 可以解释、可计算、可扩展;
理论完备 —— 有清晰的概率解释和几何意义;
实用性极高 —— 仍被广泛用于工业界的特征工程、基线模型和可解释建模。
6.1 线性回归
...
2025-11-03 12:40:12 |
AI