个人简介

Echo Blog


江湖无名 安心练剑
  • 第13章 NLP 领域的机器学习实践
    第13章 NLP 领域的机器学习实践 第 13 章「NLP 领域的机器学习实践」是整个机器学习体系中最具代表性的实战篇章之一。 自然语言处理(Natural Language Processing, NLP)是机器学习在真实世界中最早、也最广泛的落地场景之一。 本章将从数据预处理、表示方法到经典任务与模型,系统地讲解传统机器学习如何“理解文字”。 第13章 NLP 领域的机器学习实践...
    2025-11-03 12:40:12 | AI
  • 第12章 模型评估与调优
    第12章 模型评估与调优 再好的算法,也需要科学的评估与精细的调优。 机器学习模型不是一劳永逸的“公式”,而是一个需要不断验证、优化、取舍的系统。 本章将系统介绍:如何评价模型好坏、如何合理分配数据、如何找到最优参数组合,以及如何理解模型的“可靠性”。 12.1 交叉验证与数据划分策略 🎯 1. 为什么要划分数据? 机器学习的核心是“从已知数据学习规律,以预测未知数据”。 如果用...
    2025-11-03 12:40:12 | AI
  • 第11章 特征工程与数据处理
    第11章 特征工程与数据处理 机器学习的成败,往往不在模型复杂度,而在于数据质量与特征表达能力。 这一章聚焦于如何「让模型看懂数据」,从特征提取、选择、编码到特征交互与自动化管理,系统解析特征工程的全流程。 11.1 特征提取、选择与编码 🧱 1. 特征提取(Feature Extraction) 目标: 将原始数据(文本、图像、日志、信号等)转化为机器可理解的数值表示。 典...
    2025-11-03 12:40:12 | AI
  • 第10章 无监督学习与聚类(Unsupervised Learning & Clustering)
    第10章 无监督学习与聚类 10.1 K-Means 与高维空间的挑战 (1)核心思想 K-Means 是最经典的无监督学习算法之一。它通过 最小化簇内样本的平方误差,将数据划分为 K 个相对紧密的簇。 其优化目标函数为: [ J = \sum_{i=1}^{K} \sum_{x_j \in C_i} ||x_j - \mu_i||^2 ] 其中: (C_i):第 i 个...
    2025-11-03 12:40:12 | AI
  • 第9章 概率模型与统计学习
    第9章 概率模型与统计学习 9.1 朴素贝叶斯(Naive Bayes) (1)核心思想 朴素贝叶斯是一种基于 贝叶斯定理(Bayes’ theorem) 和 特征条件独立假设 的概率分类方法。 贝叶斯定理: [ P(y|x) = \frac{P(x|y)P(y)}{P(x)} ] 其中: (P(y)):先验概率(类别的总体概率); ...
    2025-11-03 12:40:12 | AI
  • 第8章 决策树与集成学习
    第8章 决策树与集成学习 8.1 决策树构建原理(ID3、C4.5、CART) (1)核心思想 决策树(Decision Tree)是一种 基于规则的监督学习方法。 它通过在特征空间中 逐步划分样本,最终形成一个 树状结构 来进行分类或回归。 每个内部节点表示一个“特征判定条件”,每个叶子节点对应一个“类别”或“预测值”。 直观理解: 就像人类判断事物一样,“如果温度高→再看...
    2025-11-03 12:40:12 | AI
  • 第7章 基于距离与相似度的方法
    第7章 基于距离与相似度的方法 在机器学习的世界里,有一类算法不依赖复杂的参数学习过程,而是通过“比较样本间的相似性”来进行预测。 这种思想源于人类的直觉学习方式——我们看到一个新事物时,会下意识地问: “它像不像我见过的某个东西?” 这类方法的代表是 k-近邻算法(K-Nearest Neighbors, KNN)。 它是“基于实例”的学习(Instance-based Le...
    2025-11-03 12:40:12 | AI
  • 第6章 线性模型家族
    第6章 线性模型家族 线性模型是机器学习中最早、最经典、也是最具代表性的算法家族。 几乎所有复杂模型(包括神经网络)在本质上都可以看作“非线性的线性组合”。 线性模型的魅力在于: 简单而强大 —— 可以解释、可计算、可扩展; 理论完备 —— 有清晰的概率解释和几何意义; 实用性极高 —— 仍被广泛用于工业界的特征工程、基线模型和可解释建模。 6.1 线性回归 ...
    2025-11-03 12:40:12 | AI