背景

chat

传统机器学习在各个领域的使用

好——下面给你一份尽可能全面、结构化、可落地的清单：除了 NLP 之外，各领域常见的经典问题、对应的传统/经典机器学习解决方案、常见特征工程方法、评估指标、实际注意点与典型工具/库。每一项都尽量给出：问题 → 典型方法 → 特征/流程 → 指标 → 实战提示。篇幅比较长，但我把结构固定了，方便你检索与复用；需要我把某个领域展开成更细的实战模板（数据格式、特征工程代码、超参建议、部署说明）告诉我就行。

目录（快速导航）

计算机视觉（CV）
时间序列 / 预测
推荐系统
异常检测 / 监控
金融风控与量化
医疗保健 / 生物信息学
制造业（工业预测与质量）
信号处理 / 传感器数据 / IoT
搜索与信息检索（IR）
语音/说话人识别（传统部分）
地理空间 / 遥感 / GIS
安全 / 入侵检测 / 反欺诈（非金融）
电子商务 / 市场营销 / 增长（Growth）
运营研究 / 物流 / 运输
法律 / 合规 / 合同自动化
教育技术（EdTech）
化学 / 材料 / 药物发现（化学信息学）
能源 / 电力预测与调度
社会网络分析 / 图数据问题
语义搜索 / 知识图谱支撑任务
通信网络质量与流量预测
游戏AI（传统策略/特征化玩法）
一些跨领域通用注意点（数据、解释、部署）

1. 计算机视觉（CV）

经典问题

图像分类（分类物体/场景）
目标检测（定位并标注边界框）
语义分割 / 实例分割
图像检索 / 相似图像检索
人脸识别 / 表情识别
OCR（光学字符识别）与版面分析
图像质量评估 / 异常检测（制造缺陷）

传统（深度前 / 结合特征）解决方案

特征提取：SIFT、SURF、HOG、LBP、颜色直方图、Gabor filter
经典分类器：SVM、随机森林、逻辑回归、KNN
对象检测：滑动窗口 + HOG + SVM（人脸/行人检测的 Viola-Jones / HOG+SVM）
图像检索：局部特征 + Bag-of-Visual-Words + TF-IDF + kNN检索
OCR：传统流水线（预处理→分割→字符识别：HMM/CRF/模板匹配）
特征融合：手工特征 + PCA 降维 + 经典分类器

常用特征/工程

多尺度边缘/纹理特征（HOG, LBP）
颜色空间处理（HSV、Lab）
局部不变特征（SIFT）
数据增强（翻转、旋转、裁剪、颜色扰动）

评估指标

分类：准确率、F1、混淆矩阵
检测：mAP（平均精度均值）、IoU
分割：mIoU、Dice

实战提示

小数据集优先用经典特征+SVM，避免过拟合。
特征工程（尺度、不变性）往往决定成败。
OCR 等任务常需强预处理（去噪、二值化、几何校正）。

2. 时间序列 / 预测

经典问题

单变量/多变量预测（销量、温度、电力负荷、流量）
趋势/季节性分解
异常检测（时间序列异常）
序列聚类 / 相似度检索
预测区间与不确定性估计

经典算法

统计方法：AR, MA, ARMA, ARIMA, SARIMA, ETS（指数平滑）
状态空间模型：Kalman Filter
传统 ML：线性回归、支持向量回归（SVR）、随机森林、GBDT（XGBoost/LightGBM）
特征型方法：滑动窗口 + 回归/树模型（把时间序列转成监督学习问题）
时间序列专用特征库：tsfresh（提取统计特征）

常见特征

滞后项（lag features）、滚动统计（mean、std、min/max）、差分（差分消除趋势）
周期性/节假日特征、温度/外部回归变量（exogenous）
时间组件（hour/day/week/month）、周期编码（sin/cos）

指标

MAE, RMSE, MAPE, SMAPE
覆盖率（预测区间）

实战提示

先做差分与季节性分析再选模型。
为小窗口预测，滑动窗口+GBDT效果往往好且易部署。
置信区间很重要（风控/供电类）。

3. 推荐系统

经典问题

协同过滤（用户-物品矩阵补全）
矩阵分解（隐因子模型）
基于内容的推荐（content-based）
混合推荐（混合召回 + 排序）
CTR 预测（点击率）

经典算法

协同过滤：基于用户的、基于物品的相似度（cosine、pearson）
矩阵分解（SVD, ALS）
因子分解机（FM）、广义 FM（FFM）
排序模型：LR、GBDT、RankSVM、LambdaMART（学习排序）
CTR：LR + 特征交叉、GBDT + LR（GBDT做特征交叉）、FM

常用特征/流水线

用户历史行为序列（浏览、点击、购买）
内容侧特征（文本/类别/属性）
时序特征（最近活跃时间）
上下文特征（设备、地理位置、时间）
召回（协同/内容/最近热度）→ 排序（学习到的模型）

指标

AUC、LogLoss（CTR）
Precision@K、Recall@K、NDCG
转化率（实际业务指标）

实战提示

冷启动问题：新用户/新物品 -> 内容侧 + 规则优先。
在线A/B测试是必须的（离线指标与线上不一致）。
特征稀疏度与高基数分类变量要做embedding或hashing trick。

4. 异常检测 / 监控

经典问题

单机或集群日志异常、设备故障、金融欺诈、医疗异常信号

经典算法

基于统计阈值（Z-score）
基于邻域：kNN、LOF（局部离群因子）
基于树：Isolation Forest
基于重建误差：PCA、Autoencoder（传统可用 PCA）
基于时间序列：季节性趋势剔除 + 阈值检测

特征

原始度量、滚动均值/方差、频域特征（FFT）
分箱/聚合（每分钟、每小时）统计特征

指标

Precision@k（高精度场景）、召回（要覆盖异常）
FPR（误报率）、Time-to-detect（检测延迟）

实战提示

异常标签往往稀少，半监督/无监督方法更常用。
业务上倾向更低误报还是更高召回需要权衡。
结合规则与ML提升可靠性。

5. 金融风控与量化

经典问题

信贷评分（信用评分）
欺诈检测（交易/设备/行为）
客户流失预测、违约预测
量化因子挖掘（因子模型）

经典算法

逻辑回归（LR）+ 分箱（WOE编码）是信贷领域的传统基石
GBDT（XGBoost/LightGBM）用于非线性建模
随机森林、SVM、异常检测算法（Isolation Forest）
Time-dependent survival analysis（风险建模）
特征选择/正则化（L1/L2）

特征与工程

历史行为特征（逾期次数、交易频次、交易金额分布）
WOE（Weight of Evidence）编码、IV（信息值）筛选变量
设备指纹、地理特征、时间窗口统计
反欺诈：序列特征、session-level 聚合、图特征（关联网络）

指标

AUC、KS（区分度）、精确率/召回（欺诈检测）
业务损失/利润（cost-sensitive）

实战提示

合规与可解释非常重要：LR + 分箱/WOE 更易通过监管审查。
样本不平衡（欺诈很少）需采样/加权或异常检测。
模型漂移：定期再训练 & 模型监控必不可少。

6. 医疗 / 生物信息学

经典问题

疾病风险预测、诊断辅助（基于结构化病历）
基因表达数据分类/分群
药物发现（QSAR：量化构效关系）
生物序列比对与注释

经典算法

逻辑回归、SVM、随机森林、GBDT（生物数据常用）
序列比对：BLAST（算法不是 ML，但常配合 ML 做下游）
CRF/HMM（序列标注）
聚类（例如：基因表达聚类）

特征

临床指标（血压、化验值）、时间序列的生命体征
基因/蛋白质序列的 k-mer 统计、physicochemical 特征
分子指纹（化学信息学中常用：Morgan fingerprints）

指标

AUC、sensitivity（灵敏度）、specificity（特异性）、F1
临床意义与可解释性优先于纯粹指标提升

实战提示

隐私合规（HIPAA 等）与数据保护至关重要。
医学问题常对假阳性/假阴性成本敏感，需与临床专家协同设定阈值。
小样本学习、迁移学习与基于规则的混合模型常见。

7. 制造业（预测维护 / 质量检测）

经典问题

设备预测性维护（Predictive Maintenance）
产品外观缺陷检测
过程控制与质量预测

经典算法

时间序列 + 回归（剩余寿命预测：RUL）
异常检测（Isolation Forest、LOF）
CV 经典特征+分类器用于缺陷（HOG、LBP + SVM）
多变量过程监控：PCA（监控主成分）、Hotelling’s T2

特征

传感器统计特征（均值、峰值、频域能量）
振动信号的频谱（FFT）特征
工艺参数与日志

指标

准确率/召回、维修提前量（提前多久预警）
设备停机时间 / 成本节约量

实战提示

传感器噪声要强预处理（滤波、去趋势）。
异常案例少时利用仿真数据 / 合成故障数据做增强。
结合规则（阈值）与 ML 提升可解释性与可靠性。

8. 信号处理 / 传感器数据 / IoT

经典问题

信号分类（例如 ECG、EEG）
事件检测（碰撞、异常震动）
多传感器融合与故障诊断

经典算法

时域/频域特征 + 传统分类器（SVM、RF）
小波变换 (Wavelet) 提取多尺度特征
统计滤波（卡尔曼滤波）用于平滑/融合集成

特征

能量、频带能量、极大值、零交叉率、熵
时频图（短时傅里叶变换）统计

指标

F1、召回（关键事件要少漏报）
延迟（实时性）

实战提示

采样率、同步和数据丢包是工程常见痛点。
在线处理要求计算成本低，常用轻量化模型或阈值规则。

9. 搜索与信息检索（IR）

经典问题

文档检索（相关性排序）
查询理解（query intent classification）
自动摘要 / snippet 提取

经典算法

倒排索引 + BM25（检索阶段）
排序学习：RankSVM、LambdaMART、GBDT-based rankers
Query expansion（查询扩展）+ TF-IDF / BM25

特征

文档-查询匹配特征（词重合、BM25分数、TF-IDF相似度）
点击行为（点击率、停留时间）做为反馈信号

指标

MAP、NDCG、MRR、点击率（线上指标）

实战提示

召回阶段侧重覆盖，排序阶段用学习到的模型优化排序。
冷启动与长尾文档需靠内容特征填补。

10. 语音 / 说话人识别（传统部分）

经典问题

语音活动检测（VAD）
说话人识别 / 验证
语音命令识别（小词汇）

经典算法

特征：MFCC、PLP、声谱图统计
模型：GMM-UBM、i-vector + PLDA（早期说话人识别）
传统 ASR：声学模型（HMM）+ GMM 或 GMM-HMM + 解码器

指标

WER（词错误率）、EER（等错误率，speaker verification）

实战提示

特征预处理（端点检测、去噪）决定上层效果。
说话人识别往往结合声纹和行为特征。

11. 地理空间 / 遥感 / GIS

经典问题

土地覆盖分类（遥感影像）
目标检测（例如船只检测）
时空变化检测（变化检测）

经典方法

光谱特征 + 机器学习分类器（SVM、RF）
多光谱/高光谱特征提取（NDVI、纹理）
物体检测：滑动窗口 + 手工特征或传统模板匹配

特征

光谱指数（NDVI、NDWI）、纹理统计
多时相对比特征（变化率）

指标

精度（OA）、Kappa系数、分类召回/精度

实战提示

大气校正与投影一致性重要。
不同传感器数据需要对齐（分辨率/波段）。

12. 安全 / 入侵检测 / 反欺诈（非金融）

经典问题

网络入侵检测（NIDS）
恶意软件检测
账号滥用检测

经典算法

特征汇总（流量统计、包特征）+ 随机森林、SVM
行为序列异常检测（HMM、LOF）
静态/动态恶意软件特征 + 分类器

指标

Precision、Recall、ROC、检测延迟

实战提示

数据高维且稀疏，特征选择与降维重要。
对抗样本（攻击者会适配模型）需关注鲁棒性。

13. 电子商务 / 市场营销 / 增长（Growth）

经典问题

用户画像 / 分群
转化率预测（Conversion）
活跃度 / 流失预测（Churn）
LTV（用户生命周期价值）建模

经典算法

分类器（LR、GBDT）做转化/流失预测
聚类（KMeans、层次聚类）做分群
生存分析 / 回归做 LTV

特征

行为序列（最近次数、平均间隔）
促销曝光、渠道来源
人口统计特征 + 交叉特征

指标

AUC、Lift、Retention rate、ARPU（每用户平均收入）

实战提示

实验平台（A/B）和因果思维很重要：不是所有提升都是因果。
特征时效性（近因优先）通常比长期行为更有预测力。

14. 运营研究 / 物流 / 运输

经典问题

需求预测（运力/订单量）
路径规划、车队调度（VRP）
ETA（预计到达时间）预测

经典方法

预测：时间序列 + 回归 / GBDT
VRP：启发式算法（遗传、模拟退火、局部搜索） + 约束优化
ETA：序列/回归 + 距离/路况特征

指标

准确率（预测）、配送成本、准时率

实战提示

混合运筹学 + ML 常是最优解（例如预测需求后用运筹算法调度）。
约束（车辆容量、法规）必须在模型输出后再约束化处理。

15. 法律 / 合同自动化

经典问题

合同关键字段抽取（实体识别）
合同相似度 / 合同检索
条款分类/合规检测

经典方法

信息抽取：CRF、规则+ML混合
文档匹配：TF-IDF/BM25 + 相似度/分类器
多标签分类（合同条款）

指标

精准率/召回、字段提取的 F1

实战提示

法律文本语言严谨，常结合规则与 ML。
少量标注时用规则补充或弱监督（distant supervision）。

16. 教育技术（EdTech）

经典问题

学习者能力估计（能力评分）
题目难度与区分度建模（IRT）
推荐学习路径、预测掉队

经典方法

IRT（Item Response Theory）模型
分类/回归预测是否答对（LR、GBDT）
聚类学生行为并做个性化推荐

指标

预测准确率、学习效果提升（业务端指标）

实战提示

教育应用强调可解释（为什么学生错了）。
干预实验（教学A/B）配合模型评估效果。

17. 化学 / 材料 / 药物发现（化学信息学）

经典问题

分子活性预测（QSAR）
毒性预测、ADMET
材料性质预测

经典方法

分子指纹（Morgan/ECFP）+ 随机森林/GBDT/SVM
回归与分类任务（活性/毒性）
聚类/相似性搜索（库筛选）

特征

分子指纹、拓扑/几何描述符、电子属性

指标

AUC、ROC、RMSE（回归）

实战提示

数据噪声大且标签昂贵，合成数据/迁移学习可用。
可解释性帮助化学家理解结构-活性关系。

18. 能源 / 电力

经典问题

负荷预测（短期/中期）
可再生发电预测（风/光）
故障检测与维护

经典方法

时间序列模型（ARIMA、ETS）、GBDT、回归模型
特征：天气、历史负荷、节假日、温度

指标

RMSE、MAPE、响应时延

实战提示

强季节性与外部变量（气象）依赖性强。
置信区间用于调度安全缓冲。

19. 社会网络 / 图数据（network）

经典问题

节点分类、社区发现、链接预测、影响力最大化

经典方法

统计特征（度、聚类系数、PageRank）+ 传统分类器
图聚类（谱聚类、Louvain）
链接预测：基于相似度（共邻居、Adamic-Adar）+ ML

指标

AUC（链接预测）、模块化（community quality）

实战提示

隐私和去标识化在社交网络特别重要。
图特征（结构化）和行为特征结合更强。

20. 语义搜索 / 知识图谱支撑任务

经典问题

实体对齐、关系抽取、属性补全 经典方法
关系抽取：规则+CRF/SVM
实体匹配：字符串相似度 + 特征化分类器
知识推理：统计规则、路径特征用作分类器输入

实战提示

复杂企业知识库常采用“人工标注种子 + 自动扩展”的混合流程。

21. 通信网络质量与流量预测

经典问题

流量预测、故障预测、QoS预测 经典方法
时间序列 + 回归、异常检测、聚类 实战提示
实时性和低延迟要求高；轻量模型优先。

22. 游戏 AI（传统策略/特征化玩法）

经典问题

玩家行为建模、作弊检测、匹配分配、经典 bot 策略 经典方法
行为分群、胜率预测（回归/分类）、强化学习的浅层变体（策略树、规则学习） 实战提示
游戏偏好与外部时序强相关，需做时序特征。

23. 跨领域通用注意点（数据、解释、部署）

数据层面

数据质量比模型更重要：缺失、偏差、标签噪声需优先处理。
标注成本高时考虑弱监督、半监督、数据编排（active learning）。

模型层面

可解释性 vs 性能 trade-off：金融/医疗优先解释性（LR、决策树）。
样本不平衡：采样、成本敏感学习、阈值移动。

评估层面

离线指标只能作为参考，线上实验（A/B）是最终检验。
业务指标（ROI、成本）应和 ML 指标结合考量。

部署/工程

模型监控（数据漂移、性能下降）必备。
实时性需求决定模型复杂度（在线轻量模型 vs 离线重模型）。
隐私合规、审计日志与可回溯性在生产系统中是硬需求。

工具/生态（常见）

通用：scikit-learn、pandas、numpy
树模型：XGBoost、LightGBM、CatBoost
时间序列：statsmodels、prophet（Facebook/Meta 的 Prophet 较常用）、tsfresh
图/网络分析：networkx、igraph
信号/CV：OpenCV、scipy.signal

最后一点 — 如何把这张清单变成“可执行”方案？

我可以给你三种后续产出，任选一种或多个：

把某个具体领域（例如：制造业预测维护、金融风控、推荐系统）展开成一份可执行的项目模板：数据格式、特征清单、baseline 代码、评估套件、部署建议。
输出一张大表格（CSV/Excel），每一行是一项“领域-问题-算法-特征-指标-工具”，便于直接导入到项目管理工具。
为你做一个决策树：给定你的数据规模、标签有无、是否需要可解释性、所能使用的算力，自动推荐模型与工程方案。

背景
chat
- 传统机器学习在各个领域的使用
目录（快速导航）
1. 计算机视觉（CV）
2. 时间序列 / 预测
3. 推荐系统
4. 异常检测 / 监控
5. 金融风控与量化
6. 医疗 / 生物信息学
7. 制造业（预测维护 / 质量检测）
8. 信号处理 / 传感器数据 / IoT
9. 搜索与信息检索（IR）
10. 语音 / 说话人识别（传统部分）
11. 地理空间 / 遥感 / GIS
12. 安全 / 入侵检测 / 反欺诈（非金融）
13. 电子商务 / 市场营销 / 增长（Growth）
14. 运营研究 / 物流 / 运输
15. 法律 / 合同自动化
16. 教育技术（EdTech）
17. 化学 / 材料 / 药物发现（化学信息学）
18. 能源 / 电力
19. 社会网络 / 图数据（network）
20. 语义搜索 / 知识图谱支撑任务
21. 通信网络质量与流量预测
22. 游戏 AI（传统策略/特征化玩法）
23. 跨领域通用注意点（数据、解释、部署）
最后一点 — 如何把这张清单变成“可执行”方案？

dive-into-llms-21-传统机器学习在各个领域的使用

背景

chat

传统机器学习在各个领域的使用

目录（快速导航）

1. 计算机视觉（CV）

2. 时间序列 / 预测

3. 推荐系统

4. 异常检测 / 监控

5. 金融风控与量化

6. 医疗 / 生物信息学

7. 制造业（预测维护 / 质量检测）

8. 信号处理 / 传感器数据 / IoT

9. 搜索与信息检索（IR）

10. 语音 / 说话人识别（传统部分）

11. 地理空间 / 遥感 / GIS

12. 安全 / 入侵检测 / 反欺诈（非金融）

13. 电子商务 / 市场营销 / 增长（Growth）

14. 运营研究 / 物流 / 运输

15. 法律 / 合同自动化

16. 教育技术（EdTech）

17. 化学 / 材料 / 药物发现（化学信息学）

18. 能源 / 电力

19. 社会网络 / 图数据（network）

20. 语义搜索 / 知识图谱支撑任务

21. 通信网络质量与流量预测

22. 游戏 AI（传统策略/特征化玩法）

23. 跨领域通用注意点（数据、解释、部署）

最后一点 — 如何把这张清单变成“可执行”方案？

更多学习