背景

chat

传统机器学习在各个领域的使用

好——下面给你一份尽可能全面、结构化、可落地的清单:除了 NLP 之外,各领域常见的经典问题、对应的传统/经典机器学习解决方案、常见特征工程方法、评估指标、实际注意点与典型工具/库。每一项都尽量给出:问题 → 典型方法 → 特征/流程 → 指标 → 实战提示。篇幅比较长,但我把结构固定了,方便你检索与复用;需要我把某个领域展开成更细的实战模板(数据格式、特征工程代码、超参建议、部署说明)告诉我就行。

目录(快速导航)

  1. 计算机视觉(CV)
  2. 时间序列 / 预测
  3. 推荐系统
  4. 异常检测 / 监控
  5. 金融风控与量化
  6. 医疗保健 / 生物信息学
  7. 制造业(工业预测与质量)
  8. 信号处理 / 传感器数据 / IoT
  9. 搜索与信息检索(IR)
  10. 语音/说话人识别(传统部分)
  11. 地理空间 / 遥感 / GIS
  12. 安全 / 入侵检测 / 反欺诈(非金融)
  13. 电子商务 / 市场营销 / 增长(Growth)
  14. 运营研究 / 物流 / 运输
  15. 法律 / 合规 / 合同自动化
  16. 教育技术(EdTech)
  17. 化学 / 材料 / 药物发现(化学信息学)
  18. 能源 / 电力预测与调度
  19. 社会网络分析 / 图数据问题
  20. 语义搜索 / 知识图谱支撑任务
  21. 通信网络质量与流量预测
  22. 游戏AI(传统策略/特征化玩法)
  23. 一些跨领域通用注意点(数据、解释、部署)

1. 计算机视觉(CV)

经典问题

  • 图像分类(分类物体/场景)
  • 目标检测(定位并标注边界框)
  • 语义分割 / 实例分割
  • 图像检索 / 相似图像检索
  • 人脸识别 / 表情识别
  • OCR(光学字符识别)与版面分析
  • 图像质量评估 / 异常检测(制造缺陷)

传统(深度前 / 结合特征)解决方案

  • 特征提取:SIFT、SURF、HOG、LBP、颜色直方图、Gabor filter
  • 经典分类器:SVM、随机森林、逻辑回归、KNN
  • 对象检测:滑动窗口 + HOG + SVM(人脸/行人检测的 Viola-Jones / HOG+SVM)
  • 图像检索:局部特征 + Bag-of-Visual-Words + TF-IDF + kNN检索
  • OCR:传统流水线(预处理→分割→字符识别:HMM/CRF/模板匹配)
  • 特征融合:手工特征 + PCA 降维 + 经典分类器

常用特征/工程

  • 多尺度边缘/纹理特征(HOG, LBP)
  • 颜色空间处理(HSV、Lab)
  • 局部不变特征(SIFT)
  • 数据增强(翻转、旋转、裁剪、颜色扰动)

评估指标

  • 分类:准确率、F1、混淆矩阵
  • 检测:mAP(平均精度均值)、IoU
  • 分割:mIoU、Dice

实战提示

  • 小数据集优先用经典特征+SVM,避免过拟合。
  • 特征工程(尺度、不变性)往往决定成败。
  • OCR 等任务常需强预处理(去噪、二值化、几何校正)。

2. 时间序列 / 预测

经典问题

  • 单变量/多变量预测(销量、温度、电力负荷、流量)
  • 趋势/季节性分解
  • 异常检测(时间序列异常)
  • 序列聚类 / 相似度检索
  • 预测区间与不确定性估计

经典算法

  • 统计方法:AR, MA, ARMA, ARIMA, SARIMA, ETS(指数平滑)
  • 状态空间模型:Kalman Filter
  • 传统 ML:线性回归、支持向量回归(SVR)、随机森林、GBDT(XGBoost/LightGBM)
  • 特征型方法:滑动窗口 + 回归/树模型(把时间序列转成监督学习问题)
  • 时间序列专用特征库:tsfresh(提取统计特征)

常见特征

  • 滞后项(lag features)、滚动统计(mean、std、min/max)、差分(差分消除趋势)
  • 周期性/节假日特征、温度/外部回归变量(exogenous)
  • 时间组件(hour/day/week/month)、周期编码(sin/cos)

指标

  • MAE, RMSE, MAPE, SMAPE
  • 覆盖率(预测区间)

实战提示

  • 先做差分与季节性分析再选模型。
  • 为小窗口预测,滑动窗口+GBDT效果往往好且易部署。
  • 置信区间很重要(风控/供电类)。

3. 推荐系统

经典问题

  • 协同过滤(用户-物品矩阵补全)
  • 矩阵分解(隐因子模型)
  • 基于内容的推荐(content-based)
  • 混合推荐(混合召回 + 排序)
  • CTR 预测(点击率)

经典算法

  • 协同过滤:基于用户的、基于物品的相似度(cosine、pearson)
  • 矩阵分解(SVD, ALS)
  • 因子分解机(FM)、广义 FM(FFM)
  • 排序模型:LR、GBDT、RankSVM、LambdaMART(学习排序)
  • CTR:LR + 特征交叉、GBDT + LR(GBDT做特征交叉)、FM

常用特征/流水线

  • 用户历史行为序列(浏览、点击、购买)
  • 内容侧特征(文本/类别/属性)
  • 时序特征(最近活跃时间)
  • 上下文特征(设备、地理位置、时间)
  • 召回(协同/内容/最近热度)→ 排序(学习到的模型)

指标

  • AUC、LogLoss(CTR)
  • Precision@K、Recall@K、NDCG
  • 转化率(实际业务指标)

实战提示

  • 冷启动问题:新用户/新物品 -> 内容侧 + 规则优先。
  • 在线A/B测试是必须的(离线指标与线上不一致)。
  • 特征稀疏度与高基数分类变量要做embedding或hashing trick。

4. 异常检测 / 监控

经典问题

  • 单机或集群日志异常、设备故障、金融欺诈、医疗异常信号

经典算法

  • 基于统计阈值(Z-score)
  • 基于邻域:kNN、LOF(局部离群因子)
  • 基于树:Isolation Forest
  • 基于重建误差:PCA、Autoencoder(传统可用 PCA)
  • 基于时间序列:季节性趋势剔除 + 阈值检测

特征

  • 原始度量、滚动均值/方差、频域特征(FFT)
  • 分箱/聚合(每分钟、每小时)统计特征

指标

  • Precision@k(高精度场景)、召回(要覆盖异常)
  • FPR(误报率)、Time-to-detect(检测延迟)

实战提示

  • 异常标签往往稀少,半监督/无监督方法更常用。
  • 业务上倾向更低误报还是更高召回需要权衡。
  • 结合规则与ML提升可靠性。

5. 金融风控与量化

经典问题

  • 信贷评分(信用评分)
  • 欺诈检测(交易/设备/行为)
  • 客户流失预测、违约预测
  • 量化因子挖掘(因子模型)

经典算法

  • 逻辑回归(LR)+ 分箱(WOE编码)是信贷领域的传统基石
  • GBDT(XGBoost/LightGBM)用于非线性建模
  • 随机森林、SVM、异常检测算法(Isolation Forest)
  • Time-dependent survival analysis(风险建模)
  • 特征选择/正则化(L1/L2)

特征与工程

  • 历史行为特征(逾期次数、交易频次、交易金额分布)
  • WOE(Weight of Evidence)编码、IV(信息值)筛选变量
  • 设备指纹、地理特征、时间窗口统计
  • 反欺诈:序列特征、session-level 聚合、图特征(关联网络)

指标

  • AUC、KS(区分度)、精确率/召回(欺诈检测)
  • 业务损失/利润(cost-sensitive)

实战提示

  • 合规与可解释非常重要:LR + 分箱/WOE 更易通过监管审查。
  • 样本不平衡(欺诈很少)需采样/加权或异常检测。
  • 模型漂移:定期再训练 & 模型监控必不可少。

6. 医疗 / 生物信息学

经典问题

  • 疾病风险预测、诊断辅助(基于结构化病历)
  • 基因表达数据分类/分群
  • 药物发现(QSAR:量化构效关系)
  • 生物序列比对与注释

经典算法

  • 逻辑回归、SVM、随机森林、GBDT(生物数据常用)
  • 序列比对:BLAST(算法不是 ML,但常配合 ML 做下游)
  • CRF/HMM(序列标注)
  • 聚类(例如:基因表达聚类)

特征

  • 临床指标(血压、化验值)、时间序列的生命体征
  • 基因/蛋白质序列的 k-mer 统计、physicochemical 特征
  • 分子指纹(化学信息学中常用:Morgan fingerprints)

指标

  • AUC、sensitivity(灵敏度)、specificity(特异性)、F1
  • 临床意义与可解释性优先于纯粹指标提升

实战提示

  • 隐私合规(HIPAA 等)与数据保护至关重要。
  • 医学问题常对假阳性/假阴性成本敏感,需与临床专家协同设定阈值。
  • 小样本学习、迁移学习与基于规则的混合模型常见。

7. 制造业(预测维护 / 质量检测)

经典问题

  • 设备预测性维护(Predictive Maintenance)
  • 产品外观缺陷检测
  • 过程控制与质量预测

经典算法

  • 时间序列 + 回归(剩余寿命预测:RUL)
  • 异常检测(Isolation Forest、LOF)
  • CV 经典特征+分类器用于缺陷(HOG、LBP + SVM)
  • 多变量过程监控:PCA(监控主成分)、Hotelling’s T2

特征

  • 传感器统计特征(均值、峰值、频域能量)
  • 振动信号的频谱(FFT)特征
  • 工艺参数与日志

指标

  • 准确率/召回、维修提前量(提前多久预警)
  • 设备停机时间 / 成本节约量

实战提示

  • 传感器噪声要强预处理(滤波、去趋势)。
  • 异常案例少时利用仿真数据 / 合成故障数据做增强。
  • 结合规则(阈值)与 ML 提升可解释性与可靠性。

8. 信号处理 / 传感器数据 / IoT

经典问题

  • 信号分类(例如 ECG、EEG)
  • 事件检测(碰撞、异常震动)
  • 多传感器融合与故障诊断

经典算法

  • 时域/频域特征 + 传统分类器(SVM、RF)
  • 小波变换 (Wavelet) 提取多尺度特征
  • 统计滤波(卡尔曼滤波)用于平滑/融合集成

特征

  • 能量、频带能量、极大值、零交叉率、熵
  • 时频图(短时傅里叶变换)统计

指标

  • F1、召回(关键事件要少漏报)
  • 延迟(实时性)

实战提示

  • 采样率、同步和数据丢包是工程常见痛点。
  • 在线处理要求计算成本低,常用轻量化模型或阈值规则。

9. 搜索与信息检索(IR)

经典问题

  • 文档检索(相关性排序)
  • 查询理解(query intent classification)
  • 自动摘要 / snippet 提取

经典算法

  • 倒排索引 + BM25(检索阶段)
  • 排序学习:RankSVM、LambdaMART、GBDT-based rankers
  • Query expansion(查询扩展)+ TF-IDF / BM25

特征

  • 文档-查询匹配特征(词重合、BM25分数、TF-IDF相似度)
  • 点击行为(点击率、停留时间)做为反馈信号

指标

  • MAP、NDCG、MRR、点击率(线上指标)

实战提示

  • 召回阶段侧重覆盖,排序阶段用学习到的模型优化排序。
  • 冷启动与长尾文档需靠内容特征填补。

10. 语音 / 说话人识别(传统部分)

经典问题

  • 语音活动检测(VAD)
  • 说话人识别 / 验证
  • 语音命令识别(小词汇)

经典算法

  • 特征:MFCC、PLP、声谱图统计
  • 模型:GMM-UBM、i-vector + PLDA(早期说话人识别)
  • 传统 ASR:声学模型(HMM)+ GMM 或 GMM-HMM + 解码器

指标

  • WER(词错误率)、EER(等错误率,speaker verification)

实战提示

  • 特征预处理(端点检测、去噪)决定上层效果。
  • 说话人识别往往结合声纹和行为特征。

11. 地理空间 / 遥感 / GIS

经典问题

  • 土地覆盖分类(遥感影像)
  • 目标检测(例如船只检测)
  • 时空变化检测(变化检测)

经典方法

  • 光谱特征 + 机器学习分类器(SVM、RF)
  • 多光谱/高光谱特征提取(NDVI、纹理)
  • 物体检测:滑动窗口 + 手工特征 或 传统模板匹配

特征

  • 光谱指数(NDVI、NDWI)、纹理统计
  • 多时相对比特征(变化率)

指标

  • 精度(OA)、Kappa系数、分类召回/精度

实战提示

  • 大气校正与投影一致性重要。
  • 不同传感器数据需要对齐(分辨率/波段)。

12. 安全 / 入侵检测 / 反欺诈(非金融)

经典问题

  • 网络入侵检测(NIDS)
  • 恶意软件检测
  • 账号滥用检测

经典算法

  • 特征汇总(流量统计、包特征)+ 随机森林、SVM
  • 行为序列异常检测(HMM、LOF)
  • 静态/动态恶意软件特征 + 分类器

指标

  • Precision、Recall、ROC、检测延迟

实战提示

  • 数据高维且稀疏,特征选择与降维重要。
  • 对抗样本(攻击者会适配模型)需关注鲁棒性。

13. 电子商务 / 市场营销 / 增长(Growth)

经典问题

  • 用户画像 / 分群
  • 转化率预测(Conversion)
  • 活跃度 / 流失预测(Churn)
  • LTV(用户生命周期价值)建模

经典算法

  • 分类器(LR、GBDT)做转化/流失预测
  • 聚类(KMeans、层次聚类)做分群
  • 生存分析 / 回归做 LTV

特征

  • 行为序列(最近次数、平均间隔)
  • 促销曝光、渠道来源
  • 人口统计特征 + 交叉特征

指标

  • AUC、Lift、Retention rate、ARPU(每用户平均收入)

实战提示

  • 实验平台(A/B)和因果思维很重要:不是所有提升都是因果。
  • 特征时效性(近因优先)通常比长期行为更有预测力。

14. 运营研究 / 物流 / 运输

经典问题

  • 需求预测(运力/订单量)
  • 路径规划、车队调度(VRP)
  • ETA(预计到达时间)预测

经典方法

  • 预测:时间序列 + 回归 / GBDT
  • VRP:启发式算法(遗传、模拟退火、局部搜索) + 约束优化
  • ETA:序列/回归 + 距离/路况特征

指标

  • 准确率(预测)、配送成本、准时率

实战提示

  • 混合运筹学 + ML 常是最优解(例如预测需求后用运筹算法调度)。
  • 约束(车辆容量、法规)必须在模型输出后再约束化处理。

15. 法律 / 合同自动化

经典问题

  • 合同关键字段抽取(实体识别)
  • 合同相似度 / 合同检索
  • 条款分类/合规检测

经典方法

  • 信息抽取:CRF、规则+ML混合
  • 文档匹配:TF-IDF/BM25 + 相似度/分类器
  • 多标签分类(合同条款)

指标

  • 精准率/召回、字段提取的 F1

实战提示

  • 法律文本语言严谨,常结合规则与 ML。
  • 少量标注时用规则补充或弱监督(distant supervision)。

16. 教育技术(EdTech)

经典问题

  • 学习者能力估计(能力评分)
  • 题目难度与区分度建模(IRT)
  • 推荐学习路径、预测掉队

经典方法

  • IRT(Item Response Theory)模型
  • 分类/回归预测是否答对(LR、GBDT)
  • 聚类学生行为并做个性化推荐

指标

  • 预测准确率、学习效果提升(业务端指标)

实战提示

  • 教育应用强调可解释(为什么学生错了)。
  • 干预实验(教学A/B)配合模型评估效果。

17. 化学 / 材料 / 药物发现(化学信息学)

经典问题

  • 分子活性预测(QSAR)
  • 毒性预测、ADMET
  • 材料性质预测

经典方法

  • 分子指纹(Morgan/ECFP)+ 随机森林/GBDT/SVM
  • 回归与分类任务(活性/毒性)
  • 聚类/相似性搜索(库筛选)

特征

  • 分子指纹、拓扑/几何描述符、电子属性

指标

  • AUC、ROC、RMSE(回归)

实战提示

  • 数据噪声大且标签昂贵,合成数据/迁移学习可用。
  • 可解释性帮助化学家理解结构-活性关系。

18. 能源 / 电力

经典问题

  • 负荷预测(短期/中期)
  • 可再生发电预测(风/光)
  • 故障检测与维护

经典方法

  • 时间序列模型(ARIMA、ETS)、GBDT、回归模型
  • 特征:天气、历史负荷、节假日、温度

指标

  • RMSE、MAPE、响应时延

实战提示

  • 强季节性与外部变量(气象)依赖性强。
  • 置信区间用于调度安全缓冲。

19. 社会网络 / 图数据(network)

经典问题

  • 节点分类、社区发现、链接预测、影响力最大化

经典方法

  • 统计特征(度、聚类系数、PageRank)+ 传统分类器
  • 图聚类(谱聚类、Louvain)
  • 链接预测:基于相似度(共邻居、Adamic-Adar)+ ML

指标

  • AUC(链接预测)、模块化(community quality)

实战提示

  • 隐私和去标识化在社交网络特别重要。
  • 图特征(结构化)和行为特征结合更强。

20. 语义搜索 / 知识图谱支撑任务

经典问题

  • 实体对齐、关系抽取、属性补全 经典方法
  • 关系抽取:规则+CRF/SVM
  • 实体匹配:字符串相似度 + 特征化分类器
  • 知识推理:统计规则、路径特征用作分类器输入

实战提示

  • 复杂企业知识库常采用“人工标注种子 + 自动扩展”的混合流程。

21. 通信网络质量与流量预测

经典问题

  • 流量预测、故障预测、QoS预测 经典方法
  • 时间序列 + 回归、异常检测、聚类 实战提示
  • 实时性和低延迟要求高;轻量模型优先。

22. 游戏 AI(传统策略/特征化玩法)

经典问题

  • 玩家行为建模、作弊检测、匹配分配、经典 bot 策略 经典方法
  • 行为分群、胜率预测(回归/分类)、强化学习的浅层变体(策略树、规则学习) 实战提示
  • 游戏偏好与外部时序强相关,需做时序特征。

23. 跨领域通用注意点(数据、解释、部署)

数据层面

  • 数据质量比模型更重要:缺失、偏差、标签噪声需优先处理。
  • 标注成本高时考虑弱监督、半监督、数据编排(active learning)。

模型层面

  • 可解释性 vs 性能 trade-off:金融/医疗优先解释性(LR、决策树)。
  • 样本不平衡:采样、成本敏感学习、阈值移动。

评估层面

  • 离线指标只能作为参考,线上实验(A/B)是最终检验。
  • 业务指标(ROI、成本)应和 ML 指标结合考量。

部署/工程

  • 模型监控(数据漂移、性能下降)必备。
  • 实时性需求决定模型复杂度(在线轻量模型 vs 离线重模型)。
  • 隐私合规、审计日志与可回溯性在生产系统中是硬需求。

工具/生态(常见)

  • 通用:scikit-learn、pandas、numpy
  • 树模型:XGBoost、LightGBM、CatBoost
  • 时间序列:statsmodels、prophet(Facebook/Meta 的 Prophet 较常用)、tsfresh
  • 图/网络分析:networkx、igraph
  • 信号/CV:OpenCV、scipy.signal

最后一点 — 如何把这张清单变成“可执行”方案?

我可以给你三种后续产出,任选一种或多个:

  1. 把某个具体领域(例如:制造业预测维护、金融风控、推荐系统)展开成一份可执行的项目模板:数据格式、特征清单、baseline 代码、评估套件、部署建议。
  2. 输出一张大表格(CSV/Excel),每一行是一项“领域-问题-算法-特征-指标-工具”,便于直接导入到项目管理工具。
  3. 为你做一个决策树:给定你的数据规模、标签有无、是否需要可解释性、所能使用的算力,自动推荐模型与工程方案。