背景
chat
传统机器学习在各个领域的使用
好——下面给你一份尽可能全面、结构化、可落地的清单:除了 NLP 之外,各领域常见的经典问题、对应的传统/经典机器学习解决方案、常见特征工程方法、评估指标、实际注意点与典型工具/库。每一项都尽量给出:问题 → 典型方法 → 特征/流程 → 指标 → 实战提示。篇幅比较长,但我把结构固定了,方便你检索与复用;需要我把某个领域展开成更细的实战模板(数据格式、特征工程代码、超参建议、部署说明)告诉我就行。
目录(快速导航)
- 计算机视觉(CV)
- 时间序列 / 预测
- 推荐系统
- 异常检测 / 监控
- 金融风控与量化
- 医疗保健 / 生物信息学
- 制造业(工业预测与质量)
- 信号处理 / 传感器数据 / IoT
- 搜索与信息检索(IR)
- 语音/说话人识别(传统部分)
- 地理空间 / 遥感 / GIS
- 安全 / 入侵检测 / 反欺诈(非金融)
- 电子商务 / 市场营销 / 增长(Growth)
- 运营研究 / 物流 / 运输
- 法律 / 合规 / 合同自动化
- 教育技术(EdTech)
- 化学 / 材料 / 药物发现(化学信息学)
- 能源 / 电力预测与调度
- 社会网络分析 / 图数据问题
- 语义搜索 / 知识图谱支撑任务
- 通信网络质量与流量预测
- 游戏AI(传统策略/特征化玩法)
- 一些跨领域通用注意点(数据、解释、部署)
1. 计算机视觉(CV)
经典问题
- 图像分类(分类物体/场景)
- 目标检测(定位并标注边界框)
- 语义分割 / 实例分割
- 图像检索 / 相似图像检索
- 人脸识别 / 表情识别
- OCR(光学字符识别)与版面分析
- 图像质量评估 / 异常检测(制造缺陷)
传统(深度前 / 结合特征)解决方案
- 特征提取:SIFT、SURF、HOG、LBP、颜色直方图、Gabor filter
- 经典分类器:SVM、随机森林、逻辑回归、KNN
- 对象检测:滑动窗口 + HOG + SVM(人脸/行人检测的 Viola-Jones / HOG+SVM)
- 图像检索:局部特征 + Bag-of-Visual-Words + TF-IDF + kNN检索
- OCR:传统流水线(预处理→分割→字符识别:HMM/CRF/模板匹配)
- 特征融合:手工特征 + PCA 降维 + 经典分类器
常用特征/工程
- 多尺度边缘/纹理特征(HOG, LBP)
- 颜色空间处理(HSV、Lab)
- 局部不变特征(SIFT)
- 数据增强(翻转、旋转、裁剪、颜色扰动)
评估指标
- 分类:准确率、F1、混淆矩阵
- 检测:mAP(平均精度均值)、IoU
- 分割:mIoU、Dice
实战提示
- 小数据集优先用经典特征+SVM,避免过拟合。
- 特征工程(尺度、不变性)往往决定成败。
- OCR 等任务常需强预处理(去噪、二值化、几何校正)。
2. 时间序列 / 预测
经典问题
- 单变量/多变量预测(销量、温度、电力负荷、流量)
- 趋势/季节性分解
- 异常检测(时间序列异常)
- 序列聚类 / 相似度检索
- 预测区间与不确定性估计
经典算法
- 统计方法:AR, MA, ARMA, ARIMA, SARIMA, ETS(指数平滑)
- 状态空间模型:Kalman Filter
- 传统 ML:线性回归、支持向量回归(SVR)、随机森林、GBDT(XGBoost/LightGBM)
- 特征型方法:滑动窗口 + 回归/树模型(把时间序列转成监督学习问题)
- 时间序列专用特征库:tsfresh(提取统计特征)
常见特征
- 滞后项(lag features)、滚动统计(mean、std、min/max)、差分(差分消除趋势)
- 周期性/节假日特征、温度/外部回归变量(exogenous)
- 时间组件(hour/day/week/month)、周期编码(sin/cos)
指标
- MAE, RMSE, MAPE, SMAPE
- 覆盖率(预测区间)
实战提示
- 先做差分与季节性分析再选模型。
- 为小窗口预测,滑动窗口+GBDT效果往往好且易部署。
- 置信区间很重要(风控/供电类)。
3. 推荐系统
经典问题
- 协同过滤(用户-物品矩阵补全)
- 矩阵分解(隐因子模型)
- 基于内容的推荐(content-based)
- 混合推荐(混合召回 + 排序)
- CTR 预测(点击率)
经典算法
- 协同过滤:基于用户的、基于物品的相似度(cosine、pearson)
- 矩阵分解(SVD, ALS)
- 因子分解机(FM)、广义 FM(FFM)
- 排序模型:LR、GBDT、RankSVM、LambdaMART(学习排序)
- CTR:LR + 特征交叉、GBDT + LR(GBDT做特征交叉)、FM
常用特征/流水线
- 用户历史行为序列(浏览、点击、购买)
- 内容侧特征(文本/类别/属性)
- 时序特征(最近活跃时间)
- 上下文特征(设备、地理位置、时间)
- 召回(协同/内容/最近热度)→ 排序(学习到的模型)
指标
- AUC、LogLoss(CTR)
- Precision@K、Recall@K、NDCG
- 转化率(实际业务指标)
实战提示
- 冷启动问题:新用户/新物品 -> 内容侧 + 规则优先。
- 在线A/B测试是必须的(离线指标与线上不一致)。
- 特征稀疏度与高基数分类变量要做embedding或hashing trick。
4. 异常检测 / 监控
经典问题
- 单机或集群日志异常、设备故障、金融欺诈、医疗异常信号
经典算法
- 基于统计阈值(Z-score)
- 基于邻域:kNN、LOF(局部离群因子)
- 基于树:Isolation Forest
- 基于重建误差:PCA、Autoencoder(传统可用 PCA)
- 基于时间序列:季节性趋势剔除 + 阈值检测
特征
- 原始度量、滚动均值/方差、频域特征(FFT)
- 分箱/聚合(每分钟、每小时)统计特征
指标
- Precision@k(高精度场景)、召回(要覆盖异常)
- FPR(误报率)、Time-to-detect(检测延迟)
实战提示
- 异常标签往往稀少,半监督/无监督方法更常用。
- 业务上倾向更低误报还是更高召回需要权衡。
- 结合规则与ML提升可靠性。
5. 金融风控与量化
经典问题
- 信贷评分(信用评分)
- 欺诈检测(交易/设备/行为)
- 客户流失预测、违约预测
- 量化因子挖掘(因子模型)
经典算法
- 逻辑回归(LR)+ 分箱(WOE编码)是信贷领域的传统基石
- GBDT(XGBoost/LightGBM)用于非线性建模
- 随机森林、SVM、异常检测算法(Isolation Forest)
- Time-dependent survival analysis(风险建模)
- 特征选择/正则化(L1/L2)
特征与工程
- 历史行为特征(逾期次数、交易频次、交易金额分布)
- WOE(Weight of Evidence)编码、IV(信息值)筛选变量
- 设备指纹、地理特征、时间窗口统计
- 反欺诈:序列特征、session-level 聚合、图特征(关联网络)
指标
- AUC、KS(区分度)、精确率/召回(欺诈检测)
- 业务损失/利润(cost-sensitive)
实战提示
- 合规与可解释非常重要:LR + 分箱/WOE 更易通过监管审查。
- 样本不平衡(欺诈很少)需采样/加权或异常检测。
- 模型漂移:定期再训练 & 模型监控必不可少。
6. 医疗 / 生物信息学
经典问题
- 疾病风险预测、诊断辅助(基于结构化病历)
- 基因表达数据分类/分群
- 药物发现(QSAR:量化构效关系)
- 生物序列比对与注释
经典算法
- 逻辑回归、SVM、随机森林、GBDT(生物数据常用)
- 序列比对:BLAST(算法不是 ML,但常配合 ML 做下游)
- CRF/HMM(序列标注)
- 聚类(例如:基因表达聚类)
特征
- 临床指标(血压、化验值)、时间序列的生命体征
- 基因/蛋白质序列的 k-mer 统计、physicochemical 特征
- 分子指纹(化学信息学中常用:Morgan fingerprints)
指标
- AUC、sensitivity(灵敏度)、specificity(特异性)、F1
- 临床意义与可解释性优先于纯粹指标提升
实战提示
- 隐私合规(HIPAA 等)与数据保护至关重要。
- 医学问题常对假阳性/假阴性成本敏感,需与临床专家协同设定阈值。
- 小样本学习、迁移学习与基于规则的混合模型常见。
7. 制造业(预测维护 / 质量检测)
经典问题
- 设备预测性维护(Predictive Maintenance)
- 产品外观缺陷检测
- 过程控制与质量预测
经典算法
- 时间序列 + 回归(剩余寿命预测:RUL)
- 异常检测(Isolation Forest、LOF)
- CV 经典特征+分类器用于缺陷(HOG、LBP + SVM)
- 多变量过程监控:PCA(监控主成分)、Hotelling’s T2
特征
- 传感器统计特征(均值、峰值、频域能量)
- 振动信号的频谱(FFT)特征
- 工艺参数与日志
指标
- 准确率/召回、维修提前量(提前多久预警)
- 设备停机时间 / 成本节约量
实战提示
- 传感器噪声要强预处理(滤波、去趋势)。
- 异常案例少时利用仿真数据 / 合成故障数据做增强。
- 结合规则(阈值)与 ML 提升可解释性与可靠性。
8. 信号处理 / 传感器数据 / IoT
经典问题
- 信号分类(例如 ECG、EEG)
- 事件检测(碰撞、异常震动)
- 多传感器融合与故障诊断
经典算法
- 时域/频域特征 + 传统分类器(SVM、RF)
- 小波变换 (Wavelet) 提取多尺度特征
- 统计滤波(卡尔曼滤波)用于平滑/融合集成
特征
- 能量、频带能量、极大值、零交叉率、熵
- 时频图(短时傅里叶变换)统计
指标
- F1、召回(关键事件要少漏报)
- 延迟(实时性)
实战提示
- 采样率、同步和数据丢包是工程常见痛点。
- 在线处理要求计算成本低,常用轻量化模型或阈值规则。
9. 搜索与信息检索(IR)
经典问题
- 文档检索(相关性排序)
- 查询理解(query intent classification)
- 自动摘要 / snippet 提取
经典算法
- 倒排索引 + BM25(检索阶段)
- 排序学习:RankSVM、LambdaMART、GBDT-based rankers
- Query expansion(查询扩展)+ TF-IDF / BM25
特征
- 文档-查询匹配特征(词重合、BM25分数、TF-IDF相似度)
- 点击行为(点击率、停留时间)做为反馈信号
指标
- MAP、NDCG、MRR、点击率(线上指标)
实战提示
- 召回阶段侧重覆盖,排序阶段用学习到的模型优化排序。
- 冷启动与长尾文档需靠内容特征填补。
10. 语音 / 说话人识别(传统部分)
经典问题
- 语音活动检测(VAD)
- 说话人识别 / 验证
- 语音命令识别(小词汇)
经典算法
- 特征:MFCC、PLP、声谱图统计
- 模型:GMM-UBM、i-vector + PLDA(早期说话人识别)
- 传统 ASR:声学模型(HMM)+ GMM 或 GMM-HMM + 解码器
指标
- WER(词错误率)、EER(等错误率,speaker verification)
实战提示
- 特征预处理(端点检测、去噪)决定上层效果。
- 说话人识别往往结合声纹和行为特征。
11. 地理空间 / 遥感 / GIS
经典问题
- 土地覆盖分类(遥感影像)
- 目标检测(例如船只检测)
- 时空变化检测(变化检测)
经典方法
- 光谱特征 + 机器学习分类器(SVM、RF)
- 多光谱/高光谱特征提取(NDVI、纹理)
- 物体检测:滑动窗口 + 手工特征 或 传统模板匹配
特征
- 光谱指数(NDVI、NDWI)、纹理统计
- 多时相对比特征(变化率)
指标
- 精度(OA)、Kappa系数、分类召回/精度
实战提示
- 大气校正与投影一致性重要。
- 不同传感器数据需要对齐(分辨率/波段)。
12. 安全 / 入侵检测 / 反欺诈(非金融)
经典问题
- 网络入侵检测(NIDS)
- 恶意软件检测
- 账号滥用检测
经典算法
- 特征汇总(流量统计、包特征)+ 随机森林、SVM
- 行为序列异常检测(HMM、LOF)
- 静态/动态恶意软件特征 + 分类器
指标
- Precision、Recall、ROC、检测延迟
实战提示
- 数据高维且稀疏,特征选择与降维重要。
- 对抗样本(攻击者会适配模型)需关注鲁棒性。
13. 电子商务 / 市场营销 / 增长(Growth)
经典问题
- 用户画像 / 分群
- 转化率预测(Conversion)
- 活跃度 / 流失预测(Churn)
- LTV(用户生命周期价值)建模
经典算法
- 分类器(LR、GBDT)做转化/流失预测
- 聚类(KMeans、层次聚类)做分群
- 生存分析 / 回归做 LTV
特征
- 行为序列(最近次数、平均间隔)
- 促销曝光、渠道来源
- 人口统计特征 + 交叉特征
指标
- AUC、Lift、Retention rate、ARPU(每用户平均收入)
实战提示
- 实验平台(A/B)和因果思维很重要:不是所有提升都是因果。
- 特征时效性(近因优先)通常比长期行为更有预测力。
14. 运营研究 / 物流 / 运输
经典问题
- 需求预测(运力/订单量)
- 路径规划、车队调度(VRP)
- ETA(预计到达时间)预测
经典方法
- 预测:时间序列 + 回归 / GBDT
- VRP:启发式算法(遗传、模拟退火、局部搜索) + 约束优化
- ETA:序列/回归 + 距离/路况特征
指标
- 准确率(预测)、配送成本、准时率
实战提示
- 混合运筹学 + ML 常是最优解(例如预测需求后用运筹算法调度)。
- 约束(车辆容量、法规)必须在模型输出后再约束化处理。
15. 法律 / 合同自动化
经典问题
- 合同关键字段抽取(实体识别)
- 合同相似度 / 合同检索
- 条款分类/合规检测
经典方法
- 信息抽取:CRF、规则+ML混合
- 文档匹配:TF-IDF/BM25 + 相似度/分类器
- 多标签分类(合同条款)
指标
- 精准率/召回、字段提取的 F1
实战提示
- 法律文本语言严谨,常结合规则与 ML。
- 少量标注时用规则补充或弱监督(distant supervision)。
16. 教育技术(EdTech)
经典问题
- 学习者能力估计(能力评分)
- 题目难度与区分度建模(IRT)
- 推荐学习路径、预测掉队
经典方法
- IRT(Item Response Theory)模型
- 分类/回归预测是否答对(LR、GBDT)
- 聚类学生行为并做个性化推荐
指标
- 预测准确率、学习效果提升(业务端指标)
实战提示
- 教育应用强调可解释(为什么学生错了)。
- 干预实验(教学A/B)配合模型评估效果。
17. 化学 / 材料 / 药物发现(化学信息学)
经典问题
- 分子活性预测(QSAR)
- 毒性预测、ADMET
- 材料性质预测
经典方法
- 分子指纹(Morgan/ECFP)+ 随机森林/GBDT/SVM
- 回归与分类任务(活性/毒性)
- 聚类/相似性搜索(库筛选)
特征
- 分子指纹、拓扑/几何描述符、电子属性
指标
- AUC、ROC、RMSE(回归)
实战提示
- 数据噪声大且标签昂贵,合成数据/迁移学习可用。
- 可解释性帮助化学家理解结构-活性关系。
18. 能源 / 电力
经典问题
- 负荷预测(短期/中期)
- 可再生发电预测(风/光)
- 故障检测与维护
经典方法
- 时间序列模型(ARIMA、ETS)、GBDT、回归模型
- 特征:天气、历史负荷、节假日、温度
指标
- RMSE、MAPE、响应时延
实战提示
- 强季节性与外部变量(气象)依赖性强。
- 置信区间用于调度安全缓冲。
19. 社会网络 / 图数据(network)
经典问题
- 节点分类、社区发现、链接预测、影响力最大化
经典方法
- 统计特征(度、聚类系数、PageRank)+ 传统分类器
- 图聚类(谱聚类、Louvain)
- 链接预测:基于相似度(共邻居、Adamic-Adar)+ ML
指标
- AUC(链接预测)、模块化(community quality)
实战提示
- 隐私和去标识化在社交网络特别重要。
- 图特征(结构化)和行为特征结合更强。
20. 语义搜索 / 知识图谱支撑任务
经典问题
- 实体对齐、关系抽取、属性补全 经典方法
- 关系抽取:规则+CRF/SVM
- 实体匹配:字符串相似度 + 特征化分类器
- 知识推理:统计规则、路径特征用作分类器输入
实战提示
- 复杂企业知识库常采用“人工标注种子 + 自动扩展”的混合流程。
21. 通信网络质量与流量预测
经典问题
- 流量预测、故障预测、QoS预测 经典方法
- 时间序列 + 回归、异常检测、聚类 实战提示
- 实时性和低延迟要求高;轻量模型优先。
22. 游戏 AI(传统策略/特征化玩法)
经典问题
- 玩家行为建模、作弊检测、匹配分配、经典 bot 策略 经典方法
- 行为分群、胜率预测(回归/分类)、强化学习的浅层变体(策略树、规则学习) 实战提示
- 游戏偏好与外部时序强相关,需做时序特征。
23. 跨领域通用注意点(数据、解释、部署)
数据层面
- 数据质量比模型更重要:缺失、偏差、标签噪声需优先处理。
- 标注成本高时考虑弱监督、半监督、数据编排(active learning)。
模型层面
- 可解释性 vs 性能 trade-off:金融/医疗优先解释性(LR、决策树)。
- 样本不平衡:采样、成本敏感学习、阈值移动。
评估层面
- 离线指标只能作为参考,线上实验(A/B)是最终检验。
- 业务指标(ROI、成本)应和 ML 指标结合考量。
部署/工程
- 模型监控(数据漂移、性能下降)必备。
- 实时性需求决定模型复杂度(在线轻量模型 vs 离线重模型)。
- 隐私合规、审计日志与可回溯性在生产系统中是硬需求。
工具/生态(常见)
- 通用:scikit-learn、pandas、numpy
- 树模型:XGBoost、LightGBM、CatBoost
- 时间序列:statsmodels、prophet(Facebook/Meta 的 Prophet 较常用)、tsfresh
- 图/网络分析:networkx、igraph
- 信号/CV:OpenCV、scipy.signal
最后一点 — 如何把这张清单变成“可执行”方案?
我可以给你三种后续产出,任选一种或多个:
- 把某个具体领域(例如:制造业预测维护、金融风控、推荐系统)展开成一份可执行的项目模板:数据格式、特征清单、baseline 代码、评估套件、部署建议。
- 输出一张大表格(CSV/Excel),每一行是一项“领域-问题-算法-特征-指标-工具”,便于直接导入到项目管理工具。
- 为你做一个决策树:给定你的数据规模、标签有无、是否需要可解释性、所能使用的算力,自动推荐模型与工程方案。
- 背景
- chat
- 目录(快速导航)
- 1. 计算机视觉(CV)
- 2. 时间序列 / 预测
- 3. 推荐系统
- 4. 异常检测 / 监控
- 5. 金融风控与量化
- 6. 医疗 / 生物信息学
- 7. 制造业(预测维护 / 质量检测)
- 8. 信号处理 / 传感器数据 / IoT
- 9. 搜索与信息检索(IR)
- 10. 语音 / 说话人识别(传统部分)
- 11. 地理空间 / 遥感 / GIS
- 12. 安全 / 入侵检测 / 反欺诈(非金融)
- 13. 电子商务 / 市场营销 / 增长(Growth)
- 14. 运营研究 / 物流 / 运输
- 15. 法律 / 合同自动化
- 16. 教育技术(EdTech)
- 17. 化学 / 材料 / 药物发现(化学信息学)
- 18. 能源 / 电力
- 19. 社会网络 / 图数据(network)
- 20. 语义搜索 / 知识图谱支撑任务
- 21. 通信网络质量与流量预测
- 22. 游戏 AI(传统策略/特征化玩法)
- 23. 跨领域通用注意点(数据、解释、部署)
- 最后一点 — 如何把这张清单变成“可执行”方案?
