✅ 一个完整 NLP 系统应包含的子系统(超全)
下面按功能域分解,结构化为 8 大层级、40+ 子系统,并附理由。
Ⅰ. 基础层:语料与知识体系
1. 语料管理系统(Corpus Management)
负责原始数据的统一管理,是一切 NLP 的底座。
- 语料 CRUD、版本管理
- 多格式支持(txt/json/xml/doc)
- 清洗标准化
- 标签管理 为什么? NLP 质量高度依赖数据,没有语料就没有模型。
2. 汉语专属语言库(Linguistic Resource)
如果你做中文 NLP,这个必须做:
- 汉字库(音形义、笔画、部首)
- 词语库(近反义、搭配、语义分类)
- 成语库
- 歇后语库
- 诗词曲库
- 规范词表(官方词库、教育部标准) 为什么? NLP 的基础词汇、解析、纠错、分词都依赖字词知识。
3. 语言知识图谱(Knowledge Graph)
用于结构化表示词语关系:
- 字–词–句–段–篇章
- 成语语义网
- 句式结构图谱
- 事件图谱 为什么? 现代 NLP(如 RAG、深度语义解析)越来越依赖知识图谱支撑。
Ⅱ. 数据处理层(Preprocessing & Feature Layer)
4. 文本清洗系统
- 去噪、分句、繁简转换
- 标点标准化
- 停用词处理 为什么? 清洗是训练和推理的前提。
5. 中文分词系统
- 词典驱动 + 模型驱动
- 自定义词典 为什么? 中文不像英文有空格,分词是中文 NLP 的关键。
6. 词性标注、句法分析系统(POS, Syntax)
- 依存句法
- 成分句法 为什么? NLP 的语义理解靠句法结构。
7. 命名实体识别系统(NER)
- 人名、地名、组织机构
- 扩展实体(业务自定义) 为什么? 信息提取、搜索、问答的核心能力。
8. 特征工程 & embedding 系统
- 词向量(Word2Vec、GloVe)
- 子词向量(BPE,sentencepiece)
- 句向量 为什么? embedding 是现代 NLP 的底层特征表征方式。
Ⅲ. 模型层(Model Layer)
9. 传统 NLP 模型系统
- CRF
- HMM
- SVM 文本分类 为什么? 某些业务(分词、抽取)传统模型仍然稳定且高效。
10. 深度学习模型系统
- Transformer
- BERT 系列
- GPT 系列
- 文本分类、生成、抽取 为什么? 现代 NLP 的主力。
11. 大模型微调 & 增量训练系统
- LoRA/QLoRA
- 指令微调
- RAG + Fine-tune 为什么? 适配业务、降低成本。
Ⅳ. 模型训练 & 评估平台
12. 训练管理系统
- 训练任务调度
- GPU 资源管理
- 分布式训练 为什么? 训练是生产级 NLP 必备流程。
13. 模型评估中心
- 准确率、召回率、F1
- 困惑度
- BLEU、ROUGE
- 错误案例分析 为什么? 模型上线前必须有测评。
14. 数据偏差与公平性检测
- 数据分布检测
- 刻板印象/偏见识别 为什么? 现代 NLP 要避免训练偏差。
Ⅴ. 推理(Inference)与服务层
15. 模型推理服务平台
- REST/gRPC 服务
- 多模型版本管理
- A/B 测试 为什么? 模型要被业务实际调用。
16. 缓存 & 加速系统
- embedding 缓存
- 模型加速(TensorRT, ONNX) 为什么? 降低响应延迟和成本。
17. 向量检索系统(Vector Search)
- FAISS / Milvus / Elastic
- 语义搜索 为什么? RAG、QA 系统、推荐都依赖向量检索。
Ⅵ. 应用层(Applications)
18. 文本生成平台(NLG)
- 改写、扩写、摘要
- 对话系统 为什么? 大模型的核心能力。
19. 文本理解平台
- 文本相似度
- 文本标签分类
- 意图识别 为什么? 企业 NLP 的基本需求。
20. 信息抽取系统(IE)
- 关系抽取
- 事件抽取
- Slot filling 为什么? 用于构建知识库、自动化处理。
21. OCR/NLP 融合系统
- 图片转文本
- 文档结构化 为什么? 文档理解(IDP)越来越重要。
22. 多模态 NLP 系统(可选)
- 文本 + 图片
- 文本 + 语音 为什么? 现代 AI 趋势。
Ⅶ. 安全、监控与治理层
23. 数据入口防护
- 去敏
- 隐私检测 为什么? NLP 数据往往包含隐私。
24. 模型安全与内容合规
- 敏感词过滤
- 攻击(prompt injection)防护 为什么? 合规必做。
25. 模型监控 & 效能追踪
- 延迟
- QPS
- 错误日志
- 模型漂移检测 为什么? 模型上线后性能会变化。
Ⅷ. 运维与平台层
26. 数据管理后台(CMS)
- 语料 CRUD
- JSON 批量导入导出
- 字/词/句/成语后台 为什么? 管理海量语言资源。
27. 平台权限 + 工作流
- 审核流
- 标注任务分发
- 权限 RBAC 为什么? 多人团队协作必须。
28. 用户管理 & SSO
你已经有 ums/passport——非常适合用在这里。
✔ 完整 NLP 系统总结架构图(逻辑)
语料库 → 预处理 → 知识库/图谱 → 特征 → 模型训练 → 模型评估
→ 推理服务 → NLP 应用 → 平台治理 → 监控
