一个完整 NLP 系统应包含的子系统(超全)

下面按功能域分解,结构化为 8 大层级、40+ 子系统,并附理由。


Ⅰ. 基础层:语料与知识体系

1. 语料管理系统(Corpus Management)

负责原始数据的统一管理,是一切 NLP 的底座。

  • 语料 CRUD、版本管理
  • 多格式支持(txt/json/xml/doc)
  • 清洗标准化
  • 标签管理 为什么? NLP 质量高度依赖数据,没有语料就没有模型。

2. 汉语专属语言库(Linguistic Resource)

如果你做中文 NLP,这个必须做:

  • 汉字库(音形义、笔画、部首)
  • 词语库(近反义、搭配、语义分类)
  • 成语库
  • 歇后语库
  • 诗词曲库
  • 规范词表(官方词库、教育部标准) 为什么? NLP 的基础词汇、解析、纠错、分词都依赖字词知识。

3. 语言知识图谱(Knowledge Graph)

用于结构化表示词语关系:

  • 字–词–句–段–篇章
  • 成语语义网
  • 句式结构图谱
  • 事件图谱 为什么? 现代 NLP(如 RAG、深度语义解析)越来越依赖知识图谱支撑。

Ⅱ. 数据处理层(Preprocessing & Feature Layer)

4. 文本清洗系统

  • 去噪、分句、繁简转换
  • 标点标准化
  • 停用词处理 为什么? 清洗是训练和推理的前提。

5. 中文分词系统

  • 词典驱动 + 模型驱动
  • 自定义词典 为什么? 中文不像英文有空格,分词是中文 NLP 的关键。

6. 词性标注、句法分析系统(POS, Syntax)

  • 依存句法
  • 成分句法 为什么? NLP 的语义理解靠句法结构。

7. 命名实体识别系统(NER)

  • 人名、地名、组织机构
  • 扩展实体(业务自定义) 为什么? 信息提取、搜索、问答的核心能力。

8. 特征工程 & embedding 系统

  • 词向量(Word2Vec、GloVe)
  • 子词向量(BPE,sentencepiece)
  • 句向量 为什么? embedding 是现代 NLP 的底层特征表征方式。

Ⅲ. 模型层(Model Layer)

9. 传统 NLP 模型系统

  • CRF
  • HMM
  • SVM 文本分类 为什么? 某些业务(分词、抽取)传统模型仍然稳定且高效。

10. 深度学习模型系统

  • Transformer
  • BERT 系列
  • GPT 系列
  • 文本分类、生成、抽取 为什么? 现代 NLP 的主力。

11. 大模型微调 & 增量训练系统

  • LoRA/QLoRA
  • 指令微调
  • RAG + Fine-tune 为什么? 适配业务、降低成本。

Ⅳ. 模型训练 & 评估平台

12. 训练管理系统

  • 训练任务调度
  • GPU 资源管理
  • 分布式训练 为什么? 训练是生产级 NLP 必备流程。

13. 模型评估中心

  • 准确率、召回率、F1
  • 困惑度
  • BLEU、ROUGE
  • 错误案例分析 为什么? 模型上线前必须有测评。

14. 数据偏差与公平性检测

  • 数据分布检测
  • 刻板印象/偏见识别 为什么? 现代 NLP 要避免训练偏差。

Ⅴ. 推理(Inference)与服务层

15. 模型推理服务平台

  • REST/gRPC 服务
  • 多模型版本管理
  • A/B 测试 为什么? 模型要被业务实际调用。

16. 缓存 & 加速系统

  • embedding 缓存
  • 模型加速(TensorRT, ONNX) 为什么? 降低响应延迟和成本。

  • FAISS / Milvus / Elastic
  • 语义搜索 为什么? RAG、QA 系统、推荐都依赖向量检索。

Ⅵ. 应用层(Applications)

18. 文本生成平台(NLG)

  • 改写、扩写、摘要
  • 对话系统 为什么? 大模型的核心能力。

19. 文本理解平台

  • 文本相似度
  • 文本标签分类
  • 意图识别 为什么? 企业 NLP 的基本需求。

20. 信息抽取系统(IE)

  • 关系抽取
  • 事件抽取
  • Slot filling 为什么? 用于构建知识库、自动化处理。

21. OCR/NLP 融合系统

  • 图片转文本
  • 文档结构化 为什么? 文档理解(IDP)越来越重要。

22. 多模态 NLP 系统(可选)

  • 文本 + 图片
  • 文本 + 语音 为什么? 现代 AI 趋势。

Ⅶ. 安全、监控与治理层

23. 数据入口防护

  • 去敏
  • 隐私检测 为什么? NLP 数据往往包含隐私。

24. 模型安全与内容合规

  • 敏感词过滤
  • 攻击(prompt injection)防护 为什么? 合规必做。

25. 模型监控 & 效能追踪

  • 延迟
  • QPS
  • 错误日志
  • 模型漂移检测 为什么? 模型上线后性能会变化。

Ⅷ. 运维与平台层

26. 数据管理后台(CMS)

  • 语料 CRUD
  • JSON 批量导入导出
  • 字/词/句/成语后台 为什么? 管理海量语言资源。

27. 平台权限 + 工作流

  • 审核流
  • 标注任务分发
  • 权限 RBAC 为什么? 多人团队协作必须。

28. 用户管理 & SSO

你已经有 ums/passport——非常适合用在这里。


✔ 完整 NLP 系统总结架构图(逻辑)

语料库 → 预处理 → 知识库/图谱 → 特征 → 模型训练 → 模型评估
   → 推理服务 → NLP 应用 → 平台治理 → 监控