汉语基础预料的管理平台

下面给一个面向可交付、按优先级(P0→P2)划分的功能规划,专注于你想先做的三类语料:汉字(word)/ 词语(ci)/ 歇后语(xiehouyu)。每个条目都包含:为什么要先做、验收标准(可交付物)和实现要点/注意事项,便于你直接落地实现或分配给团队去干。

我会把优先级分为三个阶段:

  • P0(MVP 必须):产品能用起来的最小集合;
  • P1(关键能力):提升质量与运维效率、支撑后续功能;
  • P2(增强/智能化):让语料“能被 NLP 用”的功能,放在稳定后实现。

P0 — MVP(必须先实现,平台能“用”起来)

这些功能做完后,任何人都能把现有 JSON 导入、查、改、删,开始常规管理。

1. 统一元数据 Schema(必须)

为什么? 不同源文件字段不一致,统一 schema 是后面一切功能的前提。 验收标准: 定义并实现 JSON Schema(或 DB 表结构)并能用于导入校验。 要点:

  • 公共字段:id, type, text, pinyin?, explanation, tags[], raw?, meta{source, version, imported_at}
  • 各类型扩展字段:

    • word(汉字):word, pinyin[], radicals, strokes, unicode, meanings[]
    • ci(词语):ci, pinyin, pos?, senses[]
    • xiehouyu(歇后语):riddle, answer, explanation, region? 示例(简短 JSON Schema) 我会在下一步给出可用模板(如果你要我直接生成,我现在就给出)。

2. 导入 / 清洗 Pipeline(一次性把现有 JSON 入库)

为什么? 源数据格式混乱,需要自动化导入并规范化,避免后续手工改大量条目。 验收标准: 能把 idiom.json / word.json / ci.json / xiehouyu.json 全部导入到数据库,导入报告显示:总数/成功数/失败数/重复数。 要点:

  • 支持文件格式:JSON、CSV。
  • 映射规则(字段名映射),空值填充(pinyin 自动空或调用后续任务生成)。
  • 基础清洗:trim、移除不可见字符、统一引号/星号符号处理、去重(基于 text+type 或 normalized text)。
  • 报告:导入日志+样例错误行。

3. 基础 CRUD 后台与列表页(Web UI)

为什么? 管理必须能直接查看条目并修改。 验收标准: 管理员能在 UI 中:搜索条目、分页浏览、查看详情、编辑保存、软删除与恢复、导出 selected CSV/JSON。 要点:

  • 列表按 type 过滤(汉字/词/歇后语)
  • 详情页显示 raw 原始数据与结构化字段(allow edit)
  • 支持富文本显示 explanation(保留换行)

4. 基本搜索(文本、拼音、类型)

为什么? 无搜索,管理效率极低。 验收标准: 能做到按 text 模糊搜索、按 pinyin 搜索(拼音包含/前缀匹配)、按 type 过滤。 要点:

  • 初版可以在数据库中用 LIKE / full-text(MySQL / Postgres)或简单倒排(小量数据)。
  • 搜索需忽略声调/大小写/全半角差异。

5. 导出(按筛选导出 JSON/CSV)

为什么? 便于迁移、备份、审核。 验收标准: 在 UI 或 API 能导出当前筛选结果为 JSON 或 CSV 文件。


P1 — 核心增强(提升数据质量、协作和安全)

在 MVP 之上,做这些能显著提升平台可维护性和团队协作效率。

6. 版本控制 & 审计(变更日志)

为什么? 数据会被多人修改,需要回溯与回滚。 验收标准: 每次编辑产生变更记录(用户、时间、变更前后差异),并能回滚到任意历史版本(最近若干)。 要点:

  • 简单实现:数据库 audit 表保存 diffs 或快照。
  • 高级实现:把数据存为 Git-like 版本或使用专门的版本库。

7. 批量编辑/批量替换 & 验证规则

为什么? 大规模修正、统一规范字段时非常必要。 验收标准: 支持:批量更改 tags、批量标注 pinyin、批量删除重复项;支持先预览再执行。 要点:

  • 支持 dry-run 预览影响条目数与示例。

8. 权限与审核流(RBAC)

为什么? 多人协作需要控制谁能直接修改、谁需要审核。 验收标准: 至少支持角色:admin, editor, reviewer, viewer;editor 的修改进入待审核队列,reviewer 可批准/拒绝。 要点:

  • UI 显示待审核列表,审计记录关联到用户。

9. 标签系统(tags / taxonomies)

为什么? 快速分类、过滤和后续自动化(如生成 relation)。 验收标准: 增加 tag 管理界面(新增/删除/merge tags),条目可打多个 tag,支持按 tag 搜索。 要点:

  • 预定义几类 tag:情感/方言/高频/多音/古义/成语成分 等。

P2 — 智能化 & 关系化(放在数据稳定后)

这些是面向 NLP、推荐、知识图谱的能力,数据稳定与结构化后更容易做。

10. 关系抽取与基础关联(字 ↔ 词 ↔ 成语/歇后语)

为什么? 建关系能让平台做语义搜索、推荐、错误检测。 验收标准: 系统能自动或半自动建立:词包含的汉字、成语拆字、歇后语答案到词/成语的映射;并在 UI 上展示关系图(小规模)。 要点:

  • 规则优先(基于字符串拆分/包含),人工校验后采纳。
  • 保存关系类型:contains, variant_of, same_as, related_to

11. 同/近/反义词、形近字表(半自动)

为什么? 对于语言理解和校验很重要(纠错、扩展检索)。 验收标准: 提供接口查询近义词、反义词、形近字,支持人工确认。 要点:

  • 初版用启发式规则+小词表,再逐步用 embedding 或外部词典扩充。

12. 导入质量监控 & 数据治理面板

为什么? 随着语料增长,需要指标来管控数据健康。 验收标准: 仪表板展示:总条数、缺失字段比例、重复率、未审核条数、最近导入统计。 要点:

  • 定期运行校验任务,生成警告。

13. 基础 API 层(服务化)

为什么? 便于前端/外部系统调用语料库。 验收标准: 提供 REST API:查询条目、按 id 获取、批量导出、模糊搜索、检索关系。 要点:

  • 为后续 embedding/向量服务留扩展点(e.g. /api/v1/items?embed=true)。

附:MVP(P0)最小可交付清单(直接可上线验收)

把 P0 的 1~5 完成即可交付给内部用户使用:

  • 统一 Schema 文档(JSON Schema)
  • 导入脚本(接受你现有的 4 个 JSON 并入库)
  • 简单后台 UI(列表/详情/编辑/删除/导出)
  • 搜索(text/pinyin/type)
  • 导出功能
  • 基本 README(如何导入、新增字段说明)

实现建议(技术层面、快速落地提示)