汉语基础预料的管理平台
下面给一个面向可交付、按优先级(P0→P2)划分的功能规划,专注于你想先做的三类语料:汉字(word)/ 词语(ci)/ 歇后语(xiehouyu)。每个条目都包含:为什么要先做、验收标准(可交付物)和实现要点/注意事项,便于你直接落地实现或分配给团队去干。
我会把优先级分为三个阶段:
- P0(MVP 必须):产品能用起来的最小集合;
- P1(关键能力):提升质量与运维效率、支撑后续功能;
- P2(增强/智能化):让语料“能被 NLP 用”的功能,放在稳定后实现。
P0 — MVP(必须先实现,平台能“用”起来)
这些功能做完后,任何人都能把现有 JSON 导入、查、改、删,开始常规管理。
1. 统一元数据 Schema(必须)
为什么? 不同源文件字段不一致,统一 schema 是后面一切功能的前提。 验收标准: 定义并实现 JSON Schema(或 DB 表结构)并能用于导入校验。 要点:
- 公共字段:
id, type, text, pinyin?, explanation, tags[], raw?, meta{source, version, imported_at}。 -
各类型扩展字段:
word(汉字):word, pinyin[], radicals, strokes, unicode, meanings[]ci(词语):ci, pinyin, pos?, senses[]xiehouyu(歇后语):riddle, answer, explanation, region?示例(简短 JSON Schema) 我会在下一步给出可用模板(如果你要我直接生成,我现在就给出)。
2. 导入 / 清洗 Pipeline(一次性把现有 JSON 入库)
为什么? 源数据格式混乱,需要自动化导入并规范化,避免后续手工改大量条目。
验收标准: 能把 idiom.json / word.json / ci.json / xiehouyu.json 全部导入到数据库,导入报告显示:总数/成功数/失败数/重复数。
要点:
- 支持文件格式:JSON、CSV。
- 映射规则(字段名映射),空值填充(pinyin 自动空或调用后续任务生成)。
- 基础清洗:trim、移除不可见字符、统一引号/星号符号处理、去重(基于 text+type 或 normalized text)。
- 报告:导入日志+样例错误行。
3. 基础 CRUD 后台与列表页(Web UI)
为什么? 管理必须能直接查看条目并修改。 验收标准: 管理员能在 UI 中:搜索条目、分页浏览、查看详情、编辑保存、软删除与恢复、导出 selected CSV/JSON。 要点:
- 列表按 type 过滤(汉字/词/歇后语)
- 详情页显示 raw 原始数据与结构化字段(allow edit)
- 支持富文本显示 explanation(保留换行)
4. 基本搜索(文本、拼音、类型)
为什么? 无搜索,管理效率极低。
验收标准: 能做到按 text 模糊搜索、按 pinyin 搜索(拼音包含/前缀匹配)、按 type 过滤。
要点:
- 初版可以在数据库中用 LIKE / full-text(MySQL / Postgres)或简单倒排(小量数据)。
- 搜索需忽略声调/大小写/全半角差异。
5. 导出(按筛选导出 JSON/CSV)
为什么? 便于迁移、备份、审核。 验收标准: 在 UI 或 API 能导出当前筛选结果为 JSON 或 CSV 文件。
P1 — 核心增强(提升数据质量、协作和安全)
在 MVP 之上,做这些能显著提升平台可维护性和团队协作效率。
6. 版本控制 & 审计(变更日志)
为什么? 数据会被多人修改,需要回溯与回滚。 验收标准: 每次编辑产生变更记录(用户、时间、变更前后差异),并能回滚到任意历史版本(最近若干)。 要点:
- 简单实现:数据库 audit 表保存 diffs 或快照。
- 高级实现:把数据存为 Git-like 版本或使用专门的版本库。
7. 批量编辑/批量替换 & 验证规则
为什么? 大规模修正、统一规范字段时非常必要。 验收标准: 支持:批量更改 tags、批量标注 pinyin、批量删除重复项;支持先预览再执行。 要点:
- 支持 dry-run 预览影响条目数与示例。
8. 权限与审核流(RBAC)
为什么? 多人协作需要控制谁能直接修改、谁需要审核。
验收标准: 至少支持角色:admin, editor, reviewer, viewer;editor 的修改进入待审核队列,reviewer 可批准/拒绝。
要点:
- UI 显示待审核列表,审计记录关联到用户。
9. 标签系统(tags / taxonomies)
为什么? 快速分类、过滤和后续自动化(如生成 relation)。 验收标准: 增加 tag 管理界面(新增/删除/merge tags),条目可打多个 tag,支持按 tag 搜索。 要点:
- 预定义几类 tag:
情感/方言/高频/多音/古义/成语成分等。
P2 — 智能化 & 关系化(放在数据稳定后)
这些是面向 NLP、推荐、知识图谱的能力,数据稳定与结构化后更容易做。
10. 关系抽取与基础关联(字 ↔ 词 ↔ 成语/歇后语)
为什么? 建关系能让平台做语义搜索、推荐、错误检测。 验收标准: 系统能自动或半自动建立:词包含的汉字、成语拆字、歇后语答案到词/成语的映射;并在 UI 上展示关系图(小规模)。 要点:
- 规则优先(基于字符串拆分/包含),人工校验后采纳。
- 保存关系类型:
contains,variant_of,same_as,related_to。
11. 同/近/反义词、形近字表(半自动)
为什么? 对于语言理解和校验很重要(纠错、扩展检索)。 验收标准: 提供接口查询近义词、反义词、形近字,支持人工确认。 要点:
- 初版用启发式规则+小词表,再逐步用 embedding 或外部词典扩充。
12. 导入质量监控 & 数据治理面板
为什么? 随着语料增长,需要指标来管控数据健康。 验收标准: 仪表板展示:总条数、缺失字段比例、重复率、未审核条数、最近导入统计。 要点:
- 定期运行校验任务,生成警告。
13. 基础 API 层(服务化)
为什么? 便于前端/外部系统调用语料库。 验收标准: 提供 REST API:查询条目、按 id 获取、批量导出、模糊搜索、检索关系。 要点:
- 为后续 embedding/向量服务留扩展点(e.g.
/api/v1/items?embed=true)。
附:MVP(P0)最小可交付清单(直接可上线验收)
把 P0 的 1~5 完成即可交付给内部用户使用:
- 统一 Schema 文档(JSON Schema)
- 导入脚本(接受你现有的 4 个 JSON 并入库)
- 简单后台 UI(列表/详情/编辑/删除/导出)
- 搜索(text/pinyin/type)
- 导出功能
- 基本 README(如何导入、新增字段说明)
