-
中文更加基础的组成元素是什么?
最底层的粒度
我把汉语拆分到基础的字形、语音、字义。
是不是已经是最底层的粒度了?还能更加细致吗?
从字形、语音、字义把“汉语基础平台”拆到三大类,已经是 非常接近底层的语言学粒度了。
但如果你想打造的是 “可以像 CPU 指令集一样复用、可控、可组合的中文能力底座”,其实还可以继续往下拆,把“语言”进一步拆成更基础的“元素级组件”。
下面我给你一个 更细致、可工程化、可落地的中...
2025-12-05 12:49:20 |
NLP
-
张吉惟们“最忙5人组”分身乏术?我花 5 分钟解决了这个问题!
全国就你们五个“活人”吗?
一份网络文档的前五个名字,正以整齐划一的队形,占领着从政府采购到书法大赛的各类名单,忙得连网友都看不下去了。
“张吉惟、林国瑞、林玟书、林雅南、江奕云”——看到这五个名字,你是不是觉得有点眼熟?
如果你觉得在某次书法比赛的获奖名单里见过他们,又或者在老家政府网站的某次采购评审公告里和他们打过照面,甚至觉得他们好像还因为“占道经营”被罚过款,别怀疑自己...
2025-12-05 12:49:20 |
NLP
-
NLP 平台-25-汉字数字信息
百度汉语
https://hanyuapp.baidu.com/dictapp/word/detail_getworddetail?wd=%E5%A1%94&client=pc&lesson_from=xiaodu
数据:
{
"errno": 0,
"errmsg": "",
"data": {
"detail": {
...
2025-12-05 12:49:20 |
NLP
-
NLP 平台-04-基础平台之单个汉字笔画库
#
chat
网上开源的汉字笔画顺序库
你说的「网上开源的汉字笔画顺序库」确实有几个值得推荐的 —— 以下是目前比较知名、可直接使用/二次开发的开源(或自由可用)汉字笔画/笔顺数据库/工具库/相关资源。
✅ 已知开源/免费汉字笔画顺序库/工具
名称 / 项目
简介 / 功能
cnchar
...
2025-12-05 12:49:20 |
NLP
-
NLP 平台-04-基础平台之单个汉字管理
🔥 一、系统目标(汉字管理模块)
建立一个可维护、可扩展、支持批量处理的汉字基础语料管理平台,提供:
汉字 CRUD
批量导入 / 批量更新 / 批量删除 / 批量导出
字段级结构化维护(拼音、笔画、部首等)
富文本解释/释义录入
原始文本与结构化字段并存
审计字段(状态、创建人、操作人等)
高效的列表检索(字、拼音、部首)
🔥 二、数据结构设计(数...
2025-12-05 12:49:20 |
NLP
-
NLP 平台-02-关于汉字相关的一些 NLP 信息
chat
适合做:
✔ 汉字字典
✔ NLP 语料库
✔ 搜索增强
✔ 分词系统
✔ LLM 语言知识库
✔ 教育类应用
我把它分成 8 大类、50+ 项字段,并标明用途。
🧱 1. 字音(Pronunciation)——音
✔ 基础读音
拼音(带声调):zhōng
拼音(数字调):zhong1
多音字所有读音:zhā / zhà / zhá
✔ 声韵母
...
2025-12-05 12:49:20 |
NLP
-
NLP 平台-03-基础的设计蓝图
汉语基础预料的管理平台
下面给一个面向可交付、按优先级(P0→P2)划分的功能规划,专注于你想先做的三类语料:汉字(word)/ 词语(ci)/ 歇后语(xiehouyu)。
每个条目都包含:为什么要先做、验收标准(可交付物)和实现要点/注意事项,便于你直接落地实现或分配给团队去干。
我会把优先级分为三个阶段:
P0(MVP 必须):产品能用起来的最小集合;
P1(关键能力...
2025-12-05 12:49:20 |
NLP
-
NLP 平台-01-基本的概览
chat
✅ NLP 语料管理平台 — 推荐优先级路线图(从高到低)
P0:基础可用(必须先做)
1. 统一语料数据模型(Core Schema)
为什么优先?
后面所有功能都依赖一致的 schema,如果文件结构乱、字段定义不统一,会导致后续所有功能痛苦加倍。
内容包含:
id
text(内容)
pinyin(拼音,词/成语可选)
meaning(释义)
...
2025-12-05 12:49:20 |
NLP