个人简介

Echo Blog


江湖无名 安心练剑
  • 中文更加基础的组成元素是什么?
    最底层的粒度 我把汉语拆分到基础的字形、语音、字义。 是不是已经是最底层的粒度了?还能更加细致吗? 从字形、语音、字义把“汉语基础平台”拆到三大类,已经是 非常接近底层的语言学粒度了。 但如果你想打造的是 “可以像 CPU 指令集一样复用、可控、可组合的中文能力底座”,其实还可以继续往下拆,把“语言”进一步拆成更基础的“元素级组件”。 下面我给你一个 更细致、可工程化、可落地的中...
    2025-12-05 12:49:20 | NLP
  • 张吉惟们“最忙5人组”分身乏术?我花 5 分钟解决了这个问题!
    全国就你们五个“活人”吗? 一份网络文档的前五个名字,正以整齐划一的队形,占领着从政府采购到书法大赛的各类名单,忙得连网友都看不下去了。 “张吉惟、林国瑞、林玟书、林雅南、江奕云”——看到这五个名字,你是不是觉得有点眼熟? 如果你觉得在某次书法比赛的获奖名单里见过他们,又或者在老家政府网站的某次采购评审公告里和他们打过照面,甚至觉得他们好像还因为“占道经营”被罚过款,别怀疑自己...
    2025-12-05 12:49:20 | NLP
  • NLP 平台-25-汉字数字信息
    百度汉语 https://hanyuapp.baidu.com/dictapp/word/detail_getworddetail?wd=%E5%A1%94&client=pc&lesson_from=xiaodu 数据: { "errno": 0, "errmsg": "", "data": { "detail": { ...
    2025-12-05 12:49:20 | NLP
  • NLP 平台-04-基础平台之单个汉字笔画库
    # chat 网上开源的汉字笔画顺序库 你说的「网上开源的汉字笔画顺序库」确实有几个值得推荐的 —— 以下是目前比较知名、可直接使用/二次开发的开源(或自由可用)汉字笔画/笔顺数据库/工具库/相关资源。 ✅ 已知开源/免费汉字笔画顺序库/工具 名称 / 项目 简介 / 功能 cnchar ...
    2025-12-05 12:49:20 | NLP
  • NLP 平台-04-基础平台之单个汉字管理
    🔥 一、系统目标(汉字管理模块) 建立一个可维护、可扩展、支持批量处理的汉字基础语料管理平台,提供: 汉字 CRUD 批量导入 / 批量更新 / 批量删除 / 批量导出 字段级结构化维护(拼音、笔画、部首等) 富文本解释/释义录入 原始文本与结构化字段并存 审计字段(状态、创建人、操作人等) 高效的列表检索(字、拼音、部首) 🔥 二、数据结构设计(数...
    2025-12-05 12:49:20 | NLP
  • NLP 平台-02-关于汉字相关的一些 NLP 信息
    chat 适合做: ✔ 汉字字典 ✔ NLP 语料库 ✔ 搜索增强 ✔ 分词系统 ✔ LLM 语言知识库 ✔ 教育类应用 我把它分成 8 大类、50+ 项字段,并标明用途。 🧱 1. 字音(Pronunciation)——音 ✔ 基础读音 拼音(带声调):zhōng 拼音(数字调):zhong1 多音字所有读音:zhā / zhà / zhá ✔ 声韵母 ...
    2025-12-05 12:49:20 | NLP
  • NLP 平台-03-基础的设计蓝图
    汉语基础预料的管理平台 下面给一个面向可交付、按优先级(P0→P2)划分的功能规划,专注于你想先做的三类语料:汉字(word)/ 词语(ci)/ 歇后语(xiehouyu)。 每个条目都包含:为什么要先做、验收标准(可交付物)和实现要点/注意事项,便于你直接落地实现或分配给团队去干。 我会把优先级分为三个阶段: P0(MVP 必须):产品能用起来的最小集合; P1(关键能力...
    2025-12-05 12:49:20 | NLP
  • NLP 平台-01-基本的概览
    chat ✅ NLP 语料管理平台 — 推荐优先级路线图(从高到低) P0:基础可用(必须先做) 1. 统一语料数据模型(Core Schema) 为什么优先? 后面所有功能都依赖一致的 schema,如果文件结构乱、字段定义不统一,会导致后续所有功能痛苦加倍。 内容包含: id text(内容) pinyin(拼音,词/成语可选) meaning(释义) ...
    2025-12-05 12:49:20 | NLP