-
当代中国最贵的汉字是什么?
最贵的汉字
“你说,当代中国最贵的汉字是什么?”,有一天同事忽然问我。
“【诺】,因为一诺千金”,我脱口而出。
“不对。”
“【字】,一字千金?”
同事摇头。
“爱?”
“这个是无价的,不算。”
“人才。不是说 21 世纪最贵的是人才吗?”
“一个字,你这不算。你咋不说家书抵万金呢?”
“算了,不猜了。”,我脑海里为数不多的几个字转了一圈,没有一个符合的。
我有些疑惑地...
2020-01-20 02:09:32 |
NLP
-
GPT2-Chinese 中文版 GPT2 训练代码,使用 BERT 分词器。
GPT2-Chinese
中文的GPT2训练代码,使用BERT的Tokenizer或Sentencepiece的BPE model(感谢kangzhonghua的贡献,实现BPE模式需要略微修改train.py的代码)。
可以写诗,新闻,小说,或是训练通用语言模型。支持字为单位或是分词模式或是BPE模式(需要略微修改train.py的代码)。支持大语料训练。
项目状态
在本项目公布时...
2020-01-20 02:09:32 |
NLP
-
NLP 中文拼写检测实现思路
目的
汉字不存在错字,但是存在别字。
查了一遍整个 github,只有一个比较靠谱的实现 correction,基于 C 语言实现。
相对成熟的产品 写作猫
核心思路
核心思路如下:
使用语言模型计算句子或序列的合理性
bigram, trigram, 4-gram 结合,并对每个字的分数求平均以平滑每个字的得分
根据Med...
2020-01-20 02:09:32 |
Data-Struct
-
NLP 中文拼写检测纠正 Paper
摘要
本文介绍了SIGHAN 2015 拼写中文拼写检查,包括任务描述,数据准备, 绩效指标和评估结果。
比赛揭示了当前处理中文拼写检查的最新NLP技术。
所有此次测试中使用的带有黄金标准和评估工具的数据集可公开获取,以备将来研究之用。
介绍
中文拼写检查器相对较难开发,部分原因是中文单词之间不存在单词定界符,并且中文单词只能包含单个字符或多个字符。
此外,还有超过13,000个...
2020-01-20 02:09:32 |
Data-Struct
-
NLP 英文拼写算法,如果提升 100W 倍的性能?
SymSpell 算法
拼写更正和模糊搜索:通过对称删除拼写更正算法快 100 万倍
对称删除拼写校正算法降低了给定 Damerau-Levenshtein 距离的编辑候选生成和字典查找的复杂性。
它比删除 + 转置 + 替换 + 插入的标准方法快六个数量级,并且与语言无关。
与其他算法相反,只需要删除,不需要转置 + 替换 + 插入。输入术语的转置 + 替换 + 插入被转换为字典术...
2020-01-20 02:09:32 |
Data-Struct
-
NLP 中文拼写检测纠正算法整理
中文拼写纠正
最基本的思想,将所有的常见错别字整理为字典。
但是这个字典的数量实际上非常有限,所以还是要借助算法。
本文简单地讲解如何使用n-gram模型结合汉字拼音来作中文错别字纠错,然后介绍最短编辑距离在中文搜索纠错方面的应用;
最后从依赖树入手讲解如何作文本长距离纠错(语法纠错),并从该方法中得到一种启示,利用依赖树的特点结合ESA算法来做同义词的查找。
n-gram模型
...
2020-01-20 02:09:32 |
Data-Struct
-
NLP 中文形近字相似度计算思路
汉字相似度的计算思路
汉字本身的结构非常的复杂,可以通过结构进行计算。
汉字的结构
相似度计算算法
实现方式
首先人工做基本的 level 相似度分组,然后在这个基础之上,进行全自动识别。
汉字的形式化描述
汉字部件
在国家颁发的 GB13000.1字符集汉字部首归部规范 , 列出了20902 个汉字的部件表 , 对这些汉字进行了逐个拆分 。
从 中选定了5...
2020-01-20 02:09:32 |
NLP
-
java 如何计算两个汉字的相似度?如何获得一个汉字的相似汉字?
计算汉字相似度
情景
有时候我们希望计算两个汉字的相似度,比如文本的 OCR 等场景。用于识别纠正。
实现
引入 maven
<dependency>
<groupId>com.github.houbb</groupId>
<artifactId>nlp-hanzi-similar</artifactId>...
2020-01-20 02:09:32 |
NLP