-
NLP 中文拼写检测实现思路
目的
汉字不存在错字,但是存在别字。
查了一遍整个 github,只有一个比较靠谱的实现 correction,基于 C 语言实现。
相对成熟的产品 写作猫
核心思路
核心思路如下:
使用语言模型计算句子或序列的合理性
bigram, trigram, 4-gram 结合,并对每个字的分数求平均以平滑每个字的得分
根据Med...
2020-01-20 02:09:32 |
Data-Struct
-
NLP 中文拼写检测纠正 Paper
摘要
本文介绍了SIGHAN 2015 拼写中文拼写检查,包括任务描述,数据准备, 绩效指标和评估结果。
比赛揭示了当前处理中文拼写检查的最新NLP技术。
所有此次测试中使用的带有黄金标准和评估工具的数据集可公开获取,以备将来研究之用。
介绍
中文拼写检查器相对较难开发,部分原因是中文单词之间不存在单词定界符,并且中文单词只能包含单个字符或多个字符。
此外,还有超过13,000个...
2020-01-20 02:09:32 |
Data-Struct
-
NLP 英文拼写算法,如果提升 100W 倍的性能?
SymSpell 算法
拼写更正和模糊搜索:通过对称删除拼写更正算法快 100 万倍
对称删除拼写校正算法降低了给定 Damerau-Levenshtein 距离的编辑候选生成和字典查找的复杂性。
它比删除 + 转置 + 替换 + 插入的标准方法快六个数量级,并且与语言无关。
与其他算法相反,只需要删除,不需要转置 + 替换 + 插入。输入术语的转置 + 替换 + 插入被转换为字典术...
2020-01-20 02:09:32 |
Data-Struct
-
NLP 中文拼写检测纠正算法整理
中文拼写纠正
最基本的思想,将所有的常见错别字整理为字典。
但是这个字典的数量实际上非常有限,所以还是要借助算法。
本文简单地讲解如何使用n-gram模型结合汉字拼音来作中文错别字纠错,然后介绍最短编辑距离在中文搜索纠错方面的应用;
最后从依赖树入手讲解如何作文本长距离纠错(语法纠错),并从该方法中得到一种启示,利用依赖树的特点结合ESA算法来做同义词的查找。
n-gram模型
...
2020-01-20 02:09:32 |
Data-Struct
-
NLP 中文形近字相似度计算思路
汉字相似度的计算思路
汉字本身的结构非常的复杂,可以通过结构进行计算。
汉字的结构
相似度计算算法
实现方式
首先人工做基本的 level 相似度分组,然后在这个基础之上,进行全自动识别。
汉字的形式化描述
汉字部件
在国家颁发的 GB13000.1字符集汉字部首归部规范 , 列出了20902 个汉字的部件表 , 对这些汉字进行了逐个拆分 。
从 中选定了5...
2020-01-20 02:09:32 |
NLP
-
java 如何计算两个汉字的相似度?如何获得一个汉字的相似汉字?
计算汉字相似度
情景
有时候我们希望计算两个汉字的相似度,比如文本的 OCR 等场景。用于识别纠正。
实现
引入 maven
<dependency>
<groupId>com.github.houbb</groupId>
<artifactId>nlp-hanzi-similar</artifactId>...
2020-01-20 02:09:32 |
NLP
-
NLP 中文人名印章生成
基本功能要求
类型
阴刻
阳刻
字体
可以指定不同的字体
结果
自动生成一张图片,最后背景透明。
基本技术
图片的处理
当然实现比较繁琐,可以直接参考已有的实现。
字体,水印。
容易操作性
结合基本的 jar,生成一个简单易用的页面。
拓展阅读
图片处理工具-thumbnailator
参考文章
印章生成工具:使用Java Graphics2D生成各类圆形/...
2020-01-20 02:09:32 |
NLP
-
NLP 中文人名打分的实现思路
个人理解
一个好的名字,某种程度上要有历史文化气息。
好名字
五行圆满(类似于传统迷信的部分)
文化底蕴(诗词歌赋,历史渊源)
读音朗朗上口
这个可以 pinyin 去判断 ,但是什么名字才会比较好呢?平仄吗?
笔画
个人觉得笔画太多其实不是好事,小时候孩子不好写名字,别人也懒得写,记不住。挺尴尬。
比如司...
2020-01-20 02:09:32 |
NLP