个人简介

Echo Blog


江湖无名 安心练剑
  • NLP 中文形近字相似度计算思路
    汉字相似度的计算思路 汉字本身的结构非常的复杂,可以通过结构进行计算。 汉字的结构 相似度计算算法 实现方式 首先人工做基本的 level 相似度分组,然后在这个基础之上,进行全自动识别。 汉字的形式化描述 汉字部件 在国家颁发的 GB13000.1字符集汉字部首归部规范 , 列出了20902 个汉字的部件表 , 对这些汉字进行了逐个拆分 。 从 中选定了5...
    2020-01-20 02:09:32 | NLP
  • java 如何计算两个汉字的相似度?如何获得一个汉字的相似汉字?
    计算汉字相似度 情景 有时候我们希望计算两个汉字的相似度,比如文本的 OCR 等场景。用于识别纠正。 实现 引入 maven <dependency> <groupId>com.github.houbb</groupId> <artifactId>nlp-hanzi-similar</artifactId>...
    2020-01-20 02:09:32 | NLP
  • NLP 中文人名印章生成
    基本功能要求 类型 阴刻 阳刻 字体 可以指定不同的字体 结果 自动生成一张图片,最后背景透明。 基本技术 图片的处理 当然实现比较繁琐,可以直接参考已有的实现。 字体,水印。 容易操作性 结合基本的 jar,生成一个简单易用的页面。 拓展阅读 图片处理工具-thumbnailator 参考文章 印章生成工具:使用Java Graphics2D生成各类圆形/...
    2020-01-20 02:09:32 | NLP
  • NLP 中文人名打分的实现思路
    个人理解 一个好的名字,某种程度上要有历史文化气息。 好名字 五行圆满(类似于传统迷信的部分) 文化底蕴(诗词歌赋,历史渊源) 读音朗朗上口 这个可以 pinyin 去判断 ,但是什么名字才会比较好呢?平仄吗? 笔画 个人觉得笔画太多其实不是好事,小时候孩子不好写名字,别人也懒得写,记不住。挺尴尬。 比如司...
    2020-01-20 02:09:32 | NLP
  • 名字,名称打分策略之三才五格
    1.天格 1)单姓,姓氏笔划+1,如“丁”姓,天格数理为2+1=3. 2)复姓,姓氏笔划数相加,如“司马”姓,司5+马10=15. 天格是由姓氏决定的,姓氏又是祖先传下来的,其数理对人影响不大。 例子 如司马光,司马是复姓,天格是5+10=15;李刚,李是单姓,天格是7+1=8。天格乃祖先留下来的,其数理对人影响不大。 2.人格 人格为人的主运,是整个姓名的中心点,可以推断人一...
    2020-01-20 02:09:32 | NLP
  • NLP 中文人名生成器,性别识别实现思路
    随机生成人名的原理 基本信息 所有的姓氏 男性名称 女性名称 单字 双字 诗词+各种古代文学+单字+词的解释。 随机 性 + 对应性别的候选词==》自动生成。 性别推测思路 数学 贝叶斯公式: P(Y|X) = P(X|Y) * P(Y) / P(X) 当X条件独立时, P(X|Y) = P(X1|Y) * P(X2|Y) * ... 应用到猜名字上 P(gen...
    2020-01-20 02:09:32 | NLP
  • NLP 中英文转换
    英语基础语料 中文到英文的翻译有一些比较重要的作用: 作为基础的语料 作为后期翻译的字典 计算机相关命名等等。 词典获取思路 使用已有的字典 结合相关列表,进行扩充(爬虫) Free English to Chinese Dictionary Database 算是比较全的一...
    2020-01-20 02:09:32 | NLP
  • NLP 中文对联实现思路
    基础的词库 笠翁对韵 全部韵脚系列 整体思路 词库中优先使用 结合算法:无论这个算法是深度学习还是其他。 分词 词库中的长词要想被使用,首先就需要对【上联】进行中文分词,然后查询词典,获取对应映射关系。 词库不能太大 比如对联的训练集合有 70w 的对联,将这些数据都存储起来,显然不现实。 最核心的原理应该还是词向量+n-gram。 平仄 文字的平仄可以简单的按照拼音来...
    2020-01-20 02:09:32 | NLP