笠翁对韵 全部韵脚系列
整体思路
词库中优先使用
结合算法:无论这个算法是深度学习还是其他。
分词
词库中的长词要想被使用,首先就需要对【上联】进行中文分词,然后查询词典,获取对应映射关系。
词库不能太大
比如对联的训练集合有 70w 的对联,将这些数据都存储起来,显然不现实。
笠翁对韵 全部韵脚系列
词库中优先使用
结合算法:无论这个算法是深度学习还是其他。
词库中的长词要想被使用,首先就需要对【上联】进行中文分词,然后查询词典,获取对应映射关系。
比如对联的训练集合有 70w 的对联,将这些数据都存储起来,显然不现实。
中文到英文的翻译有一些比较重要的作用:
作为基础的语料
作为后期翻译的字典
计算机相关命名等等。
使用已有的字典
结合相关列表,进行扩充(爬虫)
Free English to Chinese Dictionary Database 算是比较全的一个字典。
所有的姓氏
男性名称
女性名称
单字
双字
诗词+各种古代文学+单字+词的解释。
性 + 对应性别的候选词==》自动生成。
贝叶斯公式: P(Y|X) = P(X|Y) * P(Y) / P(X)
当X条件独立时, P(X|Y) = P(X1|Y) * P(X2|Y) * ...
应用到猜名字上
1)单姓,姓氏笔划+1,如“丁”姓,天格数理为2+1=3.
2)复姓,姓氏笔划数相加,如“司马”姓,司5+马10=15.
天格是由姓氏决定的,姓氏又是祖先传下来的,其数理对人影响不大。
如司马光,司马是复姓,天格是5+10=15;李刚,李是单姓,天格是7+1=8。天格乃祖先留下来的,其数理对人影响不大。
人格为人的主运,是整个姓名的中心点,可以推断人一生的命运。
1)单姓: 姓的笔划数+名字中第一个字的笔划数。如,王继远,王4+继20=24.
2)复姓: 姓氏后边的字+名字的第一个字。如司马懿,马10+懿22=32.
一个好的名字,某种程度上要有历史文化气息。
五行圆满(类似于传统迷信的部分)
文化底蕴(诗词歌赋,历史渊源)
读音朗朗上口
这个可以 pinyin 去判断 ,但是什么名字才会比较好呢?平仄吗?
个人觉得笔画太多其实不是好事,小时候孩子不好写名字,别人也懒得写,记不住。挺尴尬。
比如司马懿,这个名字很多人都记得,但是写的出来的人不多。
阴刻
阳刻
可以指定不同的字体
自动生成一张图片,最后背景透明。
图片的处理
当然实现比较繁琐,可以直接参考已有的实现。
字体,水印。
结合基本的 jar,生成一个简单易用的页面。
有时候我们希望计算两个汉字的相似度,比如文本的 OCR 等场景。用于识别纠正。
引入 maven
com.github.houbb
nlp-hanzi-similar
1.3.0
汉字本身的结构非常的复杂,可以通过结构进行计算。