基础的词库
笠翁对韵 全部韵脚系列
整体思路
词库中优先使用
结合算法:无论这个算法是深度学习还是其他。
分词
词库中的长词要想被使用,首先就需要对【上联】进行中文分词,然后查询词典,获取对应映射关系。
词库不能太大
比如对联的训练集合有 70w 的对联,将这些数据都存储起来,显然不现实。
最核心的原理应该还是词向量+n-gram。
平仄
文字的平仄可以简单的按照拼音来处理,当然这样不够准确。
Github 参考资料
这份数据包含70万条对联数据,按字切分,作者很用心的给大家准备了训练集、测试集还有词汇表;
同时还开源了一个基于Tensorflow的深度学习工具来训练自动对联模型: