基础的词库

笠翁对韵全部韵脚系列

整体思路

词库中优先使用

结合算法：无论这个算法是深度学习还是其他。

词库中的长词要想被使用，首先就需要对【上联】进行中文分词，然后查询词典，获取对应映射关系。

比如对联的训练集合有 70w 的对联，将这些数据都存储起来，显然不现实。

最核心的原理应该还是词向量+n-gram。

文字的平仄可以简单的按照拼音来处理，当然这样不够准确。

这份数据包含70万条对联数据，按字切分，作者很用心的给大家准备了训练集、测试集还有词汇表；

同时还开源了一个基于Tensorflow的深度学习工具来训练自动对联模型：