方案1-HMM预测

不依赖字典，直接根据繁题的字频预测。

优点：降低内存消耗

缺点：不知道 jieba 有没有对应的繁体字频统计。

而且我想在 HMM 服务降级的时候依然可以支持。

方案2-繁体字典预处理

基于 jieba-fenci + opencc4j 首先做一次预处理。

将所有的繁体词组处理一遍，频率和简体的保持一致。

为什么要这样呢？

互转的场景

我们肯定会有【简体=》繁体=》简体】的这种测试验证，我觉得应该保证可逆性。

老马啸西风2020年1月9日小于 1 分钟

中文分词算法之最大匹配算法

逆向匹配

参考资料

中文分词入门之最大匹配法

老马啸西风2020年1月9日小于 1 分钟

Quant-07-pandas 计算神器

pandas is an open source, BSD-licensed library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming language.

pandas is a NumFOCUS sponsored project.

老马啸西风2018年2月14日大约 4 分钟