最简单的实现思路

基础预料

获取所有单个字的读音,常见的标点符号。

  • 音频的压缩

针对中文,只需要获取每个读音的5个声调即可。

针对汉字,首先进行拼音转换(带声调),然后统一去重处理。

  • 分词的处理

可以针对句子分词,然后获取对应的词语读音。

如果没有对应的词语读音,再去寻找对应的单个声字读音。

词语也可以使用拼音进行音频的压缩。

  • 标点符号

标点符号单成一个词的时候,可以保留对应的读音。

但是通常情况下,更多的是标识一种停顿,或者语气。

  • 完整的句子拼接

经历过获取所有的音频之后,需要把音频进行拼接整合为一个完整的 mp3 音频。

中英文

对于英文,其实市面上有非常成熟的工具。

可以直接拿来主义,整合到 tts 工具中即可。

词性标注

数字-中文读音

标点-语音,停顿

英文-使用英语 tts

中文-使用中文 tts

润色

直接拼接的 mp3 不知道效果如何,可以考虑下如何优化这种读音。

参考资料

github-text2voice