最简单的实现思路
基础预料
获取所有单个字的读音,常见的标点符号。
- 音频的压缩
针对中文,只需要获取每个读音的5个声调即可。
针对汉字,首先进行拼音转换(带声调),然后统一去重处理。
- 分词的处理
可以针对句子分词,然后获取对应的词语读音。
如果没有对应的词语读音,再去寻找对应的单个声字读音。
词语也可以使用拼音进行音频的压缩。
- 标点符号
标点符号单成一个词的时候,可以保留对应的读音。
但是通常情况下,更多的是标识一种停顿,或者语气。
- 完整的句子拼接
经历过获取所有的音频之后,需要把音频进行拼接整合为一个完整的 mp3 音频。
中英文
对于英文,其实市面上有非常成熟的工具。
可以直接拿来主义,整合到 tts 工具中即可。
词性标注
数字-中文读音
标点-语音,停顿
英文-使用英语 tts
中文-使用中文 tts
润色
直接拼接的 mp3 不知道效果如何,可以考虑下如何优化这种读音。