标签: tts

基础预料

获取所有单个字的读音，常见的标点符号。

针对中文，只需要获取每个读音的5个声调即可。

针对汉字，首先进行拼音转换（带声调），然后统一去重处理。

可以针对句子分词，然后获取对应的词语读音。

如果没有对应的词语读音，再去寻找对应的单个声字读音。

词语也可以使用拼音进行音频的压缩。

标点符号单成一个词的时候，可以保留对应的读音。

老马啸西风2020年1月20日大约 1 分钟

这就需要一套语言学标注系统，先给文本分词，再把文本转换成只有单词串起来的句子（例如把 1989 转成 nineteen eighty nine）后，再给这句话标注音素级别（上一个音素／下一个音素）、音节级别（单词的第几个音节）、单词级别（词性／在句子中的位置）等对语音合成有帮助的信息。

两种思路。

一种思路是，既然我们要生成语音，我们做个语音库，从库里面找找有没有合适的 speech unit，拼起来就好了呗。

老马啸西风2020年1月20日大约 5 分钟