基础预料
获取所有单个字的读音,常见的标点符号。
- 音频的压缩
针对中文,只需要获取每个读音的5个声调即可。
针对汉字,首先进行拼音转换(带声调),然后统一去重处理。
- 分词的处理
可以针对句子分词,然后获取对应的词语读音。
如果没有对应的词语读音,再去寻找对应的单个声字读音。
词语也可以使用拼音进行音频的压缩。
- 标点符号
标点符号单成一个词的时候,可以保留对应的读音。
2020年1月20日大约 1 分钟
获取所有单个字的读音,常见的标点符号。
针对中文,只需要获取每个读音的5个声调即可。
针对汉字,首先进行拼音转换(带声调),然后统一去重处理。
可以针对句子分词,然后获取对应的词语读音。
如果没有对应的词语读音,再去寻找对应的单个声字读音。
词语也可以使用拼音进行音频的压缩。
标点符号单成一个词的时候,可以保留对应的读音。
这就需要一套语言学标注系统,先给文本分词,再把文本转换成只有单词串起来的句子(例如把 1989 转成 nineteen eighty nine)后,再给这句话标注音素级别(上一个音素/下一个音素)、音节级别(单词的第几个音节)、单词级别(词性/在句子中的位置)等对语音合成有帮助的信息。
两种思路。
一种思路是,既然我们要生成语音,我们做个语音库,从库里面找找有没有合适的 speech unit,拼起来就好了呗。