声调
拼音声调是指普通话中的声调,通常叫四声,即阴平(第一声),用“ˉ”表示,如lā;阳平第二声,用“ˊ”表示,如lá;上声(第三声),用“ˇ”表示,如lǎ;去声(第四声),用“ˋ”表示,如;là。
汉语中还存在着一种特殊声调,叫做轻声,有时也叫第五声,在汉语拼音中不标调。有些学者认为“第五声”的说法并不确切。轻声虽然能够起分辨语义的作用,但是通常不列入汉语“四声”之一,因为声调是正常重音音节的音高形式。在音高上,轻音只有音区特征,声调还有曲拱特征。
每个汉字由韵母和声母配合构成一个音节构成。在韵母上部应该标出声调,为了方便也可省略。声调影响舌头位置,不仅仅声带有关。
汉语拼音是以北京语音系统作为语音标准的。
北京音也是中国地域最辽阔、人口最多的北方方言的典型代表。
解释汉语拼音用法和标准的《汉语拼音方案》是中国拼音文字方案的国家标准,也是联合国规定用来拼写中国人名地名和专用词语的国际标准。
它是中华人民共和国法定的拼音方案,是世界文献工作中拼写有关中国的专用名词和词语的国际标准。
1958年2月11日,第一届全国人民代表大会第五次会议正式通过了《汉语拼音方案》,并批准公布推行。
《汉语拼音方案》是采用国际通用的拉丁字母,采用音素化的音节结构拼写以北京语音为标准音的普通话的一种方案。
这里的拼音一般不带声调。
将汉字作为隐藏状态,拼音作为观测值,使用viterbi算法可以将多个拼音转换成合理的汉字。
例如给出ti,chu,le,jie,jue,fang,an,viterbi算法会认为提出了解决方案是最合理的状态序列。
HMM 需要三个分布,分别是:
-
初始时各个状态的概率分布
-
各个状态互相转换的概率分布
-
状态到观测值的概率分布
这个3个分布就是三个矩阵,根据一些文本库统计出来即可。
拼音转换工具的思路不难:
(1)词语分词
(2)基于词库进行拼音的映射
(3)拼接最后的结果
可以认为主要下面的部分值得留意
准确性
作为拼音转换算法,准确性优先级应该是在性能之前的。
如果我们能保证高准确性,应该尽可能的去提高准确性。
词库来源
这里的词库,不包括分词的词库,仅仅指拼音的词库。
指拼音的词库,收集可以在各种优秀词库的基础上,不应该在收集上耗费太多时间。
分词算法
分词有许多优秀的算法,其中的学问也比较多。