本发明专利技术实施例提供一种汉语音字转换方法以及系统、区分性词典的构建方法;所述汉语音字转换方法包括:根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;根据统计语言模型对所述字词网格进行解码,得到概率最大的转换路径以实现汉语音字的转换。通过本发明专利技术实施例,可以进一步提高音字转换的正确率。
【技术实现步骤摘要】
本专利技术涉及音字转换
,特别涉及一种基于区分性词典的。
技术介绍
拼音是中文汉字的音素串。在很多系统中,拼音到汉字的转换都是其组成的关键部分,如中文的键盘输入,中文的语音识别系统等。由于在中文中大概只有410个不带调拼音,而与其对应的汉字则有6700个,所以如何从同一个拼音中选出其正确的对应汉字,便成了目前的一个研究课题。目前来看,解决该问题的最好的办法之一是利用统计语言模型来消除同音字词所 带来的歧义。统计语言模型的构建,需要解决两个重要的问题1.词典的选择;2.模型参数的优化。以最常用的三元统计模型为例,可以把词典的选择分为有监督和非监督两类。有监督的方法中词典的构建主要是通过手工编制的。然而中文并没有统一标准的词典,语言学家也许会对上万个词条达成一致,但是其余的字词则会引起很大的争议。由于这个原因,大量的非监督词典构建方法被提出,其中包括了最大似然法词典的构建,基于互信息词典的构建等。与手工词典相比,这些方法证明基于数据驱动的词典构建法在具体应用中,具有同样的可行性,且更节约成本。对于语言模型的参数优化问题,学者在过去几十年,主要依据的优化准则是最大似然或最小困惑度。在最近几年,为了提高中文语音识别的正确率,一些学者提出区分性训练的方法来优化语言模型。该方法的核心思想为候选字词的相对概率在音字转换中比绝对概率得分更具有对同音字词消歧的作用。在语言模型的训练过程中,根据音字转换的结果来不断调整模型的参数。但是在实现本专利技术的过程中,专利技术人发现现有技术的缺陷在于在上述传统的方法中,词典的构建主要是通过手工编制,或者从文本中直接获取,词典的构建并没有考虑到拼音串的信息,不能进一步提高音字转换的正确率。下面列出了对于理解本专利技术和常规技术有益的文献,通过引用将它们并入本文中,如同在本文中完全阐明了一样。参考文献IJianfeng Gao, Hai-Feng Wang, Mingjing Li, and Kai-FuLee, “A Unified Approach to Statistical Language Modeling for Chinese,,,IEEEICASSP2000, Istanbul, Turkey.June 5-9, 2000.参考文献2Lingyun Pan and Changsheng Yang, “An Auto-systemFor Converting HANYUPINYIN to Chinese Characters,,,Journal ofComputer, 13(4) : 271-275.参考文献3Ruiqiang Zhang, Zuoying Wang and Jianping Zhang, “ChinesePinyin-to-Text Translation Technique with Error Correction Used for ContinuousSpeech Recognition,,,Journal ofTsinghua University(Sci&Tech), 37(10):9-11, 1997.参考文献4Ando,R.and Lee, “Mostly-unsupervised StatisticalSegmentation of Japanese:Application to Kanji,,,ANLP-NAACL. 2000.参考文献5Fuchun Peng, Dale Schuurmans, “Self-Supervised Chinese WordSegmentation,,,Proceedings of the 4th International Conference on Advances inIntelligent Data Analysis,p. 238-247, September 13-15, 2001.参考文献6ZhengChen, Kai-Fu Lee, Ming-jing Li, “Discriminative trainingon language model”,In Proc. ISCSLP 2000,Beijing, China, Oct 2000.参考文献7Hong-Kwang Jeff Kuo, et al “Discriminative Training ofLanguage Models for Speech Recognition,,,IEEE, ICASSP 2002, Orlando, Florida.参考文献8Jinsong Zhang, Wei Li, Yuxia Hou, Wen Cao, Ziyu Xiong, “AStudy On Functional Loads of Phonetic Contrasts Under Context Based On Mutual Information of Chinese Text And Phonemes,,,The 7th International Symposium onChinese Spoken Language Processing (ISCSLP), Tainan, Nov. 2010.参考文献9http: //www.speech.sri.com/projects/srilm/
技术实现思路
本专利技术实施例提供一种汉语音字的转换方法及系统、区分性词典的构建方法,目的在于进一步提高音字转换的正确率。根据本专利技术实施例的一个方面,提供一种汉语音字转换方法,基于区分性词典;所述汉语音字转换方法包括根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;根据统计语言模型对所述字词网格进行解码,得到概率最大的转换路径以实现汉语音字的转换。根据本专利技术实施例的又一个方面,提供一种区分性词典的构建方法,所述构建方法包括根据训练拼音串和初始词典构建字词网格,并用统计语言模型对所述字词网格进行解码以获得不同的拼音切换方式;从所述不同的拼音切换方式中确定互信息最大的拼音切换方式;根据所述互信息最大的拼音切换方式切割与所述训练的拼音串对应的文本,并统计切割后的文本以获得新的词典。根据本专利技术实施例的又一个方面,提供一种汉语音字转换系统,基于区分性词典;所述汉语音字转换系统包括第一生成单元,根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;路径获得单元,根据统计语言模型对所述字词网格解码,得到概率最大的转换路径以实现汉语音字的转换。本专利技术实施例的有益效果在于,通过基于文本与拼音的互信息而构建的区分性词典,来实现汉语音字的转换,可以进一步提高音字转换的正确率。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。在附图中图I是本专利技术实施例的转换方法的流程图;图2是本专利技术实施例的文本-拼音-文本传输模型的示意图; 图3是本专利技术实施例的解码过程的一个示例图;图4是本专利技术实施例的构建区分性词典的一个流程示意图; 图5是本专利技术实施例的构建区分性词典的又一个流程示意图;图6是本发本文档来自技高网...
【技术保护点】
一种汉语音字转换方法,基于区分性词典;其特征在于,所述汉语音字转换方法包括:根据输入的拼音串以及预先构建的区分性词典,生成与所述拼音串对应的字词网格;其中所述区分性词典基于文本与拼音的互信息而构建;根据统计语言模型对所述字词网格进行解码,得到概率最大的转换路径以实现汉语音字的转换。
【技术特征摘要】
【专利技术属性】
技术研发人员:张劲松,李伟,解焱陆,曹文,
申请(专利权)人:北京语言大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。