中国人名、地名和单位名的语音识别方法技术

技术编号:3047228 阅读:288 留言:0更新日期:2012-04-11 18:40
中国人名、地名和单位名的语音识别方法采用通用汉语语音模型以及以字和词为单位的专用三元概率模型构成语音识别系统进行无词汇限制、无说话人限制的语音输入。针对中国人名识别混淆度大的特点,本发明专利技术提出了一个能给出多个候选字的算法;针对某些应用其人名、地名和单位名是有限的约束条件,提出了一种基于半音节混淆度为基础的整体模糊匹配方法,使识别率进一步得到提高。本发明专利技术可广泛地应用于各种手持式设备的语音输入。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】
涉及在各种数字装置和平台中中国人名、地名和单位名输入等各种应用,属自动语音识别领域,其特征是采用通用汉语语音模型以及以字和词为单位的三元概率模型构成专用语音识别系统进行无词汇限制、无说话人限制的语音输入。针对中国人名和地名识别混淆度大的特点,本专利技术提出了一个多个候选字和候选人名的算法;针对某些应用其人名或地名是有限的具体条件,提出了一种基于半音节或混淆度为基础的整体模糊匹配方法,使系统识别率进一步得到提高。传统上,一般采用整词建模方法进行人名或地名的识别。这种方法是为每一个可能的词条建立语音样板,如附图说明图1所示。当添入一个新词时就需要朗读该词几遍,然后为该词建立一个声学模型或模板作为匹配参考(即整词建模),在识别时将待识别的语音信号与词表中的各个模板进行对比,找出最相近的那一个,即为识别结果。通常这种建模方式是在特定人条件下进行,即在识别和训练中均只能是同一个讲话人。几乎当前所有的手持式装置都采用该方法进行人名的识别,例如当前手机中普遍具有的语音拨号功能就是典型的例子。从图1可以看出,传统方法词表就是模型(板)库,加一个新词就要对每一词朗读一到三遍,建立模板或模型,识别时进行摸板和模型的一一匹配。这本身限制了它的应用范围,对于词典以外的人名地名就无能为力。这是因为在建立模型时,就是针对这些词条的,对于集外词,根本没有模板,当然不可能正确识别。这种方法的另一个缺点是在大规模词表的条件下,模型增多,用户的训练量也大量增加,系统在识别和存储等方面的资源开销也急增,因而不太可能在对资源要求比较严格的手持式或掌上电脑中进行。例如如果一个模型需要占用10K空间,匹配需要0.01秒时间,则100个词就需要占用1M空间,匹配需要1秒,其存储量及计算量都随词汇量线形增长。本专利技术的目的在于构造一种灵活的中国人名、地名以及单位名识别模式,使得既具有通用性,即能识别无词汇限制、无说话人限制的专用识别器;又具有灵活性,即能充分利用应用所包含的一些词汇约束来提高识别精度。以上通用性和专用性在很多应用中都是必须的,例如在进行电子名片输入时,这时其即要求没有词汇限制的语音输入,而一旦进行名片查询时,其词汇又是固定和封闭的。本专利技术的技术要点如图2所示,其特征在于利用大词汇量连续语音识别技术,建立通用的统计声学模型和专用的统计语言模型,并在识别器中采用相应的搜索算法进行最优搜索;最优搜索的结果为识别字符串;如为无词汇限制的识别,则识别字符串包括多个输出候选结果;如为有词汇限制的识别,则通过得分最高的识别字符串与限定词汇库中的词表进行动态相似性匹配,输出多个候选结果。图2中的通用语音模型采用隐式马尔柯夫模型,针对汉语发音特点,以汉语声母和韵母为单位建模。考虑到韵母和声母之间的相互影响,确定以上下文相关的多个声韵母单元和一个静音单元作为建模单元,利用大规模声学模型训练技术,建立与说话人无关的声韵母模型,使得系统与说话人无关系统。图2中的专用语言模型是用搜集大量中国人名、地名和单位名的基础上,采用大语料库技术统计而得。这种统计的特点在于分析中国人名和地名的构成特点,按不同的基本统计单元,分别建立统计模型,用于识别系统之中。具体地针对人名识别,建立以字为单位的语言模型;针对地名,则建立以词或短语为单位的语言模型。因为汉语中存在同音字的现象,仅依靠统计语言模型并不能完全解决人名地名中同音异字问题,因而从使用角度出发比较有效地获得多个识别候选结果是一个很重要的问题。图2中多候选的获取包括无词汇限制和有词汇限制两种情况。在不同的应用中,采用了不同的解决方案。图2中在有限词汇库下动态匹配算法所需的声韵母混淆度估算是通过对大量语音识别结果进行统计而估算得到。本专利技术的技术要点之二在于其中的专用语言模型是在搜集大量中国人名、地名和单位名的基础上,采用大语料库技术统计而得,这种统计的特点在于在分析中国人名和地名的构成特点的基础上,按不同的基本统计单元,分别建立统计模型,用于识别系统之中。本专利技术的技术要点之三在于具体地针对人名识别,建立以字为单位的语言模型;其方法如下1)由于姓与名是比较独立的两部分,所以在统计时把二者分开,以减少这种姓与名之间随机连接所带来的噪声;2)由于姓与名被分成两部分,而姓与名单独两部分的汉字数一般不超过两个,所以采用字的二元模型就足够反映这种统计特性;3)在识别时,需专利技术把姓的统计模型和名的统计模型分别建立再进行合并;4)在汉字人名中,姓一定位于第一,作为姓的汉字在人名中的位置分布有很强的统计规律;为了表示这种位置关系,在词表中引入一个虚拟词Wv,把该虚拟词放在每一个名字的前面和后面。本专利技术的技术要点之四在于针对地名和单位名,建立以词或短语为单位的语言模型,根据地名、单位名的特点,将地名、单位名拆分为一系列词,并建立一个地名词典,建立词典的方法是1)词表中含有基本的地名后缀和独立的地名,即尽量将地名、单位名拆分,但保证其有独立的意义,这样既尽可能地减少词表数量,又保持地名的相对完整性;2)地名词典还收录了国标汉字库GB2312,在该字库范围内,可以避免词典外面新词的出现,从而可以充分统计每一种地名组成的规律。本专利技术的技术要点之五在于因为汉语中存在同音字的现象,仅依靠统计语言模型并不能完全解决人名、地名和单位名中同音异字问题,因而开发了多个识别候选结果的获取方法。多候选的获取包括无词汇限制和有词汇限制两种情况,针对不同情况,采用了不同的解决方案。本专利技术的技术要点之六在于在无限词汇限制的条件下,多候选的获得首先按照第一名的识别结果将原始语音切分成单个的音节区间,然后对某个区间(Tn,Tn+1)中的语音按照单音节的假设进行重新识别,在假设前面单字已经确定的情况下,对重新识别后的音节所对应的同音字进行综合打分,按照得分高低给出候选结果。其算法如下1)根据识别结果进行回溯,获得对本人名语音输入的音节切分区间(T0,T1,T2,...,Tn)2)对该区间的语音进行重新识别假设前面已经确认的单字位Ci-1,当前汉字为Ci,其声学得分为Pai,则汉字Ci的得分为Pt=Pai+wBigram(Ci-1,Ci),这儿w为语言模型的权重;自左向右逐个确认候选单字,通过上述公式调整后续字的顺序,就可以有效地获得无词汇限制系统的多个候选的确认问题。本专利技术的技术要点之七在于在有限词汇条件下,多候选的获取采用了基于半音节混淆度为基础的模糊整体匹配方法,其本质是通过词表的约束来最大限度地提高识别的可靠性。其中混淆度的估算一种是语境无关的,一种是语境有关的;包括两个部分构成。第一块是汉语声韵母识别混淆度估算,第二块是识别结果与词表的模糊整体匹配本专利技术的技术要点之八在于其中第一块的基本原理是对语音库数据进行识别,并通过以下方式得到所有声母之间的混淆度和所有韵母之间的混淆度;假设声韵母之间不会产生混淆若其中一个样本其识别结果为拼音串C1′V1′C2′V2′...Cn′Vn′,该识别结果与正确的结果C1V1V2V2...CmVm进行动态对整,使得其能对上的拼音串个数最大,这样就可以得到大量拼音串对,即(C1′,C1),(V1′,V1),...,(Cl′,Ck),(Vl′Vk),...,(Cn′,Cm),(Vn′,Vm),则Cl被混淆成Ck的模糊度,其计算公本文档来自技高网...

【技术保护点】
一种中国人名、地名和单位名的语音识别方法其特征在于利用大词汇量连续语音识别技术,建立通用的统计语音模型和专用的统计语言模型,并采用有关搜索算法进行最优搜索给出识别中间结果;如为无词汇限制的识别,则通过按照最优序列切分输出多个候选结果;如为有词汇限制的识别,则通过与词汇表的动态相似性匹配,输出候选结果。

【技术特征摘要】
1.一种中国人名、地名和单位名的语音识别方法其特征在于利用大词汇量连续语音识别技术,建立通用的统计语音模型和专用的统计语言模型,并采用有关搜索算法进行最优搜索给出识别中间结果;如为无词汇限制的识别,则通过按照最优序列切分输出多个候选结果;如为有词汇限制的识别,则通过与词汇表的动态相似性匹配,输出候选结果。2.根据权利要求1所述的中国人名、地名和单位名的语音识别方法,其特征在于其中的专用语言模型是在搜集大量中国人名、地名和单位名的基础上,采用大语料库技术统计而得;这种统计的特点在于在分析中国人名和地名的构成特点的基础上,按不同的基本统计单元,分别建立统计模型,用于识别系统之中。3.根据权利要求1,2所述的中国人名、地名和单位名的语音识别方法,其特征在于具体地针对人名识别,建立以字为单位的语言模型;其方法如下1)由于姓与名是比较独立的两部分,所以在统计时把二者分开,以减少这种姓与名之间随机连接所带来的噪声;2)由于姓与名被分成两部分,而姓与名单独两部分的汉字数一般不超过两个,所以采用字的二元模型就足够反映这种统计特性;3)在识别时,需把姓的统计模型和名的统计模型分别建立再进行合并;4)在汉字人名中,姓一定位于第一,作为姓的汉字在人名中的位置分布有很强的统计规律;为了表示这种位置关系,在词表中引入一个虚拟词Wv,把该虚拟词放在每一个名字的前面和后面。4.根据权利要求1、2所述的中国人名、地名和单位名的语音识别方法,其特征在于针对地名和单位名,建立以词或短语为单位的语言模型,根据地名、单位名的特点,将地名、单位名拆分为一系列词,并建立一个地名词典,建立词典的方法是1)词表中含有基本的地名后缀和独立的地名,即尽量将地名、单位名拆分,但保证其有独立的意义,这样既尽可能地减少词表数量,又保持地名的相对完整性;2)地名词典还收录了国标汉字库GB2312,在该字库范围内,可以避免词典外面新词的出现,从而可以充分统计每一种地名组成的规律。5.根据权利要求1所述的中国人名、地名和单位名语音识别方法,其特征在于因为汉语中存在同音字的现象,仅依靠统计语言模型并不能完全解决人名、地名和单位名中同音异字问题,因而开发了多个识别候选结果的获取方法。多候选的获取包括无词汇限制和有词汇限制两种情况,针对不同情况,采用了不同的解决方案。6.根据权利要求1、5所述的中国人名、地名和单位名语音识别,其特征在于在无限词汇限制的条件下,多候选的获得首先按照第一名的识别结果将原始语音切分成单个的音节区间,然后对某个区间(Tn,Tn+1)中的语音按照单音节的假设进行重新识别,在假设前面单字已经确定的情况下,对重新识别后的音节所对应的同音字进行综合打分,按照得分高低给出候选结果。其算法如下1)根据识别结果...

【专利技术属性】
技术研发人员:徐波张红
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1