一种语音识别装置以及语音识别方法,借由较高的精度以及较少的处理量对语音识别的结果作正误判断。借由对照声音模型HMMsb与语音的特征矢量V(n)求取表示最大优度的声音模型的识别结果RCG与表示最大优度值的第一记录FSCR,与表示其次优度值的第二记录SSCR,而借由将以前述第一记录FSCR及第二记录SSCR为依据的评价值FSCRX(FSCR-SSCR)与预先设定的基值THD比较,来判断识别结果为正或为误。识别结果RCG若判断为正确时则对声音模型HMMsb实行说话人适应处理,而识别结果RCG若判断为误,则不对声音模型HMMsb进行说话人适应处理,借此方式以提高说话人适应处理的精度等。(*该技术在2023年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及一种借由说话人适应处理实行语音识别的。而且,本专利技术还涉及一种使用实施过说话人适应处理的语音模型实行语音识别的。
技术介绍
语音识别很困难的主要原因,一般被认为是由于说话人的语音受发音器官及语音习惯等个人差异影响。以往,对于这些存在个人差异影响的语音,作为常用的语音识别算法,主要使用MLLR(Maximum Likelihood Linear Regression)与MAP(Maximum a Posteriori)等说话人适应处理来提高对于特定说话人语音的识别率。这种说话人适应处理方法,利用许多非特定人的语音预先形成以音素或者单词为单位的许多声音模型(初期的声音模型),然后借由应作说话人适应处理的说话人语音的特征量,对这些声音模型进行说话人适应处理。但是,为了实行适当的说话人适应处理,必须参照语音识别结果,对音素或单词单位的声音模型实施说话人适应处理。也就是,以具体的事例来说明,当说话人讲出“东京”时,只有在该语音被正确识别为“东京”时,才需要将“东京”的声音模型作说话人适应处理,若根据错误识别的结果将“东京”的声音模型作说话人适应处理,则变成实行错误的说话人适应处理之情况。假设说话人讲出“东京”时,将其语音误识别为“京都”,则当对“京都”的声音模型以“东京”的语音特征量实行说话人适应处理时,无法实施适当的说话人适应处理,从而会降低说话人适应处理后的语音识别率。因此,作为实行说话人适应处理时的前提条件,准确的判断语音与语音识别的结果是否一致,也就是准确的判断语音识别的结果是否正确很重要。但是,按照现有的说话人适应处理方法,因为判断语音识别结果是否正确的工作量非常庞大,因此开发一种不会使说话人感到压力,可迅速并且适当的实行说话人适应处理的新颖的判断处理方法成为一个很重要的课题。此外,在语音识别的
中,存在使用大量语音数据库实行学习的非特定人语音模型实行语音识别的技术。但是,这种非特定人语音模型,因为是根据许多非特定人的语音资料进行学习,所以在识别标准语音说话人的语音的情况下可得到较高的识别性能,然而在识别具有特征语音说话人的语音的情况下,存在不一定能得到较高识别性能的问题。因此,本专利技术有借由各个说话人的语音将非特定人语音模型作说话人适应处理,而借由使用该经说话人适应处理的声音模型对每个说话人实行适当的语音识别的说话人适应处理方法。现有的说话人适应处理方法,使用大量的语音数据库预先生成音素等次单词单位的非特定人语音模型(以下称为“初期语音模型”),而在开始实际的语音识别之前的前期处理阶段对初期语音模型实施说话人适应处理。也就是,在前期处理阶段的时候使说话人说话,然后根据语音特征矢量系列将初期语音模型作说话人适应处理,生成考虑到说话人个人差异的说话人适应模型。还有,在实际的语音识别时,对照说话人所发出的应识别的语音的特征矢量系列与由上述的说话人适应模型构成的系列,就可得对说话人适应模型系列作语音识别的最优结果。但是,对于初期语音模型实行说话人适应处理时,在说话人的语音上将叠加以说话环境下的背景杂音。因此,应用现有的说话人适应处理方法的情况下,除说话人的语音之外,还需借由叠加有背景杂音的语音(也就是背景杂音叠加语音)的特征矢量系列作说话人适应处理,从而有时会难以产生高精度的说话人适应模型。特别是在使用杂音较多环境下的语音进行说话人适应处理时,将强烈的受到背景杂音的影响,而产生难以生成能适当反映说话人特征的说话人适应模型之情形。而且,实际上,借由利用现有的说话人适应处理方法作说话人适应处理的上述说话人适应模型实行语音识别时,如果识别时环境下的背景杂音与已述的说话人适应处理时的背景杂音不同,就会无法充分获得实行说话人适应处理所产生的效果,也就是无法改善语音识别率。
技术实现思路
为解决前述问题,本专利技术的目的在于提供一种可迅速并且适当的实行说话人适应处理的。还有,本专利技术的另一目的在于提供一种对于背景杂音的影响可实行强制的说话人适应处理的。为实现上述目的,本专利技术提供一种语音识别装置,其对声音模型借由语音的特征矢量实施说话人自适应;其具备有语音识别装置,借由对照上述声音模型与语音的特征矢量而输出表示得到最大优度(相似度)的声音模型的识别结果,与表示上述最大优度的值的第一记录,与表示其次的优度值的第二记录;判断装置,将依据上述第一记录与第二记录的评价值与预先设定的基值(阈值)作比较,在上述评价值相对于基值呈一定关系的情况下则判断前述识别结果为正确;说话人适应处理装置,借由上述判断装置判断上述识别结果为正确时对前述声音模型实施说话人适应处理。另外,本专利技术提供一种语音识别方法,根据语音的特征矢量对声音模型实施说话人适应处理;包括第一步骤,对照上述声音模型与语音的特征矢量而求取表示得到最大优度的声音模型的识别结果,与表示前述最大优度的值的第一记录,及表示其次优度值的第二记录;第二步骤,将依据前述第一记录与第二记录得出的评价值与预先设定的基值作比较,在上述评价值相对于基值呈一定关系的情况下判断上述识别结果为正确;第三步骤,在上述第二步骤中,在判断前述识别结果为正确时则对前述声音模型实施说话人适应处理。所述的语音识别装置与语音识别方法,其中,在说话人适应处理的过程中,借由对照声音模型与语音的特征矢量求取表示得到最优声音模型的识别结果与表示最优值的第一记录以及表示其次优度值的第二记录,然后再将依据第一记录与第二记录的评价值与预设的基值比较。随后,在评价值相对于基值呈一定关系时,则判断为识别结果正确,对声音模型实施说话人适应处理。借此,可根据正确的识别结果实施适当的说话人适应处理。另外,所述语音识别装置,其中,在上述评价值相对于基值为不呈一定关系的情况下,则上述判断装置判断上述识别结果为误,而上述说话人适应处理装置在判断上述识别结果为误时不对前述声音模型实施说话人适应处理。另外,所述语音识别方法,其中,在上述第二步骤中在上述评价值相对于前述基值不呈一定关系的情况下则判断上述识别结果为误,而在上述第三步骤中在判断上述识别结果为误时则不对上述声音模型实施说话人适应处理。所述的语音识别装置与语音识别方法,其中,当识别结果判断为误时则不对声音模型实施说话人适应处理。借此,借由不根据错误的识别结果实行说话人适应处理可防止说话人适应处理后的语音识别精度的变低。所述的语音识别装置,其中前述评价值根据上述第一记录与第二记录的差值进行演算。所述的语音识别方法,其中前述评价值根据上述第一记录与第二记录的差值进行演算。所述的语音识别装置与语音识别方法,借由以第一记录与第二记录的差值计算评价值,而在该计算所得的评价值相对于基值呈一定关系时则判断识别结果为正确,另外,其评价值相对于基值不呈一定关系时则判断为识别结果为错误,由此可提高判断时的判断精度。另外,所述语音识别装置,其还具备一装置,为在前述判断装置判断前述识别结果为错误时则禁止上述识别结果的输出,并且实行上述识别结果为错误的信息提示。另外,所述语音识别方法,在前述第二步骤中在判断前述识别结果为错误时则禁止上述识别结果的输出同时还实行上述识别结果为错误的信息提示。所述的语音识别装置与语音识别方法,可对使用者提示是否实行了适当的说话人适应处理等有效信息。此外,本专利技术提供一种语音本文档来自技高网...
【技术保护点】
一种语音识别装置,其对声音模型借由语音的特征矢量实施说话人适应处理;其具备有:语音识别装置,借由对照上述声音模型与语音的特征矢量而输出表示得到最大优度(相似度)的声音模型的识别结果,与表示上述最大优度的值的第一记录,与表示其次的优度值的 第二记录;判断装置,将依据上述第一记录与第二记录的评价值与预先设定的基值(阈值)作比较,在上述评价值相对于基值呈一定关系的情况下则判断前述识别结果为正确;说话人适应处理装置,借由上述判断装置判断上述识别结果为正确时对前述声音模型实施 说话人适应处理。
【技术特征摘要】
JP 2002-4-26 126939/2002;JP 2002-5-17 142998/20021.一种语音识别装置,其对声音模型借由语音的特征矢量实施说话人适应处理;其具备有语音识别装置,借由对照上述声音模型与语音的特征矢量而输出表示得到最大优度(相似度)的声音模型的识别结果,与表示上述最大优度的值的第一记录,与表示其次的优度值的第二记录;判断装置,将依据上述第一记录与第二记录的评价值与预先设定的基值(阈值)作比较,在上述评价值相对于基值呈一定关系的情况下则判断前述识别结果为正确;说话人适应处理装置,借由上述判断装置判断上述识别结果为正确时对前述声音模型实施说话人适应处理。2.根据权利要求1所述的语音识别装置,其中前述判断装置在上述评价值相对于基值不呈一定关系的情况下判断上述识别结果为误,而上述说话人适应处理装置在判断上述识别结果为误时不对前述声音模型实施说话人适应处理。3.根据权利要求1所述的语音识别装置,其中前述评价值根据上述第一记录与第二记录的差值进行计算。4.根据权利要求2所述的语音识别装置,其还具备一装置,在前述判断装置判断前述识别结果为错误时则禁止上述识别结果的输出,并且作出表示上述识别结果为错误的信息提示。5.一种语音识别方法,根据语音的特征矢量对声音模型实施说话人适应处理;其具备有第一步骤,对照上述声音模型与语音的特征矢量而求取表示得到最大优度的声音模型的识别结果,与表示前述最大优度的值的第一记录,及表示其次优度值的第二记录;第二步骤,将依据前述第一记录与第二记录得出的评价值与预先设定的基值作比较,在上述评价值相对于基值呈一定关系的情况下判断上述识别结果为正确;第三步骤,在上述第二步骤中,在判断前述识别结果为正确时则对前述声音模型实施说话人适应处理。6.根据权利要求5所述的语音识别方法,其在上述第二步骤中在上述评价值相对于前述基值不呈一定关系的情况下则判断上述识别结果为误,而在上述第三步骤中在判断上述识别结果为误时则不对上述声音模型实施说话人适应处理。7.根据权利要求5所述的语音识别方法,其中前述评价值借由上述第一记录与第二记录的差值作计算。8.根据权利要求6所述的语音识别方法,其在前述第二步骤中在判断前述识别结果为错误时则禁止上述识别结果的输出,同时还作出表示上述识别结果为错误的信息提示。9.一种语音识别装置,具备有记忆装置,具有初期语音模型;一杂音适应装置,借由在对上述记忆装置的初期语音模型实行说话人适应处理时的背景杂音,实施以杂音适应处理来产生杂音适应模型;说话人适应参数计算装置,对上述杂音适应处置所产生的前述杂音适应模型借由上述说话人适应处理时所说话的语音实行说话人适应计算,从而计算出将上述杂音适应模型变换为杂音叠加说话人适应模型用的说话人适应参数;语音模型更新装置,在对上述记忆装置的初期语音模型借由上述说话人适应处理参数实施说话人适应处理以产生说话人适应模型,而将该说话人适应模型取代前述初期语音模型从而更新记忆于上述记忆装置。10.根据权利要求9所述的语音识别装置,其还具备有在语音识别时实行语音识别处理的识别处理装置,并且上述杂音适应装置借由上述语音识别时的非说话期间的背景杂音对更新记忆于上述记忆装...
【专利技术属性】
技术研发人员:外山聡一,
申请(专利权)人:日本先锋公司,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。