利用多语言字典执行语音识别的系统和方法技术方案

技术编号:3046451 阅读:239 留言:0更新日期:2012-04-11 18:40
本发明专利技术包括一种利用多语言字典进行语音识别的系统和方法,并且可以包括一个识别器,该识别器被配置成将输入的语音数据与多语言字典中的一系列字典条目作比较,以便检测一个识别的短语或命令。所述多语言字典可以用混合语言技术来实现,该技术利用用于合并如广东话和英语之类的多种不同语言的字典条目。因此,所述语音识别器可以有利地以有效且简洁的方式获得更为准确的语音识别准确度。

【技术实现步骤摘要】

本专利技术总体涉及电子语音识别系统,更具体来说,涉及利用多语言字典来执行语音识别的系统和方法。
技术介绍
对于系统设计者和制造商来说,实现一种让系统用户与电子设备接口的健壮且有效的方法是十分重要的考虑因素。对于许多系统用户来说,电子设备的语音控制操作是理想的接口。举例来说,语音控制操作允许用户同时执行其它任务。例如,人们可以在操作汽车的同时通过语音控制操作电子组织者(organier)。而对于有身体缺陷或者有其他特殊要求的用户来说,电子系统的无手操作也可能是理想的。通过各种语音激励的电子系统可以实现电子设备的无手操作。因此,在利用传统输入设备往往会不方便或有潜在危险的情况下,语音激励的电子系统有利地允许用户与电子设备接口。电子娱乐系统也可以利用语音识别技术以允许用户通过对系统说话来与之互动。然而,有效地实现此类系统对系统设计者来说是相当大的挑战。举例来说,对于增强系统功能和性能的提高的要求可能需要更强的系统处理能力和附加的硬件资源。提高对处理和硬件的要求,可能产生由于增加的生产成本和操作的低效率而导致导致相应的不利的经济影响。此外,虽然增强系统执行各种高级操作的能力可以为系统用户提供附加的好处,但是也会提高对控制和管理各系统组件的要求。举例来说,由于涉及大量复杂的数字数据,能有效识别广东话和英语这二者中单词及短语的增强的系统可以从有效的实施方案中获益。因此,出于所有上述原因,对于系统设计者和制造商来说,实现一种让系统用户与电子设备接口的健壮且有效的方法仍是十分重要的考虑因素。
技术实现思路
按照本专利技术,公开了通过利用多语言字典来执行语音识别的系统和方法。在某些实施例中,语音识别器可以将输入的语音数据与字典中的字典条目作比较,所述字典是通过利用在几个不同字典条目类中合并多种不同语言的混合语言技术来实现的。在一个实施例中,上述各字典条目类可以包括(但不限于)广东话类、英语类、混合的广东话-英语类以及借用(borrowed)英语类。在某些实施例中,广东话类可以包括从广东话语言中选出的任何适当的单词和短语。同样地,英语类可以包括从英语语言中选出的任何适当的单词和短语。然而,为将英语发音转换成相应的广东话发音,来自英语类的单词和短语一般会需要一个英语-广东话发音转换过程。混合的广东话-英语类可以包括具有从广东话和英语语言中选出的任何适当的单词和短语的条目。按照本专利技术,可以组合这些来自两种不同语言的单词,以便在字典中创建单个的条目。然而,正如以上所讨论的,为将英语发音转换成相应的广东话发音,来自英语语言的单词可能需要一个英语-广东话发音转换过程。在某些实施例中,借用英语类可以包括英语语言中的、已经典型地合并在说广东话的人们的标准日常使用中的任何适当的单词。比起相同单词的标准英语发音,在借用英语类中的单词一般会显示出发音变化。实际上,来自借用英语类的单词也可以和来自广东话语言及/或英语语言的单词相组合,以便为字典创建单个的条目。本专利技术通过利用单一优化的音素组提供一种用于表示多语言字典的简洁(compact)方法。因此,本专利技术利用上述用于实现多语言字典的改进的混合语言语音识别技术,从而提供广东话语言口语的准确表示,该表示典型地合并来自英语语言的各种单词和短语。因此,本专利技术提供一种通过利用多语言字典来执行语音识别的有效系统和方法。附图说明图1是按照本专利技术的计算机系统的一个实施例的方框图;图2是按照本专利技术的图1的存储器的一个实施例的方框图;图3是按照本专利技术的图2的语音检测器的一个实施例的方框图;图4是按照本专利技术的图2的隐藏式马尔可夫模型的一个实施例的图示;图5是按照本专利技术的图2的字典的一个实施例的图示;图6是按照本专利技术一个实施例的图5的字典条目的图示;图7是按照本专利技术一个实施例的最优化音素组的图示; 图8是按照本专利技术一个实施例的混合语言语音识别技术的图示;以及图9是按照本专利技术一个实施例的英语-广东话发音转换过程的图示。具体实施例方式本专利技术涉及在语音识别系统上的改进。下面的说明是在专利申请及其要求的情境下提供的,以使得本领域普通技术人员能够制造及使用本专利技术。本领域技术人员可以很容易的想到对各优选实施例的各种修改,并且本文中的一般原理也可被应用于其它实施例。因此,本专利技术不非旨在被限制于所示的各实施例,而是希望被授予与其中所描述的各原理和特征相一致的最广范围。本专利技术包括利用多语言字典进行语音识别的系统和方法,并且可以包括一个识别器,该识别器被配置成将输入的语音数据与多语言字典中的一系列字典条目作比较,以便检测到一个识别出的短语或命令。所述多语言字典可以用混合语言技术来实现,该技术利用合并了如广东话和英语之类的多种不同语言的字典条目。因此,所述语音识别器可以有利地以有效且简洁的方式获得更为准确的语音识别准确率。现参照图1,其中示出了按照本专利技术的计算机系统110的一个实施例的方框图。图1的实施例包括声音(sound)传感器112、放大器116、模数转换器120、中央处理单元(CPU)128、存储器130以及输入/输出接口132。在各替换实施例中,除了结合图1的实施例讨论的那些单元和功能之外,计算机系统110可以容易地包括各种其它单元和功能,或者用其它单元和功能替换图1中的那些单元和功能。声音传感器112检测声音能量,并将所检测到的声音能量转换成模拟语音信号,以便将其经线路114提供给放大器116。放大器116放大所接收的模拟语音信号,并将所放大的模拟语音信号经线路118提供给模数转换器120。模数转换器120随后将放大的模拟语音信号转换成相应的数字语音数据。然后,模数转换器120将数字语音数据经线路122提供给系统总线124。CPU 128随后可以访问系统总线124上的数字语音数据,并响应地分析和处理该数字语音数据,以便按照包含在存储器130中的软件指令执行语音检测。后面会结合图2-3进一步讨论CPU 128的操作和存储器130中的软件指令。在处理完语音数据之后,CPU 128随后可以将语音检测分析的结果经输入/输出接口132提供给其它装置(未示出)。在各替换实施例中,可以很容易地在图1所示的计算机系统110之外的各种装置中实现本专利技术。现参照图2,其中示出了按照本专利技术的图1的存储器130的一个实施例的方框图。存储器可以替换地包括各种存储装置配置,包括随机存取存储器(RAM)和诸如软盘或硬盘驱动器之类的存储装置。在图2的实施例中,存储器130包括(但不限于)语音检测器210、隐藏式马尔可夫模型(HMM)212以及词汇表字典214。在各替换实施例中,除了结合图2的实施例讨论的那些单元和功能之外,存储器130可以容易地包括各种其它单元和功能,或者用其它单元和功能替换图2中的那些单元和功能。在图2的实施例中,语音检测器210包括一系列由CPU 128执行以便分析和识别语音数据的软件模块,后面会结合图3进一步说明这些模块。在各替换实施例中,可以使用各种其它软件和/或硬件配置来容易地实现语音检测器210。语音检测器210可以利用HMM 212和字典214来实现本专利技术的语音识别功能。后面会结合图4进一步讨论HMM212的一个实施例,以及结合图5进一步讨论字典214的一个实施例。现参照图3,其中示出了按照本专利技术的图2的语音检测器210本文档来自技高网...

【技术保护点】
一种用于执行语音识别过程的系统,包括:被配置成将输入的语音数据与字典中的字典条目作比较的识别器,该字典是通过利用在所述字典条目中合并多种不同语言的混合语言技术来实现的;以及被配置成控制所述识别器从而执行所述语音识别过程的处理 器。

【技术特征摘要】
US 2003-8-11 10/6387501.一种用于执行语音识别过程的系统,包括被配置成将输入的语音数据与字典中的字典条目作比较的识别器,该字典是通过利用在所述字典条目中合并多种不同语言的混合语言技术来实现的;以及被配置成控制所述识别器从而执行所述语音识别过程的处理器。2.如权利要求1所述的系统,其中所述输入的语音数据包括广东话语言数据和英语语言数据,所述字典被配置成准确地表示一个预定的识别词汇表,用于分析所述广东话语言数据和所述英语语言数据。3.如权利要求1所述的系统,其中所述识别器和所述处理器被实现为消费电子设备的一部分。4.如权利要求1所述的系统,其中,所述字典的所述混合语言技术通过在所述语音识别过程期间识别所述多种不同语言,来改进所述识别器的识别准确度特性。5.如权利要求1所述的系统,其中所述字典条目中的每一条包括一条命令和一个相关联的音素串,所述相关联的音素串表示所述命令的发音特性。6.如权利要求5所述的系统,其中所述识别器为来自所述字典中每一条所述命令而把所述输入数据与所述音素串的隐藏式马尔可夫模型作比较,从而选择一个识别的单词。7.如权利要求1所述的系统,其中所述字典用最优化音素组表示,该最优化音素组用分开提供辅音音素和元音音素的音素技术实现,所述最优化音素组以一种只包括最小所需数目的所述辅音音素和所述元音音素的简洁方式加以实现。8.如权利要求7所述的系统,其中,在执行所述语音识别过程时,所述最优化音素组节约处理资源和存储器资源,所述最优化音素组还减少对执行识别器训练过程以便最初实现所述识别器的训练要求。9.如权利要求7所述的系统,其中所述最优化音素组包括音素b、d、g、p、t、k、m、n、ng、f、l、h、z、c、s、w、j、cl、sil、aa、i、u、e、o、yu、oe、eo、a、eu、aai、aau、ai、au、ei、oi、ou、eoi、ui及iu。10.如权利要求1所述的系统,其中所述字典被实现为包括代表广东话语言音素串的字典条目,而不将相应的音调信息作为所述音素串的一部分来加以利用。11.如权利要求1所述的系统,其中所述字典中的所述字典条目属于下面类别中的至少两个广东话类、英语类、混合的广东话-英语类。12.如权利要求11所述的系统,其中所述广东话类包括从标准广东话语言中选出的单词和短语。13.如权利要求11所述的系统,其中所述英语类包括从标准英语语言中选出的单词和短语。14.如权利要求13所述的系统,其中,为将英语发音转换成相应的广东话发音,来自所述英语类的所述单词和所述短语需要一个英语-广东话发音转换过程。15.如权利要求11所述的系统,其中所述广东话-英语类包括从标准广东话语言和标准英语语言中选出的组合式短语。16.如权利要求15所述的系统,其中为将英语发音转换成相应的广东话发音,来自所述广东话-英语类的所述短语的英语单词需要一个英语-广东话发音转换过程。17.如权利要求11所述的系统,还包括用于所述字典中的所述字典条目的借用英语类。18.如权利要求17所述的系统,其中所述借用英语类包括来自英语语言的、已经被合并在说广东话的人们的标准使用中的单词。19.如权利要求1所述的系统,其中所述字典的所述字典条目被划分成广东话类、英语类以及混合的广东话-英语类。20.如权利要求1所述的系统,其中所述字典的所述字典条目被划分成广东话类、英语类、混合的广东话-...

【专利技术属性】
技术研发人员:M埃蒙茨L奥洛伦肖X梅南德斯皮达尔
申请(专利权)人:索尼电子有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利