作为语音识别错误预测器的用于语法适合度评估的方法和系统技术方案

技术编号:6845012 阅读:261 留言:0更新日期:2012-04-11 18:40
作为语音识别错误预测器的用于语法适合度评估的方法和系统,从语法结构内接收多个语句。多个语句的每一个由多个词集形成。通过在词集的基础上对齐多个语句来识别在多个语句上的多个对齐区域。每一个对齐的词集表示一个对齐区域。在多个语句上识别多个可能的混淆区域。通过来自在对齐区域外部的对应位置处的语句的两个或更多的词来定义每一个可能的混淆区域。对于每个识别的可能混淆区域,分析在可能的混淆区域内的词的语音发音,以确定在计算事件期间在被语音识别系统可听地处理时的词之间的混淆概率的度量。报告在多个语句上的可能混淆区域的标识和它们对应的混淆概率的度量,以方便语法结构改善。

【技术实现步骤摘要】

本专利技术总体上涉及一种语音识别系统的方法,更具体地涉及用于评估要在语音识别系统中使用的语法的适合度的方法和系统。
技术介绍
系统设计者和制造商将用于系统用户与电子装置连接所实现的强壮和有效的技术作为重要考虑。电子装置的语音控制的操作常常可以提供用于系统用户控制电子装置和与电子装置交互的期望的接口。例如,电子装置的语音控制的操作可以允许用户同时执行其他任务,或在特定类型的操作环境中会是有益的。另外,具有身体限制或特殊要求的用户可能也期望电子装置的免提操作。可以通过各种语音激活的电子装置来实现电子装置的免提操作。语音激活的电子装置有益地允许在使用传统的输入装置不方便或可能危险的情况下用户与电子装置连接。 然而,有效地实现语音识别系统对于系统设计者设立了相当大的挑战。在语音识别系统的领域中,语音识别系统输入音频流,该音频流被过滤以提取和分出作为语音的声音片段。语音识别引擎然后通过下述方式来分析语音声音片段将它们与定义的发音词典、语法识别网络和声音模型作比较。子词汇语音识别系统通常配备了一种用于从模型化语音波形的更基本的单元来构成词和语句的方式。例如,在基于音素模型的语音识别系统中,可以将发音词典作为查找表,以从它们的音标建立词。而且,用于词组合的明确规则被提供来由词建立句子。句子构造的规则被看作“识别语法”。识别语法的复杂度取决于要识别的应用的特性。例如,一些简单的命令类的应用要求词分开的语法,而一些对话类应用要求更复杂的句子的构造。不管应用的复杂度如何, 应用开发者需要小心地指定语法,并且需要对该语法进行改善以便保证完整性(即,该语法覆盖应用所需要的所有句子)并避免过度产生(即,保证语法不允许产生应用所不能理解的预料之外的句子)。即使对于更有经验的应用开发者而言,这样做也很耗时。不管开发者为致力来建立语法付出多少努力,语法都会包括语音识别系统可能在其中产生错误的几个区域。这是由于具有不同的含义并且与不同的行为相关联的不同词在声音上类似,或是由于词的特定组合非常接近于表示不同的含义或行为的另一个词组合。 这使得语音识别系统难以将词彼此区分开,由此引发识别错误。因此,应用开发者的任务是考虑与语法的可能混淆源,并且通过尝试避免在语法的可互换的位置中布置可引起混淆的词来试图消除可能的混淆源。然而,当在语法内的一组可能的词组合对于开发者以足够的细节和精度来手动探索而言太长时,这会是特别有挑战性的。因此,期望有系统的方式来自动地评估语法以识别可混淆词在语法内的可互换的位置中的布置。
技术实现思路
在一个实施例中,公开了一种计算机实现的方法,用于在计算事件期间评估在要在语音识别中使用的一组语句的语法结构内的可能混淆。所述方法包括用于从语法结构内接收多个语句的操作。多个语句的每一个由多个词集形成。所述方法还包括通过在词集的基础上对齐所述多个语句来识别在所述多个语句上的多个对齐区域的操作。每一个对齐的词集表示一个对齐区域。所述方法还包括用于在所述多个语句上识别多个可能的混淆区域的操作。通过来自在所述多个对齐区域外部的对应位置处的所述多个语句中的两个或更多的语句的词来定义每一个可能的混淆区域。对于每个所述识别的可能混淆区域,执行操作以分析在所述可能的混淆区域内的词的音标发音,以确定在所述计算事件期间在被语音识别系统可听地处理时的所述词之间的混淆概率的度量。所述方法还包括用于产生报告以传达在所述多个语句上的所述可能混淆区域的标识和它们对应的混淆概率的度量。在另一个实施例中,公开了一种用于在计算事件期间评估在要在语音识别中使用的一组语句的语法结构内的可能混淆的系统。所述系统包括输入模块,所述输入模块被定义来从语法结构内接收多个语句。所述多个语句的每一个由多个子集形成。所述系统还包括词级对齐模块,所述词级对齐模块被定义来识别在由所述输入模块接收的所述多个语句上的多个对齐区域。对齐区域对应于在所述多个语句上对齐的相同的词集。所述系统还包括混淆区域识别模块,所述混淆区域识别模块被定义来识别在所述多个语句上的多个可能混淆区域。通过来自在由所述词级对齐模块识别的所述多个对齐区域外的对应位置处的所述多个语句中的两个或更多语句的词来定义每一个可能的混淆区域。所述系统还包括混淆概率分析模块,所述混淆概率分析模块被定义来分析在由所述混淆区域识别模块识别的给定可能混淆区域内的词的音标发音。所述词的所述音标发音的分析确定了在所述计算事件期间在被语音识别系统可听地处理时的、在给定的可能混淆区域内的词之间的混淆概率的度量。在另一个实施例中,公开了一种计算机可读介质,其包括用于在计算事件期间评估在要在语音识别中使用的一组语句的语法结构内的可能混淆的程序指令。提供了用于从语法结构内接收多个语句的程序指令。所述多个语句的每一个由多个词集形成。还提供了通过以在词集的基础上对齐所述多个语句来识别在所述多个语句上的多个对齐区域的程序指令。每一个对齐的词集表示一个对齐区域。还提供了用于识别所述多个语句上多个可能的混淆区域的指令。通过来自在所述多个对齐区域外的对应位置处的所述多个语句中的两个或更多语句的词来定义每一个可能的混淆区域。还提供用于下述的程序指令分析在每一个可能的混淆区域内的词的音标发音,以确定在所述计算事件期间在被语音识别系统可听地处理时的、在每一个可能的混淆区域内的所述词之间的混淆概率的度量。通过下面结合附图的详细描述,本专利技术的其他方面将变得更清楚,其中,附图通过示例图示本专利技术。附图说明图IA示出根据本专利技术的一个实施例的输入文本文件的示例;图IB示出根据本专利技术的一个实施例的、使用可替代和可变的表示来指定语句而定义的图IA的输入文本文件;图2示出根据本专利技术的一个实施例的、与图IA和IB的输入文本文件对应的GnD 文件;图3示出根据本专利技术的一个实施例的、通过在图2的&iD文件中定义的两个语句的语法的路径网络;图4示出根据本专利技术的一个实施例的语法适合度评估(GFE)过程的操作图;图5示出根据本专利技术的一个实施例的、对通过对于图2的示例输入语法执行GFE 而生成的语法适合度报告的示例摘录;图6示出根据本专利技术的一个实施例的、GnD文件的构造及其对应的其语法适合度评估的步骤流程图;图7示出根据本专利技术的一个实施例的、一种用于在计算事件期间评估在要在语音识别中使用的一组语句的语法结构内的可能混淆的计算机实现的方法的流程图;以及图8示出根据本专利技术的一个实施例的、一种用于在计算事件期间评估在要在语音识别中使用的一组语句的语法结构内的可能混淆的系统的框图。具体实施例方式在下面的描述中,给出了多个具体细节,以便透彻地理解本专利技术。然而,很显然本领域内的技术人员可以在没有这些具体细节的一些或全部的情况下实施本专利技术。在其他情况下,未详细描述公知的过程操作,使得不会不必要地模糊本专利技术。在一个实施例中,在此公开的方法和系统被实现在索尼PlayStation 语音响应 (PSVR)工具内。PSVR工具被定义来允许应用(即,计算机程序)开发者将在应用执行期间输入的可听的语音处理为可以被应用实时识别和根据其起作用的格式。然而,应当明白,在其他实施例中,在此公开的方法和系统可以被实现于在PSVR工具外部的环境中。因此,在此公开的方法和系统不应被解释为限于在PSVR工具内的使用。语音本文档来自技高网
...

【技术保护点】
1.一种计算机实现的方法,用于在计算事件期间评估在要在语音识别中使用的一组语句的语法结构内的可能混淆,包括:从语法结构内接收多个语句,所述多个语句的每一个由多个词集形成;通过在词集的基础上对齐所述多个语句来识别在所述多个语句上的多个对齐区域,其中,每一个对齐的词集表示一个对齐区域;识别所述多个语句上的多个可能的混淆区域,其中,通过来自在所述多个对齐区域外的对应位置处的所述多个语句中的两个或更多语句的词来定义每一个可能的混淆区域;对于每个所述识别的可能混淆区域,分析在所述可能的混淆区域内的词的音标发音,以确定在所述计算事件期间在被语音识别系统可听地处理时的所述词之间的混淆概率的度量;以及产生报告以传达在所述多个语句上的所述可能混淆区域的标识和它们对应的混淆概率的度量。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:G·A·赫纳德兹阿伯莱格
申请(专利权)人:索尼计算机娱乐公司
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1