字词网格内的语法的场境标记和偏移制造技术

技术编号：44344415 阅读：13 留言：0更新日期：2025-02-25 09:32

本发明专利技术涉及字词网格内的语法的场境标记和偏移。一方面，方法包括接收话语的音频数据的动作。所述动作进一步包括生成字词网格，该字词网格包括话语的多个候选转录并且包括转录置信分值。所述动作进一步包括确定计算设备的场境。所述动作进一步包括基于计算设备的场境来标识与多个候选转录相对应的语法。所述动作进一步包括针对多个候选转录中的每个来候选转录来确定语法置信分值，所述语法置信分值反映相应语法是相应候选转录的匹配的似然率；所述动作进一步包括从候选转录当中选择候选转录。所述动作进一步包括提供所选候选转录作为话语的转录，以用于输出。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书总体上涉及语音识别。

技术介绍

1、人们日益期望能够使用语音输入来执行与计算机的交互。这就需要输入处理方面的开发，特别是如何对计算机进行编程以处理和分析自然语言数据。这样的处理可能涉及语音识别，语音识别属于计算语言学领域，能够实现由计算机将口述的语言识别和翻译成文本。

技术实现思路

1、为了使用户能够通过语音向计算设备提供输入，语音输入处理系统可以使用场境来标识要应用于自动语音识别器所生成的候选转录的语法。每个语法可以指示说话者的不同意图或系统针对相同的候选转录要执行的动作。系统可以基于解析候选转录的语法、语法与用户意图相匹配的似然率以及候选转录与用户所说内容相匹配的似然率来选择语法和候选转录。然后，系统可以通过使用所选候选转录中所包括的细节来执行与语法相对应的动作。

2、更具体地，语音处理系统接收来自用户的话语并生成字词网格。字词网格是一种反映话语的可能字词和每个字词的置信分值的数据结构。系统从字词网格中标识候选转录和每个候选转录的转录置信分值。系统标识当前场境，该当前场境可以是基于用户特征、系统位置、系统特征、系统上运行的应用（例如，当前活动的应用或前台运行的应用）或任何类似的场境数据。基于场境，系统针对解析每个候选转录的语法来生成语法置信分值。在一个以上的语法可以应用于相同候选转录的情况下，系统可以调整一些语法置信分值。系统基于经调整的语法置信分值和转录置信分值的组合来选择语法和候选转录。

3、根据本申请中所述主题的创新方面，一种用于处理语音输

4、这些及其他实施方式能够各自可选地包括以下特征中的一个或多个。所述动作包括：确定语法中的两个或多个语法与候选转录中的一个候选转录相对应；以及基于确定语法中的两个或多个语法与候选转录中的一个相对应，针对两个或多个语法来调整语法置信分值。计算设备基于转录置信分值和经调整的语法置信分值来从候选转录当中选择候选转录。针对两个或多个语法来调整语法置信分值的动作包括：针对两个或多个语法中的每个语法将每个语法置信分值提高一个因子。所述动作包括针对候选转录中的每个候选转录来确定相应转录置信分值与相应语法置信分值的乘积。计算设备基于转录置信分值与相应语法置信分值的乘积来从候选转录当中选择候选转录。所述动作包括由计算设备确定计算设备的场境是基于计算设备的位置、计算设备的前台中运行的应用以及当日的时间。语言模型被配置成标识字词网格中所包括的词语序列的概率。声学模型被配置成标识与音频数据的一部分相匹配的音素。所述动作包括由计算设备执行基于所选候选转录和与所选候选转录相匹配的语法的动作。

5、该方面的其他实施例包括均被配置成执行方法操作的相对应的系统、装置和记录在计算机存储设备上的计算机程序。

6、能够实施本说明书中所述主题的特定实施例，以便实现以下优点中的一个或多个。语音识别系统可以使用所接收的语音输入和所确定的场境两者，来选择用于进一步处理所接收的语音输入的语法以使计算设备执行动作。以此方式，语音识别系统可以通过将有限数目的语法应用于候选转录而减少人机界面中的延迟。语音识别系统可以使用包括语言中全部或几乎全部字词的词汇表，使得语音识别系统能够在系统接收到意想不到的输入时输出转录。

本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法，所述方法在由数据处理硬件执行时使得所述数据处理硬件执行操作，所述操作包括：

2.根据权利要求1所述的计算机实现的方法，其中，所述操作进一步包括指示所述计算设备执行所识别的动作。

3.根据权利要求1所述的计算机实现的方法，其中，所述操作进一步包括基于所述计算设备的所述场境从多个语法中选择所述语法。

4.根据权利要求3所述的计算机实现的方法，其中，所述多个语法中的每个语法包括词语的不同指定结构。

5.根据权利要求1所述的计算机实现的方法，其中，所述计算设备包括移动电话或可穿戴设备。

6.根据权利要求1所述的计算机实现的方法，其中，所述语法包括默认语法。

7.根据权利要求1所述的计算机实现的方法，其中，所述一个或多个候选转录中的每个候选转录包括多个词语。

8.根据权利要求7所述的计算机实现的方法，其中，所述多个词语中的每个词语包括对应的词语置信分值。

9.根据权利要求1所述的计算机实现的方法，其中，所述转录似然率分值指示所述候选转录与所述用户说出的所述话语匹配的似然率。

10.根据权利要求1所述的计算机实现的方法，其中，所述数据处理硬件位于所述计算设备上。

11.一种系统，包括：

12.根据权利要求11所述的系统，其中，所述操作进一步包括指示所述计算设备执行所识别的动作。

13.根据权利要求11所述的系统，其中，所述操作进一步包括基于所述计算设备的所述场境从多个语法中选择所述语法。

14.根据权利要求13所述的系统，其中，所述多个语法中的每个语法包括词语的不同指定结构。

15.根据权利要求11所述的系统，其中，所述计算设备包括移动电话或可穿戴设备。

16.根据权利要求11所述的系统，其中，所述语法包括默认语法。

17.根据权利要求11所述的系统，其中，所述一个或多个候选转录中的每个候选转录包括多个词语。

18.根据权利要求17所述的系统，其中，所述多个词语中的每个词语包括对应的词语置信分值。

19.根据权利要求11所述的系统，其中，所述转录似然率分值指示所述候选转录与所述用户说出的所述话语匹配的似然率。

20.根据权利要求11所述的系统，其中，所述数据处理硬件位于所述计算设备上。

21.一种计算机实现的方法，所述方法在由数据处理硬件执行时使得所述数据处理硬件执行操作，所述操作包括：

22.根据权利要求21所述的计算机实现的方法，其中，所述操作进一步包括指示所述计算设备执行所识别的动作。

23.根据权利要求21所述的计算机实现的方法，其中，所述操作进一步包括基于所述计算设备的所述场境从多个语法中选择所述语法。

24.根据权利要求23所述的计算机实现的方法，其中，所述多个语法中的每个语法包括词语的不同指定结构。

25.根据权利要求21所述的计算机实现的方法，其中，所述计算设备包括移动电话。

26.根据权利要求21所述的计算机实现的方法，其中，所述计算设备包括可穿戴设备。

27.根据权利要求21所述的计算机实现的方法，其中，所述一个或多个候选转录中的每个候选转录包括多个词语。

28.根据权利要求27所述的计算机实现的方法，其中，所述多个词语中的每个词语包括对应的词语置信分值。

29.根据权利要求21所述的计算机实现的方法，其中，所述转录似然率分值指示所述候选转录与所述用户说出的所述话语匹配的似然率。

30.根据权利要求21所述的计算机实现的方法，其中，所述数据处理硬件位于所述计算设备上。

31.一种系统，包括：

32.根据权利要求31所述的系统，其中，所述操作进一步包括指示所述计算设备执行所识别的动作。

33.根据权利要求31所述的系统，其中，所述操作进一步包括基于所述计算设备的所述场境从多个语法中选择所述语法。

34.根据权利要求33所述的系统，其中，所述多个语法中的每个语法包括词语的不同指定结构。

35.根据权利要求31所述的系统，其中，所述计算设备包括移动电话或可穿戴设备。

36.根据权利要求31所述的系统，其中，所述语法包括默认语法。

37.根据权利要求31所述的系统，其中，所述一个或多个候选转录中的每个候选转录包括多个词语。

38.根据权利要求37所述的系统，其中，所述多个词语中的每个词语包括对应的词语置信分值。

39.根据权利要求31所述的系统，其...

【技术特征摘要】