本发明专利技术公开了一种混合模型语音识别。一方面,一种方法包括:访问由计算设备基于来自用户的音频输入所生成的音频数据,该音频数据对一个或多个用户话语进行编码。该方法还包括:通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录,其中该第一语音识别器采用基于用户特定数据的语言模型。该方法还包括:通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录,其中该第二语音识别器采用独立于用户特定数据的语言模型。该方法还包括:确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语。该方法还包括:基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语,提供该话语的第一转录的输出。
【技术实现步骤摘要】
【国外来华专利技术】【专利说明】混合模型语音识别相关申请的交叉引用本申请要求于2013年3月15日提交的美国申请第13/838,379号和于2012年6月26日提交的美国申请第61/664,324号的权益,其通过参考被合并。
技术介绍
本说明书涉及语音识别。移动设备的用户可以通过例如在键盘上打字或者向麦克风中讲话来输入文本。在话音输入的情境中,自动搜索识别(ASR)引擎可以被用来处理语音形式的输入。
技术实现思路
一般而言,本说明书中所描述的主题的一个创新性方面可以用如下方法来实现,该方法包括用于提供声音转录的计算机实现的方法。该方法包括:访问由计算设备基于来自用户的音频输入所生成的音频数据,该音频数据对一个或多个用户话语进行编码。该方法还包括:通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录,其中该第一语音识别器采用基于用户特定数据的语言模型。该方法还包括:通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录,其中该第二语音识别器采用独立于用户特定数据的语言模型。该方法还包括:确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语。该方法还包括:基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语,提供该话语的第一转录的输出。这些和其他实现可以各自可选地包括以下特征中的一个或多个特征。该一个或多个术语的集合可以与要由计算设备执行的一个或多个动作关联。该第一语音识别器可以采用基于语法的语言模型。该基于语法的语言模型可以包括情境自由语法。该第二语音识别器可以采用基于统计的语言模型。该用户特定数据可以包括该用户的联系人列表、在计算设备上安装的应用的应用列表、或者在计算设备上存储的媒体的媒体列表。该第一语音识别器可以在计算设备上被实现并且该第二语音识别器可以在一个或多个服务器设备上被实现。一般而言,本说明书中所描述的主题的另一创新性方面可以用如下系统来实现,该系统包括用于提供声音转录的系统。该系统包括一个或多个计算机以及存储指令的一个或多个存储设备,该指令在由一个或多个计算机执行时可操作以使得该一个或多个计算机执行操作,该操作包括:访问由计算设备基于来自用户的音频输入所生成的音频数据,该音频数据对一个或多个用户话语进行编码;通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录,其中该第一语音识别器采用基于用户特定数据的语言模型;通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录,其中该第二语音识别器采用独立于用户特定数据的语言模型;确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语;以及基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语,提供该话语的第一转录的输出。这些和其他实现可以各自可选地包括以下特征中的一个或多个特征。该一个或多个术语的集合可以与要由计算设备执行的一个或多个动作关联。该第一语音识别器可以采用基于语法的语言模型。该基于语法的语言模型可以包括情境自由语法。该第二语音识别器可以采用基于统计的语言模型。该用户特定数据可以包括该用户的联系人列表、在计算设备上安装的应用的应用列表、或者在计算设备上存储的媒体的媒体列表。该第一语音识别器可以在计算设备上被实现并且该第二语音识别器可以在一个或多个服务器设备上被实现。一般而言,本说明书中所描述的主题的另一创新性方面可以用如下计算机可读介质来实现,该计算机可读介质包括存储软件的计算机可读介质,该软件包括由一个或多个计算机可执行的指令,该指令在这样执行时使得一个或多个计算机执行操作。该操作包括:访问由计算设备基于来自用户的音频输入所生成的音频数据,该音频数据对一个或多个用户话语进行编码;通过使用第一语音识别器对该音频数据执行语音识别来确定该话语的第一转录,其中该第一语音识别器采用基于用户特定数据而被开发的语言模型;通过使用第二语音识别器对该音频数据执行语音识别来确定该话语的第二转录,其中该第二语音识别器采用独立于用户特定数据而被开发的语言模型;确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语;以及基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语,提供该话语的第一转录的输出。这些和其他实现可以各自可选地包括以下特征中的一个或多个特征。该一个或多个术语的集合可以与要由计算设备执行的一个或多个动作关联。该第一语音识别器可以采用基于语法的语言模型。该第二语音识别器可以采用基于统计的语言模型。该用户特定数据可以包括该用户的联系人列表、在计算设备上安装的应用的应用列表、或者在计算设备上存储的媒体的媒体列表。该第一语音识别器可以在计算设备上被实现并且该第二语音识别器可以在一个或多个服务器设备上被实现。本说明书中所描述的主题的一个或多个实现的细节在下面的说明书和附图中阐述。该主题的其他潜在特征、方面和优点根据说明书、附图和权利要求将变得清楚。【附图说明】图1是采用不同能力的两个语音识别器的系统的示例的图。图2是示出用于执行语音识别的过程的示例的流程图。图3是示出用于执行语音识别的另一过程的示例的流程图。图4是示出在执行语音识别时的通信和操作的示例的泳道图。图5是示出屏幕截图的示例的图。图6不出了通用计算设备和通用移动计算设备的不例。在各个附图中,相似的附图标记指代相似的元件。【具体实施方式】图1是采用不同能力的两个语音识别器以例如增强语音识别精度的系统100的示例的图。图1还图示在状态(a)至状态(i)期间系统100内的数据流、以及在状态(i)期间在系统100的移动设备102上显示的用户界面101。简而言之,系统100在客户端侧语音识别器和服务器侧语音识别器二者上处理用户话语,这可以帮助解决由话语中的用户特定词语或名称造成的歧义。例如,客户端侧语音识别器可以使用通过使用用户特定数据诸如用户的联系人列表中的联系人姓名而被开发的有限语言模型,而服务器侧语音识别器可以使用独立于这样的用户特定数据而被开发的大型词汇语言模型。在这种情况下,对这两种语音识别器的结果的比较或组合可以被用来在话语涉及用户特定术语时增加精度。更具体地,该系统100包括移动设备102,该移动设备102通过一个或多个网络106与服务器104和ASR引擎105进行通信。ASR引擎105可以在服务器104上被实现或者在单独的计算设备上被实现并且通过一个或多个网络106与服务器104和移动设备102进行通信。服务器104可以是搜索引擎、口述引擎、对话系统、或者使用转录语音或调用使用转录语音的软件应用以执行某些动作的任何其他引擎或系统。一般而言,以下描述使用用于服务器104的搜索引擎的示例。该网络106可以包括无线蜂窝网络、无线局域网(WLAN)或W1-Fi网络、第三代(3G)或第四代(4G)移动电信网络、专用网络诸如内联网、公共网络诸如因特网、或者上述各项的任何适当组合。状态(a)至状态(i)描绘在系统100执行示例过程时发生的数据流。状态(a)至状态(i)可以是时间顺序的状态,或者其可以按照与图示的顺序不同的顺序发生。移动设备102可以是例如蜂窝电话、智能电话、平板计算机或者个人数字助理(PDA)。该移动设备102实现包括基于客户端的语音识别器126的本地ASR引擎114。此夕卜,该基本文档来自技高网...
【技术保护点】
一种计算机实现的方法,包括:访问由计算设备基于来自用户的音频输入所生成的音频数据,所述音频数据对一个或多个用户话语进行编码;通过使用第一语音识别器对所述音频数据执行语音识别来生成所述话语的第一转录,其中所述第一语音识别器采用基于用户特定数据的语言模型;通过使用第二语音识别器对所述音频数据执行语音识别来生成所述话语的第二转录,其中所述第二语音识别器采用独立于用户特定数据的语言模型;确定所述话语的所述第二转录包括来自预定的一个或多个术语的集合的术语;以及基于确定所述话语的所述第二转录包括来自所述预定的一个或多个术语的集合的术语,提供所述话语的所述第一转录的输出。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:A·H·格伦斯坦,P·阿列克西克,
申请(专利权)人:谷歌公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。