本说明书的主题可具体体现为方法等,该方法包括接收与发声相对应的音频数据,获得使用有限语音识别器所产生的发声的第一转录。有限语音识别器包括包含通过有限语音识别词汇所训练的语言模型的语音识别器,所述有限语音识别词汇包括来自语音命令语法的一个或多个项,但包括比扩展语法的所有项少。获得使用扩展语音识别器所产生的发声的第二转录。扩展语音识别器包括包含通过扩展语音识别词汇所训练的语言模型的语音识别器,所述扩展语音识别词汇包括扩展语法的所有项。至少基于第一转录或第二转录的一部分来对发声进行分类。
【技术实现步骤摘要】
【国外来华专利技术】
本公开通常涉及语音识别。
技术介绍
语音识别包括用于将所讲的词转换成文本的处理。通常,语音识别系统将口头发声映射成一系列计算机可读语音,并且对那些语音与和词相关的已知语音模式进行比较。例如,麦克风可以接受下述模拟信号,所述模拟信号被转换成此后被划分成更小段的数字形式。可对数字段与所讲语言的元素进行比较。根据该比较以及对发出那些语音的环境的分析,系统能够识别语音。典型的语音识别系统可以包括声学模型、语言模型、以及字典。简言之,声学模型包括可组合以生成词语、短语等等的集合的各个语音的数字表示。语言模型分配一系列词语将一起在特定句子或短语中出现的概率。字典将语音序列转换成语言模型可理解的词语。
技术实现思路
通常,本文档描述了用于执行语音识别的系统和技术。通常,通过两个或更多语音识别器对用户的发声进行转录。将每个识别器调到不同词典。例如,一个识别器可以被调成从扩展的(例如多用途)词典识别词,而另一被调到词的子集(例如命令关键字)和/或诸如存储在联系人列表中并且在扩展词典中可能不可用的固有姓名这样的专用词典。可对识别器的转录进行对准以提供包括一个或多个识别器中的所选元素的转录以作为对用户所说的转录。在本说明书中所描述的主题的方面可具体体现为方法、系统、以及存储下述可执行指令的计算机可读介质,所述指令执行包括下述的操作:接收与发声相对应的音频数据;获得使用有限语音识别器所产生的发声的第一转录,其中有限语音识别器包括包含通过有限语音识别词汇所训练的语言模型的语音识别器,所述有限语音识别词汇包括来自语音命令语法的一个或多个项,但包括比扩展语法的所有项少;获得使用扩展语音识别器所产生的发声的第二转录,其中扩展语音识别器包括包含通过下述扩展语音识别词汇所训练的语言模型的语音识别器,所述扩展语音识别词汇包括扩展语法的所有项;并且至少根据第一转录或第二转录的一部分来对发声进行分类。实现可以包括以下特征中的一些、全部、或者没有一个。可以使发声的第一和第二转录对准以产生对准的转录。可以将发声分类为语音命令或语音查询中的一个,并且响应于将发声分类为语音命令,使用第一转录的至少一部分以及第二转录的至少一部分产生所述语音命令并且发起语音命令,并且响应于将发声分类为语音查询,使用第一转录的至少一部分以及第二转录的至少一部分产生语音查询并且发起语音查询。有限语音识别器可被配置成识别占位符项的集合、语音命令项的集合、以及来自联系人列表的联系人姓名的集合中的一个或多个。扩展语音识别器可被配置成识别一般语法项的集合、占位符项的集合、固有姓名的集合、以及语音命令项的集合中的一个或多个。扩展语音识别器可以不被配置为识别来自联系人列表的联系人姓名的集合。有限语音识别器和扩展语音识别器中的至少一个的操作可在移动设备处执行。有限语音识别器和扩展语音识别器中的至少一个的操作可在服务器计算机设备处执行。这里所描述的系统和技术可以提供以下一个或多个优点。首先,系统可提供对不为通用语音识别系统所知的项和姓名的识别。第二,系统可提高用户信息的保密性。第三,系统可提供对包括在用户字典和通用字典中所找到的词的所讲短语的改进的识别。在附图和以下说明中阐述了一个或多个实现的细节。从说明书和附图以及权利要求将显而易见地得知其它特征和优点。【附图说明】图1示出了用于利用多个语音识别器来执行语音识别的系统的示例的示意图。图2A-2F示出了通过多个语音识别器所转录的发声的概念性示例。图3是用于执行多个语音识别器语音识别的示例性处理的流程图。图4是可以用于实现多个语音识别器语音识别的示例性计算设备的框图。【具体实施方式】图1示出了用于利用多个语音识别器来执行语音识别的系统100的示例的示意图。在图1的示例中,用户102向移动设备104发出命令。在该示例中,移动设备104是具有先进计算能力的蜂窝电话(还被称为智能电话)。移动设备104接收由用户102提供的例如讲话的输入音频并且通过例如互联网或蜂窝数据网络的网络106将音频提供给有限语音识别器110和扩展语音识别器120。有限语音识别器110和扩展语音识别器120对用户102的发声执行语音到文本的转录。在该示例中,移动设备104可以包括接收输入音频的应用(“APP”)。APP可以具有任何适当功能,例如它可以是搜索APP、消息收发APP、电子邮件APP等等。在这方面,在这种情况下APP被用作示例。然而,APP的所有或一部分功能可以是下载到移动设备104的另一程序的一部分、在移动设备104上所置备的另一程序的一部分、移动设备104的操作系统的一部分、或者可用于移动设备104的服务的一部分。语法库130包括来自一种或多种语言的至少一些词和语法。语法库130包括扩展语法集合132,例如包含在语法库130之中的词和语法的全部或子集。在扩展语法集合132之内是诸如占位符项134的集合、语音动作项136的集合、以及固有姓名138的集合的项的子集。在一些实现中,语音动作项136的集合可包括与命令相关的一组已知词和/或语法。例如,语音动作项可包括诸如“呼叫”、“文本”、“导航”、“发邮件...到...主题......消息......”、“设置闹钟”、以及可与一组已知命令(例如“设置下午六点的闹钟”、“发送电子邮件给Hugh Briss,主题‘新手机’,消息‘我迫不及待地要给你展示我的新手机’,句号”)一起使用的其它项的词。在一些实现中,固有姓名138的集合可包括常用人的姓名,例如“Bob”、“Tiffany”、“Smith”、“Jones”、“Wolfgang Amadeus Mozart”、“Laurentian Abyss”、“WalterReed Army Medical Center,、在一些实现中,占位符项134的集合可包括可以用作例如介词、连词、感叹词这样的“连接”词的语音的部分。在一些实现中,占位符项134的集合可包括下述词,语音识别器110和120将所述词解释为例如〃句号〃、〃问号〃、〃感叹号〃、〃连字符〃、〃点〃、〃反斜杠〃这样的标点符号。在一些实现中,占位符项134的集合可包括为大家熟知的以表不转录中的一个或多个词的字符串。例如,占位符项“〈目标〉”可以用作下述发声的占位符,所述发声需要在“导航到〈目标〉”的环境中进一步转录。占位符项的其它示例可以包括“〈主题 >,,、“〈收件人 >”、“〈消息 >”、“〈位置 >”、“〈歌 >”、“〈艺术家 >”、“〈专辑 >,,、“〈未知>”、“〈无法识别 >”、或者任何其它适当的人或机器可判读的可用于表示词或短语的字符的 口 O扩展语音识别器120包括扩展语言模型122。扩展语言模型122是由语言模型训练引擎140所训练的包括相对扩展语法的语言模型。例如,语言模型训练引擎140可以访问扩展语法132以根据包含在扩展语法132之中的项和语法中的一些或全部(例如根据占位符项134、语音动作项136、固有姓名138)来训练扩展语言模型122。有限语言识别器110包括有限语言模型112。有限语言模型112是由语言模型训练引擎140所训练的包括扩展语法132的相对有限子集以及用户联系人姓名139的集合的语言模型。利用占本文档来自技高网...
【技术保护点】
一种由数据处理装置执行的计算机实现的方法,所述方法包括:接收与发声相对应的音频数据;获得使用有限语音识别器所产生的所述发声的第一转录,其中,所述有限语音识别器包括包含通过有限语音识别词汇训练的语言模型的语音识别器,所述有限语音识别词汇包括来自语音命令语法的一个或多个项,但包括比扩展语法的所有项少;获得使用扩展语音识别器所产生的所述发声的第二转录,其中,所述扩展语音识别器包括包含通过扩展语音识别词汇训练的语言模型的语音识别器,所述扩展语音识别词汇包括所述扩展语法的所有项;以及至少基于所述第一转录或所述第二转录的一部分来对所述发声进行分类。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:彼塔尔·阿列克西克,佩德罗·J·莫雷诺门希瓦尔,法迪·比亚德希,
申请(专利权)人:谷歌公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。