联合端点确定和自动语音识别制造技术

技术编号:31566873 阅读:38 留言:0更新日期:2021-12-25 11:03
一种方法(800),包括接收话语(120)的音频数据(120)并且处理该音频数据以获得作为来自被配置为联合执行话语的语音解码和端点确定的语音识别模型(140)的输出的:该话语的部分语音识别结果;以及指示该话语何时已经结束的端点指示(175)。在处理该音频数据的同时,该方法还包括基于该端点指示来检测该话语的结尾。响应于检测到该话语的结尾,该方法还包括终止对在检测到该话语的结尾之后接收到的任何后续音频数据的处理。续音频数据的处理。续音频数据的处理。

【技术实现步骤摘要】
【国外来华专利技术】联合端点确定和自动语音识别


[0001]本公开涉及联合端点确定和自动语音识别。

技术介绍

[0002]自然语言处理系统通常使用端点器来确定用户何时开始及结束讲话。一些传统的端点器在确定话语何时开始或结束时对词之间的停顿的持续时间进行评估。例如,如果用户说“what is<长停顿>for dinner(晚餐吃什么)”,则传统的端点器可以在长停顿处对话音输入进行分段,并且可以指示自然语言处理系统尝试处理不完整的短语“what is”,而不是处理完整的短语“what is for dinner”。如果端点器为话音输入指定了错误的开始或端点,则处理该话音输入的结果可能是不准确的或者不符合需要的。识别口头话语的结尾或端点确定确定是流自动语音识别(ASR)系统的一项重要功能。

技术实现思路

[0003]本文的实施方式针对一种语音识别模型,其对话音的内容进行解码以及确定话语的结尾。例如,该语音识别模型可以是联合实行语音解码和话音端点确定这两者的神经网络模型。该模型可以是端对端模型,诸如接收指示话语的音频特性的输入数据并且在不使用外部语言模型的情况下输出拼写正确数据(例如,字素、词条或词)的模型。
[0004]利用单一模型联合预测端点和话音内容可以提供多种优势。例如,由于该模型的联合属性,该模型可以基于(i)话语的声学信息以及(ii)该模型对话语的语义含义或语言内容的解释这二者作出端点确定决策。这可以允许比单独评估音频特性的模型更快且更准确的端点确定决策。此外,与首先确定转录并且随后使用转录来作出端点确定决策的系统相比,联合预测端点和话音内容这二者可以明显更快地检测到端点。
[0005]一般而言,端点确定是指标识口头话语的结尾的过程,所述口头话语的结尾诸如短语、句子、问题或请求的结尾。一些端点确定技术使用话音活动检测器或查询结尾检测器作为端点器,其通常是与语音识别模型平行操作但是却与之分开的单独的模型或模块。本文的实施方式针对于通过将端点确定功能整合到语音识别模型中而提升自动语音识别(ASR)系统的端点确定。特别地,可以使用端对端模型来联合执行话音识别语音识别和端点确定。如将会显而易见的,采用能够联合执行语音识别和端点确定的端对端模型可以明显地减小检测话语端点时的延迟/时延,并且在一些情况下,将检测端点的延迟/时延减半。
[0006]可选地,联合语音识别和端点确定模型也可以随另一个单独的端点确定模块一起被用来提供冗余度和减小平均时延。例如,该联合模型可以在许多环境中提供更快、更准确的端点确定结果,但是专门的端点确定模型则可以在其它环境中提供更好的结果。将这两种技术一起使用可以跨更宽范围的情形提供最佳结果。例如,该系统可以被配置为使得端点被设定在来自两个模型的最早信号处。换句话说,这两个模型都可以并行地评估音频,并且无论这两个模型中的哪一个首先指示端点都将针对话语设定该端点。
[0007]本公开的一个方面提供了一种对话语进行端点确定的方法。该方法包括在数据处
理硬件处接收用户设备的用户讲出的话语的音频数据,并且由该数据处理硬件处理该音频数据以获得作为来自被配置为联合执行话语的语音解码和端点确定的语音识别模型的输出的:该话语的部分语音识别结果;以及指示该话语何时已经结束的端点指示。在处理该音频数据时,该方法还包括由该数据处理硬件基于从该语音识别模型输出的该端点指示来检测该话语的结尾。该方法还包括响应于检测到该话语的结尾,由该数据处理硬件终止对在检测到该话语的结尾之后接收到的任何后续音频数据的处理。
[0008]本公开的实施方式可以包括以下的一个或多个可选特征。在一些实施方式中,该方法还包括响应于检测到该话语的结尾,由该数据处理硬件将该话语的转录传送到搜索引擎或数字谈话助理系统,该转录基于由该语音识别模型在处理该音频数据时输出的部分语音识别结果。在一些示例中,该语音识别模型包括流语音识别模型,其被配置为在端点确定决策指示该话语何时已经结束前发出该话语的部分语音识别结果。例如,该流语音识别模型可以包括递归神经网络

转换器(RNN

T)。在这些示例中,该方法还包括在检测到该话语的结尾之前,由该数据处理硬件提供该语音识别音频所发出的任何部分语音识别结果,以用于在与该数据处理硬件通信的屏幕上显示。
[0009]该数据处理硬件可以驻留在该用户的用户设备上并且执行该语音识别模型。在一些实施方式中,响应于检测到该话语的结尾,该方法还包括由该数据处理硬件使得捕捉该用户讲出的话语的一个或多个麦克风的阵列无效。
[0010]该语音识别模型可以包括神经网络,其被配置为在针对音频特征序列中的每个音频特征的输出标签集合上生成概率分布作为输出。该输出标签可以包括语言单元和话语端点符号。在这里,处理该音频数据以获得端点指示可以包括,在包括该话音端点符号的该输出标签与满足阈值分数的概率分数相关联时,确定该语音识别模型已经输出了该端点指示。此外,该语言单元可以包括字素、词条或词。在一些示例中,该输出标签进一步包括以下中的至少一个:指示话语的开始的话语起始符号;指示标点元素的标点符号;指示空格字符的空格符号;或者并不对应于任何拼写正确元素的空白符号。
[0011]在一些情况下,该语音识别模型被配置为基于该话语的音频数据输出解码符号序列,并且处理该音频数据以获得该端点指示包括,确定对应于该端点指示的端点符号是否被包括在该语音识别模型输出的该解码符号序列中。在这些示例中,确定对应于该端点指示的端点符号是否被包括在该语音识别模型输出的该解码符号序列中可以包括,确定与该端点符号相关联的概率分数是否满足阈值分数。在附加的示例中,处理该音频数据以获得指示该话语的结尾的该端点指示包括,在该语音识别模型的多个输出上的束搜索过程期间,确定对应于该端点指示的符号是否被包括在该束搜索过程的一个或多个束中。
[0012]本公开的另一个方面提供了一种系统,包括数据处理硬件和存储指令的存储器硬件,所述指令在该数据处理硬件上执行时使该数据处理硬件执行操作,所述操作包括接收用户设备的用户讲出的话语的音频数据,并且处理该音频数据以获得作为来自被配置为联合执行话语的语音解码和端点确定的语音识别模型的输出的:该话语的部分语音识别结果;以及指示该话语何时已经结束的端点指示。在处理该音频数据时,该操作还包括基于从该语音识别模型输出的该端点指示来检测该话语的结尾。该操作还包括响应于检测到该话语的结尾,终止对在检测到该话语的结尾之后接收到的任何后续音频数据的处理。
[0013]该方面可以包括以下一个或多个可选特征。在一些实施方式中,该操作还包括响
应于检测到该话语的结尾,将该话语的转录传送到搜索引擎或数字谈话助理系统,该转录基于由该语音识别模型在处理该音频数据时输出的部分语音识别结果。在一些示例中,该语音识别模型包括流语音识别模型,其被配置为在端点确定决策指示该话语何时已经结束前发出该话语的部分语音识别结果。例如,该流语音识别模型可以包括递归神经网络

转本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法(800),包括:在数据处理硬件(111)处接收用户设备(110)的用户讲出的话语(120)的音频数据(125);由所述数据处理硬件(111)处理所述音频数据(125)以获得作为来自被配置为联合执行话语的语音解码和端点确定的语音识别模型(140)的输出的:所述话语(120)的部分语音识别结果;以及指示所述话语(120)何时已经结束的端点指示(175);在处理所述音频数据(125)时,由所述数据处理硬件(111)基于从所述语音识别模型(140)输出的所述端点指示(175)来检测所述话语(120)的结尾;以及响应于检测到所述话语(120)的所述结尾,由所述数据处理硬件(111)终止对在检测到所述话语(120)的所述结尾之后接收的任何后续音频数据(125)的处理。2.根据权利要求1所述的方法(800),进一步包括:响应于检测到所述话语(120)的所述结尾,由所述数据处理硬件(111)将所述话语(120)的转录(165)传送到搜索引擎或数字谈话助理系统,所述转录(165)基于由所述语音识别模型(140)在处理所述音频数据(125)时输出的所述部分语音识别结果。3.根据权利要求1或2所述的方法(800),其中,所述语音识别模型(140)包括流语音识别模型(140),所述流语音识别模型(140)被配置为在所述端点指示(175)指示所述话语(120)何时已经结束之前发出所述话语(120)的所述部分语音识别结果。4.根据权利要求3所述的方法(800),进一步包括:在检测到所述话语(120)的所述结尾之前,由所述数据处理硬件(111)提供由所述语音识别音频发出的任何部分语音识别结果以用于在与所述数据处理硬件(111)通信的屏幕上显示。5.根据权利要求3或4所述的方法(800),其中,所述语音识别模型(140)包括递归神经网络

转换器(RNN

T)。6.根据权利要求1至5中的任一项所述的方法(800),其中,所述数据处理硬件(111)驻留在所述用户的所述用户设备(110)上并且执行所述语音识别模型(140)。7.根据权利要求1至6中的任一项所述的方法(800),进一步包括:响应于检测到所述话语(120)的所述结尾,由所述数据处理硬件(111)使得捕捉所述用户讲出的所述话语(120)的一个或多个麦克风(105)的阵列无效。8.根据权利要求1至7中的任一项所述的方法(800),其中,所述语音识别模型(140)包括神经网络,所述神经网络被配置为在针对从所述音频数据(125)提取的音频特征(135)的序列中的每个音频特征(135)的输出标签(265)的集合上生成概率分布作为输出,所述输出标签(265)包括语言单元和话语端点符号。9.根据权利要求8所述的方法(800),其中,处理所述音频数据(125)以获得所述端点指示(175)包括:在包括所述话语端点符号的所述输出标签与满足阈值分数的概率分数相关联时,确定所述语音识别模型(140)已经输出了所述端点指示(175)。10.根据权利要求8或9所述的方法(800),其中,所述语言单元包括字素、词条或词。11.根据权利要求8至10中的任一项所述的方法(800),其中,所述输出标签(265)进一步包括以下中的至少一个:指示话语(120)的开始的话语起始符号;
指示标点元素的标点符号;指示空格字符的空格符号;或者不对应于任何拼写正确元素的空白符号。12.根据权利要求1至11中的任一项所述的方法(800),其中:所述语音识别模型(140)被配置为基于所述话语(120)的所述音频数据(125)来输出解码符号序列;以及处理所述音频数据(125)以获得所述端点指示(175)包括确定对应于所述端点指示(175)的端点符号是否被包括在由所述语音识别模型(140)输出的所述解码符号序列中。13.根据权利要求12所述的方法(800),其中,确定对应于所述端点指示(175)的所述端点符号是否被包括在由所述语音识别模型(140)输出的所述解码符号序列中包括确定与所述端点符号相关联的概率分数满足阈值分数。14.根据权利要求1至13中的任一项所述的方法(800),其中,处理所述音频数据(125)以获得指示所述话语(120)的所述结尾的所述端点指示(175)包括:在所述语音识别模型(140)的多个输出上的束搜索过程(145)期间,确定对应于所述端点指示(175)的符号是否被包括在所述束搜索过程(145)的一个或多个束中。15.一种系统(100),包括:数据处理硬件(111...

【专利技术属性】
技术研发人员:张硕英罗希特
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1