联合端点确定和自动语音识别制造技术

技术编号：31566873 阅读：38 留言：0更新日期：2021-12-25 11:03

一种方法(800)，包括接收话语(120)的音频数据(120)并且处理该音频数据以获得作为来自被配置为联合执行话语的语音解码和端点确定的语音识别模型(140)的输出的：该话语的部分语音识别结果；以及指示该话语何时已经结束的端点指示(175)。在处理该音频数据的同时，该方法还包括基于该端点指示来检测该话语的结尾。响应于检测到该话语的结尾，该方法还包括终止对在检测到该话语的结尾之后接收到的任何后续音频数据的处理。续音频数据的处理。续音频数据的处理。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】联合端点确定和自动语音识别

[0001]本公开涉及联合端点确定和自动语音识别。

技术介绍

[0002]自然语言处理系统通常使用端点器来确定用户何时开始及结束讲话。一些传统的端点器在确定话语何时开始或结束时对词之间的停顿的持续时间进行评估。例如，如果用户说“what is<长停顿>for dinner(晚餐吃什么)”，则传统的端点器可以在长停顿处对话音输入进行分段，并且可以指示自然语言处理系统尝试处理不完整的短语“what is”，而不是处理完整的短语“what is for dinner”。如果端点器为话音输入指定了错误的开始或端点，则处理该话音输入的结果可能是不准确的或者不符合需要的。识别口头话语的结尾或端点确定确定是流自动语音识别(ASR)系统的一项重要功能。

技术实现思路

[0003]本文的实施方式针对一种语音识别模型，其对话音的内容进行解码以及确定话语的结尾。例如，该语音识别模型可以是联合实行语音解码和话音端点确定这两者的神经网络模型。该模型可以是端对端模型，诸如接收指示话语的音频特性的输入数据并且在不使用外部语言模型的情况下输出拼写正确数据(例如，字素、词条或词)的模型。
[0004]利用单一模型联合预测端点和话音内容可以提供多种优势。例如，由于该模型的联合属性，该模型可以基于(i)话语的声学信息以及(ii)该模型对话语的语义含义或语言内容的解释这二者作出端点确定决策。这可以允许比单独评估音频特性的模型更快且更准确的端点确定决策。此外，与首先确定转录并且随...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法(800)，包括：在数据处理硬件(111)处接收用户设备(110)的用户讲出的话语(120)的音频数据(125)；由所述数据处理硬件(111)处理所述音频数据(125)以获得作为来自被配置为联合执行话语的语音解码和端点确定的语音识别模型(140)的输出的：所述话语(120)的部分语音识别结果；以及指示所述话语(120)何时已经结束的端点指示(175)；在处理所述音频数据(125)时，由所述数据处理硬件(111)基于从所述语音识别模型(140)输出的所述端点指示(175)来检测所述话语(120)的结尾；以及响应于检测到所述话语(120)的所述结尾，由所述数据处理硬件(111)终止对在检测到所述话语(120)的所述结尾之后接收的任何后续音频数据(125)的处理。2.根据权利要求1所述的方法(800)，进一步包括：响应于检测到所述话语(120)的所述结尾，由所述数据处理硬件(111)将所述话语(120)的转录(165)传送到搜索引擎或数字谈话助理系统，所述转录(165)基于由所述语音识别模型(140)在处理所述音频数据(125)时输出的所述部分语音识别结果。3.根据权利要求1或2所述的方法(800)，其中，所述语音识别模型(140)包括流语音识别模型(140)，所述流语音识别模型(140)被配置为在所述端点指示(175)指示所述话语(120)何时已经结束之前发出所述话语(120)的所述部分语音识别结果。4.根据权利要求3所述的方法(800)，进一步包括：在检测到所述话语(120)的所述结尾之前，由所述数据处理硬件(111)提供由所述语音识别音频发出的任何部分语音识别结果以用于在与所述数据处理硬件(111)通信的屏幕上显示。5.根据权利要求3或4所述的方法(800)，其中，所述语音识别模型(140)包括递归神经网络
‑
转换器(RNN
‑
T)。6.根据权利要求1至5中的任一项所述的方法(800)，其中，所述数据处理硬件(111)驻留在所述用户的所述用户设备(110)上并且执行所述语音识别模型(140)。7.根据权利要求1至6中的任一项所述的方法(800)，进一步包括：响应于检测到所述话语(120)的所述结尾，由所述数据处理硬件(111)使得捕捉所述用户讲出的所述话语(120)的一个或多个麦克风(105)的阵列无效。8.根据权利要求1至7中的任一项所述的方法(800)，其中，所述语音识别模型(140)包括神经网络，所述神经网络被配置为在针对从所述音频数据(125)提取的音频特征(135)的序列中的每个音频特征(135)的输出标签(265)的集合上生成概率分布作为输出，所述输出标签(265)包括语言单元和话语端点符号。9.根据权利要求8所述的方法(800)，其中，处理所述音频数据(125)以获得所述端点指示(175)包括：在包括所述话语端点符号的所述输出标签与满足阈值分数的概率分数相关联时，确定所述语音识别模型(140)已经输出了所述端点指示(175)。10.根据权利要求8或9所述的方法(800)，其中，所述语言单元包括字素、词条或词。11.根据权利要求8至10中的任一项所述的方法(800)，其中，所述输出标签(265)进一步包括以下中的至少一个：指示话语(120)的开始的话语起始符号；
指示标点元素的标点符号；指示空格字符的空格符号；或者不对应于任何拼写正确元素的空白符号。12.根据权利要求1至11中的任一项所述的方法(800)，其中：所述语音识别模型(140)被配置为基于所述话语(120)的所述音频数据(125)来输出解码符号序列；以及处理所述音频数据(125)以获得所述端点指示(175)包括确定对应于所述端点指示(175)的端点符号是否被包括在由所述语音识别模型(140)输出的所述解码符号序列中。13.根据权利要求12所述的方法(800)，其中，确定对应于所述端点指示(175)的所述端点符号是否被包括在由所述语音识别模型(140)输出的所述解码符号序列中包括确定与所述端点符号相关联的概率分数满足阈值分数。14.根据权利要求1至13中的任一项所述的方法(800)，其中，处理所述音频数据(125)以获得指示所述话语(120)的所述结尾的所述端点指示(175)包括：在所述语音识别模型(140)的多个输出上的束搜索过程(145)期间，确定对应于所述端点指示(175)的符号是否被包括在所述束搜索过程(145)的一个或多个束中。15.一种系统(100)，包括：数据处理硬件(111...

【专利技术属性】
技术研发人员：张硕英，罗希特，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人