变换器换能器:一种统一流式和非流式语音识别的模型制造技术

技术编号:37844023 阅读:29 留言:0更新日期:2023-06-14 09:49
一种变换器

【技术实现步骤摘要】
【国外来华专利技术】变换器换能器:一种统一流式和非流式语音识别的模型


[0001]本公开涉及使用用于流式和非流式语音识别的统一模型。

技术介绍

[0002]自动语音识别(ASR)是采用音频输入并且将其转录为文本的过程,已经极大地成为在移动设备和其他设备中使用的一种重要技术。通常,ASR试图通过采用音频输入(例如语音话语)并且将音频输入转录为文本来提供对人所说内容的准确转录。基于深度神经网络的不断发展,现代ASR模型在准确性(例如低词错误率(WER))和时延(例如用户说话与转录之间的延迟)两方面不断提高。当今天使用ASR系统时,需要ASR系统以流式方式解码话语,该流式方式对应于实时或甚至比实时更快,但是也是准确的。然而,开发基于深度学习的ASR模型的一个挑战是,虽然流式模型是低时延的,但它们可能不准确。相反,非流式模型与高时延相关联,但通常提供更高的准确性。

技术实现思路

[0003]本公开的一个方面提供了一种用于统一流式和非流式语音识别的单个变换器

换能器模型。单个变换器

换能器模型包括音频编码器、标签编码器和联合网络。音频编码器被配置为接收声帧序列作为输入,并且在多个时间步长中的每个时间步长处为声帧序列中的对应声帧生成高阶特征表示。标签编码器被配置为接收由最终softmax层输出的非空白符号序列作为输入,并且在多个时间步长中的每个时间步长处生成密集表示。联合网络被配置为接收在多个时间步长中的每个时间步长处由音频编码器生成的高阶特征表示和由标签编码器生成的密集表示作为输入,并且在多个时间步长中的每个时间步长处生成在对应时间步长处的可能的语音识别假设上的概率分布。该模型的音频编码器进一步包括具有多个变换器层的神经网络。多个变换器层包括:变换器层的初始堆叠,初始堆叠中的每一个用零前瞻音频场境训练;以及变换器层的最终堆叠,最终堆叠中的每一个用可变前瞻音频场境训练。
[0004]本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,音频编码器的每个变换器层包括归一化层、具有相对位置编码的掩蔽多头注意力层、残差连接、堆叠/解堆叠层和前馈层。在这些实施方式中,堆叠/解堆叠层可以被配置为改变对应变换器层的帧率,以在训练和推断期间调整单个变换器

换能器模型的处理时间。在一些示例中,变换器层的初始堆叠包括比变换器层的最终堆叠更多的变换器层。在一些示例中,在训练期间,针对变换器层的最终堆叠中的每个变换器层对可变前瞻音频场境进行均匀采样。
[0005]在一些实施方式中,该模型进一步包括:低时延解码分支,低时延解码分支被配置为从使用第一前瞻音频场境编码的音频数据中解码输入话语的对应语音识别结果;以及高时延解码分支,高时延解码分支被配置为从使用第二前瞻音频场境编码的音频数据中解码输入话语的对应语音识别结果。此处,第二前瞻音频场境包括比第一前瞻音频场境更长持
续时间的前瞻音频。在这些实施方式中,变换器层的初始堆叠可以应用零前瞻音频场境来计算共享激活,以供低时延解码分支和高时延解码分支两者使用,变换器层的最终堆叠可以应用第一前瞻音频场境来计算低时延激活,以供低时延解码分支而非高时延解码分支使用,并且变换器层的最终堆叠可以应用第二前瞻音频场境来计算高时延激活,以供高时延解码分支而非低时延解码分支使用。在一些附加实施方式中,第一前瞻音频场境包括零前瞻音频场境。
[0006]在一些示例中,低时延解码分支和高时延解码分支并行执行,以解码输入话语的对应语音识别结果。在这些示例中,由高时延解码分支针对输入话语解码的对应语音识别结果比由低时延解码分支针对输入话语解码的对应语音识别结果延迟持续时间,该持续时间基于第二前瞻音频场境与第一前瞻音频场境之间的差异。附加地或备选地,低时延解码分支可以被配置为在由单个变换器

换能器模型接收到输入话语时,将对应语音识别结果作为部分语音识别结果流式传输,并且高时延解码分支可以被配置为在单个变换器

换能器模型接收到完整输入话语之后,输出对应语音识别结果作为最终转录。
[0007]在一些实施方式中,输入话语被指向应用,并且由高时延解码分支使用以解码输入话语的对应语音识别结果的第二前瞻音频场境的持续时间是基于输入话语被指向的应用的类型。在一些示例中,标签编码器包括具有多个变换器层的神经网络。备选地,标签编码器可以包括二元嵌入查找解码器模型。单个变换器

换能器模型可以在客户端设备上或者在基于服务器的系统上执行。
[0008]本公开的另一方面提供了一种计算机实现的方法,该计算机实现的方法当在数据处理硬件上执行时使数据处理执行操作,该操作包括:接收与口头话语相对应的音频数据作为变换器

换能器模型的输入;以及使用变换器

换能器模型,对音频数据并行执行流式语音识别和非流式语音识别。针对变换器

换能器模型的低时延分支,该操作还包括:当接收到与口头话语相对应的音频数据时,使用第一前瞻音频场境对音频数据进行编码;将使用第一前瞻音频场境编码的音频数据解码为输入话语的部分语音识别结果;以及对输入话语的部分语音识别结果进行流式传输。针对变换器

换能器模型的高时延分支,该操作包括:在与口头话语相对应的音频数据被接收到之后,使用第二前瞻音频场境对音频数据进行编码;将使用第二前瞻音频场境编码的音频数据解码为输入话语的最终语音识别结果;以及用最终语音识别结果替换流式传输的部分语音识别结果。
[0009]该方面可以包括以下可选特征中的一个或多个。在一些实施方式中,该操作进一步包括音频编码器,该音频编码器包括具有多个变换器层的神经网络。多个变换器层包括:变换器层的初始堆叠,初始堆叠中的每一个用零前瞻音频场境训练;以及变换器层的最终堆叠,最终堆叠中的每一个用可变前瞻音频场境训练。每个变换器层可以包括归一化层、具有相对位置编码的掩蔽多头注意力层、残差连接、堆叠/解堆叠层和前馈层。此处,堆叠/解堆叠层可以被配置为改变对应变换器层的帧率,以在训练和推断期间调整单个变换器

换能器模型的处理时间。
[0010]在一些示例中,变换器层的初始堆叠包括比变换器层的最终堆叠更多的变换器层。在一些实施方式中,在训练期间,针对变换器层的最终堆叠中的每个变换器层对可变前瞻音频场境进行均匀采样。在一些示例中,变换器层的初始堆叠应用零前瞻音频场境来计算共享激活,以供低时延分支和高时延分支两者使用,变换器层的最终堆叠应用第一前瞻
音频场境来计算低时延激活,以供低时延分支而非高时延解码分支使用,并且变换器层的最终堆叠应用第二前瞻音频场境来计算高时延激活,以供高时延分支而非低时延分支使用。第一前瞻音频场境可以包括零前瞻音频场境。在一些实施方式中,由高时延分支针对输入话语解码的最终语音识别结果比由低时延分支针对输入话语解码的部分语音识别结果延迟持续时间,该持续时间基于第二前瞻音频场境与第一前瞻音频场境之间的差异。
[0011]在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于统一流式和非流式语音识别的单个变换器

换能器模型(200),所述单个变换器

换能器模型(200)包括:音频编码器(300),所述音频编码器被配置为:接收声帧(110)序列作为输入;以及在多个时间步长中的每个时间步长处,为所述声帧(110)序列中的对应声帧(110)生成高阶特征表示;标签编码器(220),所述标签编码器被配置为:接收由最终softmax层(240)输出的非空白符号序列作为输入;以及在所述多个时间步长中的每个时间步长处生成密集表示;以及联合网络(230),所述联合网络被配置为:接收由所述音频编码器(300)在所述多个时间步长中的每个时间步长处生成的所述高阶特征表示和由所述标签编码器(220)在所述多个时间步长中的每个时间步长处生成的所述密集表示作为输入;以及在所述多个时间步长中的每个时间步长处生成在对应时间步长处的可能的语音识别假设上的概率分布,其中所述音频编码器(300)包括具有多个变换器层(400)的神经网络,所述多个变换器层(400)包括:变换器层(400)的初始堆叠(310),所述初始堆叠中的每一个变换器层用零前瞻音频场境训练;以及变换器层(400)的最终堆叠(320),所述最终堆叠中的每一个变换器层用可变前瞻音频场境训练。2.根据权利要求1所述的单个变换器

换能器模型(200),其中所述音频编码器(300)的每个变换器层(400)包括:归一化层(404);具有相对位置编码的掩蔽多头注意力层(406);残差连接(408);堆叠/解堆叠层(410);以及前馈层(412)。3.根据权利要求2所述的单个变换器

换能器模型(200),其中所述堆叠/解堆叠层(410)被配置为改变对应变换器层(400)的帧率,以在训练和推断期间调整所述单个变换器

换能器模型(200)的处理时间。4.根据权利要求1至3中任一项所述的单个变换器

换能器模型(200),其中变换器层(400)的所述初始堆叠(310)包括比变换器层(400)的所述最终堆叠(320)更多的变换器层(400)。5.根据权利要求1至4中任一项所述的单个变换器

换能器模型(200),其中在训练期间,针对变换器层(400)的所述最终堆叠(320)中的每个变换器层(400)对所述可变前瞻音频场境进行均匀采样。6.根据权利要求1至5中任一项所述的单个变换器

换能器模型(200),进一步包括:低时延解码分支(321),所述低时延解码分支被配置为从使用第一前瞻音频场境编码
的音频数据(110)中解码输入话语(106)的对应语音识别结果(120);以及高时延解码分支(322),所述高时延解码分支被配置为从使用第二前瞻音频场境编码的音频数据(110)中解码所述输入话语(106)的对应语音识别结果(120),所述第二前瞻音频场境包括比所述第一前瞻音频场境更长持续时间的前瞻音频。7.根据权利要求6所述的单个变换器

换能器模型(200),其中:变换器层(400)的所述初始堆叠(310)应用零前瞻音频场境来计算共享激活(312),以供所述低时延解码分支(321)和所述高时延解码分支(322)两者使用;变换器层(400)的所述最终堆叠(320)应用所述第一前瞻音频场境来计算低时延激活(323),以供所述低时延解码分支(321)而非所述高时延解码分支(322)使用;以及变换器层(400)的所述最终堆叠(320)应用所述第二前瞻音频场境来计算高时延激活(324)激活(312),以供所述高时延解码分支(322)而非所述低时延解码分支(321)使用。8.根据权利要求6或7所述的单个变换器

换能器模型(200),其中所述第一前瞻音频场境包括零前瞻音频场境。9.根据权利要求6至8中任一项所述的单个变换器

换能器模型(200),其中所述低时延解码分支(321)和所述高时延解码分支(322)并行执行,以解码所述输入话语(106)的所述对应语音识别结果(120)。10.根据权利要求9所述的单个变换器

换能器模型(200),其中由所述高时延解码分支(322)针对所述输入话语(106)解码的所述对应语音识别结果(120)比由所述低时延解码分支(321)针对所述输入话语(106)解码的所述对应语音识别结果(120)延迟持续时间,所述持续时间基于所述第二前瞻音频场境与所述第一前瞻音频场境之间的差异。11.根据权利要求6至10中任一项所述的单个变换器

换能器模型(200),其中:所述低时延解码分支(321)被配置为当由所述单个变换器

换能器模型(200)接收到所述输入话语(106)时,将所述对应语音识别结果(120)作为部分语音识别结果(120)流式传输;并且所述高时延解码分支(322)被配置为在所述单个变换器

换能器模型(200)接收到完整输入话语(106)之后,输出所述对应语音识别结果(120)作为最终转录(120)。12.根据权利要求6至11中任一项所述的单个变换器

换能器模型(200),其中:所述输入话语(106)被指向应用(50);并且由所述高时延解码分支(322)使用以解码所述输入话语(106)的所述对应语音识别结果(120)的所述第二前瞻音频场境的持续时间是基于所述输入话语(106)被指向的所述应用的类型。13.根据权利要求1至12中任一项所述的单个变换器

换能器模型(200),其中所述标签编码器(220)包括具有...

【专利技术属性】
技术研发人员:安舒曼
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1