【技术实现步骤摘要】
【国外来华专利技术】变换器换能器:一种统一流式和非流式语音识别的模型
[0001]本公开涉及使用用于流式和非流式语音识别的统一模型。
技术介绍
[0002]自动语音识别(ASR)是采用音频输入并且将其转录为文本的过程,已经极大地成为在移动设备和其他设备中使用的一种重要技术。通常,ASR试图通过采用音频输入(例如语音话语)并且将音频输入转录为文本来提供对人所说内容的准确转录。基于深度神经网络的不断发展,现代ASR模型在准确性(例如低词错误率(WER))和时延(例如用户说话与转录之间的延迟)两方面不断提高。当今天使用ASR系统时,需要ASR系统以流式方式解码话语,该流式方式对应于实时或甚至比实时更快,但是也是准确的。然而,开发基于深度学习的ASR模型的一个挑战是,虽然流式模型是低时延的,但它们可能不准确。相反,非流式模型与高时延相关联,但通常提供更高的准确性。
技术实现思路
[0003]本公开的一个方面提供了一种用于统一流式和非流式语音识别的单个变换器
‑
换能器模型。单个变换器
‑
换能器模型包括音频编码器、标签编码器和联合网络。音频编码器被配置为接收声帧序列作为输入,并且在多个时间步长中的每个时间步长处为声帧序列中的对应声帧生成高阶特征表示。标签编码器被配置为接收由最终softmax层输出的非空白符号序列作为输入,并且在多个时间步长中的每个时间步长处生成密集表示。联合网络被配置为接收在多个时间步长中的每个时间步长处由音频编码器生成的高阶特征表示和由标签编码器生成的密集表示作为输入,并且在多 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于统一流式和非流式语音识别的单个变换器
‑
换能器模型(200),所述单个变换器
‑
换能器模型(200)包括:音频编码器(300),所述音频编码器被配置为:接收声帧(110)序列作为输入;以及在多个时间步长中的每个时间步长处,为所述声帧(110)序列中的对应声帧(110)生成高阶特征表示;标签编码器(220),所述标签编码器被配置为:接收由最终softmax层(240)输出的非空白符号序列作为输入;以及在所述多个时间步长中的每个时间步长处生成密集表示;以及联合网络(230),所述联合网络被配置为:接收由所述音频编码器(300)在所述多个时间步长中的每个时间步长处生成的所述高阶特征表示和由所述标签编码器(220)在所述多个时间步长中的每个时间步长处生成的所述密集表示作为输入;以及在所述多个时间步长中的每个时间步长处生成在对应时间步长处的可能的语音识别假设上的概率分布,其中所述音频编码器(300)包括具有多个变换器层(400)的神经网络,所述多个变换器层(400)包括:变换器层(400)的初始堆叠(310),所述初始堆叠中的每一个变换器层用零前瞻音频场境训练;以及变换器层(400)的最终堆叠(320),所述最终堆叠中的每一个变换器层用可变前瞻音频场境训练。2.根据权利要求1所述的单个变换器
‑
换能器模型(200),其中所述音频编码器(300)的每个变换器层(400)包括:归一化层(404);具有相对位置编码的掩蔽多头注意力层(406);残差连接(408);堆叠/解堆叠层(410);以及前馈层(412)。3.根据权利要求2所述的单个变换器
‑
换能器模型(200),其中所述堆叠/解堆叠层(410)被配置为改变对应变换器层(400)的帧率,以在训练和推断期间调整所述单个变换器
‑
换能器模型(200)的处理时间。4.根据权利要求1至3中任一项所述的单个变换器
‑
换能器模型(200),其中变换器层(400)的所述初始堆叠(310)包括比变换器层(400)的所述最终堆叠(320)更多的变换器层(400)。5.根据权利要求1至4中任一项所述的单个变换器
‑
换能器模型(200),其中在训练期间,针对变换器层(400)的所述最终堆叠(320)中的每个变换器层(400)对所述可变前瞻音频场境进行均匀采样。6.根据权利要求1至5中任一项所述的单个变换器
‑
换能器模型(200),进一步包括:低时延解码分支(321),所述低时延解码分支被配置为从使用第一前瞻音频场境编码
的音频数据(110)中解码输入话语(106)的对应语音识别结果(120);以及高时延解码分支(322),所述高时延解码分支被配置为从使用第二前瞻音频场境编码的音频数据(110)中解码所述输入话语(106)的对应语音识别结果(120),所述第二前瞻音频场境包括比所述第一前瞻音频场境更长持续时间的前瞻音频。7.根据权利要求6所述的单个变换器
‑
换能器模型(200),其中:变换器层(400)的所述初始堆叠(310)应用零前瞻音频场境来计算共享激活(312),以供所述低时延解码分支(321)和所述高时延解码分支(322)两者使用;变换器层(400)的所述最终堆叠(320)应用所述第一前瞻音频场境来计算低时延激活(323),以供所述低时延解码分支(321)而非所述高时延解码分支(322)使用;以及变换器层(400)的所述最终堆叠(320)应用所述第二前瞻音频场境来计算高时延激活(324)激活(312),以供所述高时延解码分支(322)而非所述低时延解码分支(321)使用。8.根据权利要求6或7所述的单个变换器
‑
换能器模型(200),其中所述第一前瞻音频场境包括零前瞻音频场境。9.根据权利要求6至8中任一项所述的单个变换器
‑
换能器模型(200),其中所述低时延解码分支(321)和所述高时延解码分支(322)并行执行,以解码所述输入话语(106)的所述对应语音识别结果(120)。10.根据权利要求9所述的单个变换器
‑
换能器模型(200),其中由所述高时延解码分支(322)针对所述输入话语(106)解码的所述对应语音识别结果(120)比由所述低时延解码分支(321)针对所述输入话语(106)解码的所述对应语音识别结果(120)延迟持续时间,所述持续时间基于所述第二前瞻音频场境与所述第一前瞻音频场境之间的差异。11.根据权利要求6至10中任一项所述的单个变换器
‑
换能器模型(200),其中:所述低时延解码分支(321)被配置为当由所述单个变换器
‑
换能器模型(200)接收到所述输入话语(106)时,将所述对应语音识别结果(120)作为部分语音识别结果(120)流式传输;并且所述高时延解码分支(322)被配置为在所述单个变换器
‑
换能器模型(200)接收到完整输入话语(106)之后,输出所述对应语音识别结果(120)作为最终转录(120)。12.根据权利要求6至11中任一项所述的单个变换器
‑
换能器模型(200),其中:所述输入话语(106)被指向应用(50);并且由所述高时延解码分支(322)使用以解码所述输入话语(106)的所述对应语音识别结果(120)的所述第二前瞻音频场境的持续时间是基于所述输入话语(106)被指向的所述应用的类型。13.根据权利要求1至12中任一项所述的单个变换器
‑
换能器模型(200),其中所述标签编码器(220)包括具有...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。