用异步解码器流式传输端到端语音识别的系统和方法技术方案

技术编号:34237561 阅读:55 留言:0更新日期:2022-07-24 08:31
语音识别系统利用帧同步解码器(FSD)模块和标签同步解码器(LSD)模块连续处理经编码声学特征的每个编码器状态。当识别出携带关于新转录输出的信息的编码器状态时,系统利用FSD模块扩展当前的FSD前缀列表,利用LSD模块评估FSD前缀,并根据联合的FSD评分和LSD评分修剪FSD前缀。通过使LSD模块处理编码器状态的包括由FSD模块识别的新转录输出的部分并产生由FSD模块确定的FSD前缀的LSD评分,来使FSD模块和LSD模块同步。和LSD模块同步。和LSD模块同步。

System and method of streaming end-to-end speech recognition with asynchronous decoder

【技术实现步骤摘要】
【国外来华专利技术】用异步解码器流式传输端到端语音识别的系统和方法


[0001]本专利技术总体上涉及一种语音识别系统,更具体地,涉及一种用于具有低延时要求的自动语音识别应用的具有联合帧同步解码(FSD)和标签同步解码(LSD)的流式传输端到端语音识别的方法和系统。

技术介绍

[0002]自动语音识别(ASR)系统被广泛地部署用于诸如基于语音的搜索之类的各种接口应用。近年来,端到端和序列到序列神经网络模型在ASR界得到了越来越多的关注和普及。端到端ASR系统的输出通常是字素序列,该字素序列可以是单个字母,或者是诸如单词片段、完整单词或句子片段之类的较大单位。端到端ASR的吸引力在于:与传统ASR系统相比,端到端ASR由于其主要由神经网络组件组成而实现了简化的系统结构,并且避免了构建ASR系统所需的语言专家知识。这种端到端ASR系统可以直接学习语音识别器的包括发音模型、声学模型和语言模型在内的所有组件,这避免了对特定语言的语言信息和标记化的需要。
[0003]用于端到端ASR系统的序列到序列模型主要基于两类神经网络输出范式,即,适用于帧同步解码(FSD)的具有逐帧决策的神经网络和使用标签同步解码(LSD)的具有逐标签决策的神经网络。具有FSD的端到端ASR系统更适合于流传输/在线ASR应用,其中ASR输出可以在每个口语单词之后立即以低延迟生成。然而,基于LSD的ASR系统(其在语音识别中经常表现出优异的结果)不太适合于在线/流传输ASR应用,这是因为通常由于在解码之前丢失对准信息(即,缺少关于输入序列是否包含足够信息以生成下一输出令牌的信息)而需要整个语音话语作为输入。
[0004]因此,FSD和LSD是异步解码器。可能地,在不需要流式传输端到端语音识别的应用中,与每个单个神经网络模型相比,FSD神经网络和LSD神经网络的组合可以实现更低的单词错误率。然而,这些ASR系统需要FSD神经网络和LSD神经网络之间的同步,以便使ASR系统能够实现“实时”语音识别。
[0005]因此,需要有效地同步FSD神经网络和LSD神经网络,以便为“实时”/在线/流应用实现基于组合的FSD

LSD的ASR。

技术实现思路

[0006]自动语音识别(ASR)系统面临其中将音频样本的输入序列或从音频帧提取的声学特征的序列映射到字符的输出序列的序列到序列建模问题。用于这种序列到序列映射的一些方法限于离线ASR应用,其中整个语音话语可用于识别过程。这种方法不能应用于具有低延时约束的在线/流式传输ASR系统中。一些实施方式的目的是通过使帧同步解码器(FSD)模块和标签同步解码器(LSD)模块同步来实现用于“实时”应用的ASR系统。流应用可以是需要“实时”转录语音信号的任何应用,例如,在正在进行的呼叫、正在进行的演讲、正在进行的对话中转录语音话语,或者检测和识别语音命令。此外,一些实施方式的目的是通过减少由LSD模块引入的输出延迟并提高由FSD模块以及LSD模块生成的话语转录的准确性来改进
LSD模块的性能。
[0007]一些实施方式基于这样的认识:基于LSD的ASR系统需要观察完整的输入序列(其通常是由语音暂停分段的整个语音话语),以向输入序列的每个元素分配权重,从而识别输出序列的每个输出标签。例如,输出标签可以包括单个字母字符或字符序列,诸如单词或句子片段。由于缺乏关于输入序列的哪些部分与识别下一个输出标签相关的先验知识,并且需要向输入序列的每个元素分配权重,因此基于LSD的模块通常需要处理大的输入序列。这样的处理允许利用关注话语的不同部分的优点,但是也增加了输出延迟,并且因此对于以流式传输/在线方式的语音识别是不实际的。
[0008]如本文所使用的,基于LSD的ASR的输出延迟是接收从语音话语提取的声学特征帧的时间与识别所接收声学帧中的一个或更多个输出标签的时间之间的差。例如,当基于LSD的ASR系统对整个语音话语进行操作时,对话语中的一个或更多个标签的识别被延迟,直到接收到话语的最后一个单词为止。这种识别延迟导致输出延迟增加。
[0009]一些实施方式基于以下认识:关于输入序列的不同部分对识别下一输出标签的相关性的先验知识是与要从输入序列识别的标签相对应的声学帧的位置的指示。实际上,如果包括相关标签信息的声学帧的位置是已知的,则可以通过限制输入序列来引导基于LSD的模型仅关注这些位置而不是所有可能的位置。以这种方式,对于每个输出标签,基于LSD的模型可以将其关注集中在该标签在输入序列中的位置周围。这种引导的关注降低了处理大输入序列的需求,这又减少了输出延迟,使得基于LSD的模型对于以流式传输/在线方式识别语音话语是实用的。
[0010]一些实施方式基于这样的认识:帧同步解码器(FSD)模块可用于向LSD模块提供与输入序列中的字符相对应的声学帧的位置的指示。这允许LSD模块限制对输入序列的相关部分的关注,以便识别输出标签。基于FSD的模块针对输入序列的每个帧生成输出,即,输入序列和输出序列具有相同的长度。基于LSD的ASR系统的性能可以优于基于FSD的ASR系统。然而,一些实施方式基于这样的认识:基于FSD的ASR系统的中间操作所使用的输入序列和输出序列对准可以由基于LSD的ASR系统使用以解决上述一个或更多个问题。
[0011]一些实施方式是基于这样的认识:FSD模块和LSD模块可以在触发关注(TA)神经网络中被联合训练,以改进流式传输(或“实时”)应用的语音识别。TA神经网络可以包括编码器神经网络、FSD神经网络、LSD神经网络和同步模块。编码器神经网络被配置为将包括在声学特征帧中的声学信息编码成编码器状态序列。FSD模块被配置为每次连续地处理每个编码器状态,并且识别对由FSD模块维持的前缀列表和相关联的FSD评分列表进行更新的编码器状态。FSD模块可保留由先前编码器状态的处理产生的前缀列表和相关联的FSD评分列表。前缀列表和FSD评分列表在解码后续编码器状态时被更新。例如,FSD模块响应于识别携带关于新转录输出的信息的编码器状态而扩展当前的FSD前缀列表以产生候选的FSD前缀列表和由FSD模块维持的对应FSD评分。
[0012]同步模块用于将FSD模块生成的前缀列表提供给LSD模块。这使得LSD模块能够处理由FSD模块生成的相同前缀列表。这使得FSD模块和LSD模块在前缀域中同步。此外,同步模块还向LSD模块提供编码器状态的选定部分,该选定部分取决于由扩展了当前的FSD前缀列表的FSD模块识别的编码器状态。这使得LSD模块能够将关注放在编码器状态序列的选定部分上,而不是放在对应于整个语音话语的整个编码器状态序列上。这减少了LSD模块的输
出延迟并且同步了FSD模块和LSD模块的定时。以此方式,FSD模块和LSD模块在时域和前缀域中同步,以生成用于相同序列的编码器状态的话语转录。
[0013]一些实施方式基于这样的认识:联合评分模块可以生成由FSD模块和LSD模块解码的联合转录输出列表,并且进一步计算相关联的联合评分列表。联合评分模块可以基于联合FSD评分和LSD评分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种基于计算机的自动语音识别系统,其中,所述系统使用与实现所述系统的模块的存储指令联接的处理器,其中,执行所述指令的处理器被配置为:将传入的表示语音话语的特征的声学帧流编码为经编码声学特征帧的编码器状态序列;并且用帧同步解码器FSD模块连续处理经编码声学特征帧的每个编码器状态直到满足终止条件为止,其中,所述FSD模块响应于识别携带关于新转录输出的信息的编码器状态而扩展当前的FSD前缀列表以产生候选的FSD前缀列表和对应的FSD评分,其中,候选列表中的每个FSD前缀是所述FSD模块对由所述FSD模块处理的编码器状态中的经解码转录输出的估计,其中,FSD前缀为所述经解码转录输出的概率由所述对应的FSD评分定义,其中,响应于产生所述候选的FSD前缀列表,所述处理器被配置为:选择所述编码器状态的包括由所述FSD模块识别的编码器状态在内的部分,并且触发标签同步解码器LSD模块来处理所述编码器状态的选定部分,以根据所述LSD模块确定LSD评分,所述LSD评分定义所述候选的FSD前缀列表中的FSD前缀为所述编码器状态的选定部分中的所述经解码转录输出的概率;根据由对应的FSD评分和LSD评分的组合定义的联合评分来修剪所述候选的FSD前缀列表;并且用修剪的FSD前缀列表替换所述当前的FSD前缀列表,以继续解码下一个转录输出。2.根据权利要求1所述的系统,其中,所述当前的FSD前缀列表的大小是固定的并且小于所述候选的FSD前缀列表的大小,使得修剪保留所述候选的FSD前缀列表中的具有最高联合评分的n个最佳FSD前缀,其中n是所述当前的FSD前缀列表的大小。3.根据权利要求1所述的系统,其中,所述处理器仅替换FSD前缀而不替换经替换的当前FSD前缀列表中的FSD评分。4.根据权利要求1所述的系统,其中,所述处理器被配置为输出具有最高联合评分的FSD前缀,作为所传入的声学帧流的与所述编码器状态序列的所述部分相对应的一部分的经解码转录输出。5.根据权利要求1所述的系统,其中,所述FSD模块包括:联结主义时间分类CTC神经网络,其输出每个编码器状态的转录输出概率;以及前缀波束搜索模块,其被配置为搜索所述CTC神经网络的输出以产生FSD评分高于阈值的候选的FSD前缀列表,其中,每个FSD评分是在折叠重复标签和去除空白符号之后导致相同前缀的所有转录输出序列的所有概率的总和,其中,所述前缀波束搜索模块基于根据所述联合评分修剪的当前的FSD前缀列表的FSD评分来计算所述候选的FSD前缀列表的FSD评分。6.根据权利要求1所述的系统,其中,所述FSD模块包括具有递归神经网络换能器RNN

T架构的神经网络。7.根据权利要求1所述的系统,其中,所述LSD模块包括基于关注的解码器神经网络。8.根据权利要求7所述的系统,其中,所述LSD模块确定作为输入提交的编码器状态的每个分区的对应LSD评分和LSD前缀列表,并且输出仅用于与所述FSD前缀匹配的LSD前缀的LSD评分。9.根据权利要求1所述的系统,其中,所述系统的模块包括同步模块,该同步模块被配
置为通过触发所述LSD模块来处理所述编码器状态的包括由所述FSD模块识别的新转录输出的部分并且通过使所述LSD模块估计由所述FSD模块产生的FSD前缀的LSD评分,来使所述FSD模块和所述LSD模块在时域和前缀域中同步。10.根据权利要求9所述的系统,其中,所述同步模块从所述序列的开始选择所述编码器状态序列的所述部分直到超前编码器状态,其中,通过以固定移位向前移位由所述FSD模块识别的所述编码器状态的位置来确定所述超前编码器状态。11.根据权利要求9所述的系统,其中,所述同步模块选择所述编码器状态序列的一部分,该部分包括相对于由所述FSD模块识别的编码器状态的位置的预定数量的超前编码器状态和预定数量的回顾编码器状态。12.根据权利要求1所述的系统,其中,所述系统的模块包括利用所述FSD模块和所述LSD模块联合训练的编码器神经网络,以形成触发关注TA神经网络。13.根据权利要求12所述的系统,其中,所述编码器包括基于并行延时长短期记忆PTDLSTM流的单向编码器神经网络。14.根据权利要求12所述的系统,其中,所述编码器和所述LS...

【专利技术属性】
技术研发人员:N
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1