用异步解码器流式传输端到端语音识别的系统和方法技术方案

技术编号：34237561 阅读：55 留言：0更新日期：2022-07-24 08:31

语音识别系统利用帧同步解码器(FSD)模块和标签同步解码器(LSD)模块连续处理经编码声学特征的每个编码器状态。当识别出携带关于新转录输出的信息的编码器状态时，系统利用FSD模块扩展当前的FSD前缀列表，利用LSD模块评估FSD前缀，并根据联合的FSD评分和LSD评分修剪FSD前缀。通过使LSD模块处理编码器状态的包括由FSD模块识别的新转录输出的部分并产生由FSD模块确定的FSD前缀的LSD评分，来使FSD模块和LSD模块同步。和LSD模块同步。和LSD模块同步。

System and method of streaming end-to-end speech recognition with asynchronous decoder

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用异步解码器流式传输端到端语音识别的系统和方法

[0001]本专利技术总体上涉及一种语音识别系统，更具体地，涉及一种用于具有低延时要求的自动语音识别应用的具有联合帧同步解码(FSD)和标签同步解码(LSD)的流式传输端到端语音识别的方法和系统。

技术介绍

[0002]自动语音识别(ASR)系统被广泛地部署用于诸如基于语音的搜索之类的各种接口应用。近年来，端到端和序列到序列神经网络模型在ASR界得到了越来越多的关注和普及。端到端ASR系统的输出通常是字素序列，该字素序列可以是单个字母，或者是诸如单词片段、完整单词或句子片段之类的较大单位。端到端ASR的吸引力在于：与传统ASR系统相比，端到端ASR由于其主要由神经网络组件组成而实现了简化的系统结构，并且避免了构建ASR系统所需的语言专家知识。这种端到端ASR系统可以直接学习语音识别器的包括发音模型、声学模型和语言模型在内的所有组件，这避免了对特定语言的语言信息和标记化的需要。
[0003]用于端到端ASR系统的序列到序列模型主要基于两类神经网络输出范式，即，适用于帧同步解码(FSD)的具有逐帧决策的神经网络和使用标签同步解码(LSD)的具有逐标签决策的神经网络。具有FSD的端到端ASR系统更适合于流传输/在线ASR应用，其中ASR输出可以在每个口语单词之后立即以低延迟生成。然而，基于LSD的ASR系统(其在语音识别中经常表现出优异的结果)不太适合于在线/流传输ASR应用，这是因为通常由于在解码之前丢失对准信息(即，缺少关于输入序列是否包含足够信息以生成下一输出令...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种基于计算机的自动语音识别系统，其中，所述系统使用与实现所述系统的模块的存储指令联接的处理器，其中，执行所述指令的处理器被配置为：将传入的表示语音话语的特征的声学帧流编码为经编码声学特征帧的编码器状态序列；并且用帧同步解码器FSD模块连续处理经编码声学特征帧的每个编码器状态直到满足终止条件为止，其中，所述FSD模块响应于识别携带关于新转录输出的信息的编码器状态而扩展当前的FSD前缀列表以产生候选的FSD前缀列表和对应的FSD评分，其中，候选列表中的每个FSD前缀是所述FSD模块对由所述FSD模块处理的编码器状态中的经解码转录输出的估计，其中，FSD前缀为所述经解码转录输出的概率由所述对应的FSD评分定义，其中，响应于产生所述候选的FSD前缀列表，所述处理器被配置为：选择所述编码器状态的包括由所述FSD模块识别的编码器状态在内的部分，并且触发标签同步解码器LSD模块来处理所述编码器状态的选定部分，以根据所述LSD模块确定LSD评分，所述LSD评分定义所述候选的FSD前缀列表中的FSD前缀为所述编码器状态的选定部分中的所述经解码转录输出的概率；根据由对应的FSD评分和LSD评分的组合定义的联合评分来修剪所述候选的FSD前缀列表；并且用修剪的FSD前缀列表替换所述当前的FSD前缀列表，以继续解码下一个转录输出。2.根据权利要求1所述的系统，其中，所述当前的FSD前缀列表的大小是固定的并且小于所述候选的FSD前缀列表的大小，使得修剪保留所述候选的FSD前缀列表中的具有最高联合评分的n个最佳FSD前缀，其中n是所述当前的FSD前缀列表的大小。3.根据权利要求1所述的系统，其中，所述处理器仅替换FSD前缀而不替换经替换的当前FSD前缀列表中的FSD评分。4.根据权利要求1所述的系统，其中，所述处理器被配置为输出具有最高联合评分的FSD前缀，作为所传入的声学帧流的与所述编码器状态序列的所述部分相对应的一部分的经解码转录输出。5.根据权利要求1所述的系统，其中，所述FSD模块包括：联结主义时间分类CTC神经网络，其输出每个编码器状态的转录输出概率；以及前缀波束搜索模块，其被配置为搜索所述CTC神经网络的输出以产生FSD评分高于阈值的候选的FSD前缀列表，其中，每个FSD评分是在折叠重复标签和去除空白符号之后导致相同前缀的所有转录输出序列的所有概率的总和，其中，所述前缀波束搜索模块基于根据所述联合评分修剪的当前的FSD前缀列表的FSD评分来计算所述候选的FSD前缀列表的FSD评分。6.根据权利要求1所述的系统，其中，所述FSD模块包括具有递归神经网络换能器RNN
‑
T架构的神经网络。7.根据权利要求1所述的系统，其中，所述LSD模块包括基于关注的解码器神经网络。8.根据权利要求7所述的系统，其中，所述LSD模块确定作为输入提交的编码器状态的每个分区的对应LSD评分和LSD前缀列表，并且输出仅用于与所述FSD前缀匹配的LSD前缀的LSD评分。9.根据权利要求1所述的系统，其中，所述系统的模块包括同步模块，该同步模块被配
置为通过触发所述LSD模块来处理所述编码器状态的包括由所述FSD模块识别的新转录输出的部分并且通过使所述LSD模块估计由所述FSD模块产生的FSD前缀的LSD评分，来使所述FSD模块和所述LSD模块在时域和前缀域中同步。10.根据权利要求9所述的系统，其中，所述同步模块从所述序列的开始选择所述编码器状态序列的所述部分直到超前编码器状态，其中，通过以固定移位向前移位由所述FSD模块识别的所述编码器状态的位置来确定所述超前编码器状态。11.根据权利要求9所述的系统，其中，所述同步模块选择所述编码器状态序列的一部分，该部分包括相对于由所述FSD模块识别的编码器状态的位置的预定数量的超前编码器状态和预定数量的回顾编码器状态。12.根据权利要求1所述的系统，其中，所述系统的模块包括利用所述FSD模块和所述LSD模块联合训练的编码器神经网络，以形成触发关注TA神经网络。13.根据权利要求12所述的系统，其中，所述编码器包括基于并行延时长短期记忆PTDLSTM流的单向编码器神经网络。14.根据权利要求12所述的系统，其中，所述编码器和所述LS...

【专利技术属性】
技术研发人员：N，
申请(专利权)人：三菱电机株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人