基于Conformer的流式语音识别中多尺度融合卷积系统技术方案

技术编号：41423211 阅读：30 留言：0更新日期：2024-05-28 20:22

本发明专利技术涉及人工智能算法技术领域，特别涉及一种基于Conformer的流式语音识别中多尺度融合卷积系统。本发明专利技术提供的多尺度融合卷积系统包括第一前馈神经网络模块、编码器注意力模块、多尺度卷积模块以及第二前馈神经网络模块，其中多尺度卷积模块包括并行设置的第一卷积组件和第二卷积组件，第一卷积组件和第二卷积组件设置有不同尺寸的卷积核，用于提取不同的视野特征、获取不同尺度的信息以平衡字错率和延迟。卷积融合组件采用卷积融合模型或系数融合模型，对两个不同尺寸的卷积核获取的不同通道特征信息进行融合。还通过在不同尺寸卷积核的每个元素之间插入空白，以减少计算参量，提升流式语音识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能算法，特别涉及一种基于conformer的流式语音识别中多尺度融合卷积系统。

技术介绍

1、流式语音识别能够在语音输入的同时输出文本结果，文本结果通常小于500毫秒，该技术的难点在于平衡字错率和延迟，此技术属于连续语音识别中的一个重要技术，也是研究的热点与重点。目前连续语音识别主要的框架主要有rnn-transducer（rnn-t）和u2++两种主流方法。

2、rnn-t主要由编码器、预测网络和联合网络三部分组成，其核心是将编码器的对音频特征的编码和预测网络的预测出的文本字符通过联合网络结合起来。虽然基于transducer的模型看起来更加完善，理论上表现更好，但是由于transducer模型复杂，训练难度较高，需要多次参数调整和优化才能达到稳定的性能，无论是训练还是部署都需要较多的计算资源，在算力较低的设备上延迟会很高。

3、在u2++系列方法中，使用了动态块（dynamic chunk）的方法进行训练，该方法将输入分割成一个个块（chunk），虽然在训练时通过使用不同大小的块使模型的泛化能力增强，但这种方法不会随着自注意力层的层数的堆叠而增加下文信息的获取量。因此，对于模型结构的设计，需要考虑精度和时延平衡。

4、fast u2++模型是一种u2++模型增强版本的流式语音识别模型，其在降低识别延迟上取得了较好的效果。在结构上fast u2++模型利用流式—非流式双模式来增强模型的性能，即模型框架既融合了流式处理的模式，也融合了非流式处理的模式，具体的融合通过卷积技术

5、fast u2++模型采用共享的双模式编码器，包括多个双模式conformer编码器，以及ctc解码器、从左到右的注意力解码器和从右到左的注意力解码器。双模式编码器可以通过增加或去除卷积模块中的因果卷积实现流式与非流式的转换，流式输出和非流式输出共享ctc解码器。

6、fast u2++模型的训练策略分为两阶段，第一阶段进行联合训练，同时进行流式和非流式的训练；第二阶段在编码器的底层添加额外的双模式conformer层，只用来进行流式的训练。在解码器端，单独使用ctc贪婪搜索解码方式来输出流式识别结果，由于流式模式的在底层双模式conformer中的块大小的值设置的较小，识别延迟也随之大幅降低，但是会导致流式识别结果的错误率较高，在优化参数的条件下，其字错率最低为7.34%。高层双模式conformer中的块大小的值设置的较大，并且使用注意力重打分的方法进行解码，能够有效的提高模型最终的识别结果，但这种方式流式语音识别的适配程度并没有ctc贪婪搜索解码方式高，且解码过程较为复杂，耗费时间较长。

7、另外从模型的宽度方面考虑，由于是双模式，因此整个模型宽度也被分成了两份，并且在实际训练过程中，模型的流式和非流式的卷积是通过流式编码器和非流式编码器也是分开实现的，并没有同一个编码器中使用两种卷积，而是语音特征数据被同时分别输入到这两个编码器中，每个编码器单独的进行计算。这就导致了在训练过程中，编码器部分的参数量和计算量是单模式的两倍，因此这种结构增大了模型的训练时间和训练难度。

技术实现思路

1、本专利技术的目的是为了克服已有技术的缺陷，提出一种基于conformer的流式语音识别中多尺度融合卷积系统，通过融合不同大小的卷积核的卷积模块，实现fast u2++的双层结构，以增强模型整体识别性能的系统。

2、为实现上述目的，本专利技术采用以下具体技术方案：

3、本专利技术提供的基于conformer的流式语音识别中多尺度融合卷积系统，包括依次连接的第一前馈神经网络模块、编码器注意力模块、多尺度卷积模块以及第二前馈神经网络模块，多尺度卷积模块包括第一卷积组件、第二卷积组件以及卷积融合组件；第一卷积组件和第二卷积组件并行设置，编码器注意力模块、并行设置的第一卷积组件和第二卷积组件、卷积融合组件以及第二前馈神经网络模块依次连接设置；第一卷积组件和第二卷积组件设置有不同尺寸的卷积核，用于提取不同的视野特征、获取不同尺度的信息以平衡字错率和延迟。

4、进一步地，卷积融合组件采用卷积融合模型或系数融合模型，对第一卷积组件和第二卷积组件的两个不同尺寸的卷积核获取的不同通道特征信息进行融合；卷积融合模型将第一卷积组件和第二卷积组件输出的张量合并、逐点卷积后输出；系数融合模型将第一卷积组件和第二卷积组件输出的张量分别乘以不同参数后相加并输出。

5、进一步地，卷积融合模型将第一卷积组件和第二卷积组件输出的形状为（batch，time，channels）的张量合并为形状为（batch，2，time，channel）的张量，再通过一个卷积核大小为1×1、步长为1×1、输入通道为2、输出通道为1进行逐点卷积后输出。

6、进一步地，系数融合模型将第一卷积组件和第二卷积组件输出的形状为（batch，time，channels）的张量分别乘以α和1-α，再将乘积结果相加实现参数融合并输出。

7、进一步地，第一卷积组件和第二卷积组件的卷积核的每个元素之间通过补0的方式插入空白，用于增大卷积核覆盖的面积以增加感受野，实现在不增加计算复杂度的同时扩大感受野。

8、本专利技术能够取得如下技术效果：

9、1、本专利技术提供了一种多尺度融合卷积系统，通过设置不同尺寸的卷积核，实现了不同视野特征的提取，使卷积模块可以学习到不同尺度的信息，在字错率和延迟方面实现更好的平衡，实现了流式语音识别准确率和实时性的双重提升；

10、2、在信息卷积融合的方式上，本专利技术提出了卷积融合模型和系数融合模型两种信息融合方法，两种方法的结果都优于基线模型的方法；

11、3、本专利技术还提供了一种空洞因果卷积跳步连接模型，通过在不同尺寸卷积核的每个元素之间以补0的方式插入空白，减少计算参量，提升了流式语音识别的准确率。依据端到端流式语音识别中，只依据上文推测下文和相邻帧相似性最大的特性，将上下文视野的卷积方式修改为上文跳步的卷积方式，有效的帮助模型捕获特征间的长期依赖关系，实现了提升模型性能、提高神经网络每个参数的应用效率。

本文档来自技高网...

【技术保护点】

1.一种基于Conformer的流式语音识别中多尺度融合卷积系统，包括依次连接的第一前馈神经网络模块、编码器注意力模块、多尺度卷积模块以及第二前馈神经网络模块，其特征在于，所述多尺度卷积模块包括第一卷积组件、第二卷积组件以及卷积融合组件；

2.根据权利要求1所述的基于Conformer的流式语音识别中多尺度融合卷积系统，其特征在于，所述卷积融合组件采用卷积融合模型或系数融合模型，对所述第一卷积组件和所述第二卷积组件的两个不同尺寸的卷积核获取的不同通道特征信息进行融合；

3.根据权利要求2所述的基于Conformer的流式语音识别中多尺度融合卷积系统，其特征在于，所述卷积融合模型将所述第一卷积组件和所述第二卷积组件输出的形状为（batch，time，channels）的张量合并为形状为（batch，2，time，channel）的张量，再通过一个卷积核大小为1×1、步长为1×1、输入通道为2、输出通道为1进行逐点卷积后输出。

4.根据权利要求2所述的基于Conformer的流式语音识别中多尺度融合卷积系统，其特征在于，所述系数融合模型将所述第一卷

5.根据权利要求1所述的基于Conformer的流式语音识别中多尺度融合卷积系统，其特征在于，所述第一卷积组件和所述第二卷积组件的卷积核的每个元素之间通过补0的方式插入空白，用于增大卷积核覆盖的面积以增加感受野，实现在不增加计算复杂度的同时扩大感受野。

...

【技术特征摘要】

1.一种基于conformer的流式语音识别中多尺度融合卷积系统，包括依次连接的第一前馈神经网络模块、编码器注意力模块、多尺度卷积模块以及第二前馈神经网络模块，其特征在于，所述多尺度卷积模块包括第一卷积组件、第二卷积组件以及卷积融合组件；

2.根据权利要求1所述的基于conformer的流式语音识别中多尺度融合卷积系统，其特征在于，所述卷积融合组件采用卷积融合模型或系数融合模型，对所述第一卷积组件和所述第二卷积组件的两个不同尺寸的卷积核获取的不同通道特征信息进行融合；

3.根据权利要求2所述的基于conformer的流式语音识别中多尺度融合卷积系统，其特征在于，所述卷积融合模型将所述第一卷积组件和所述第二卷积组件输出的形状为（batch，time，channels）的...

【专利技术属性】
技术研发人员：刘葳，孙晓业，孙一鸣，许春生，陈纯毅，
申请(专利权)人：长春理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人