使用嵌套卷积神经网络架构进行音频处理的方法和装置制造方法及图纸

技术编号:38088743 阅读:11 留言:0更新日期:2023-07-06 08:59
描述了基于卷积神经网络(CNN)进行音频处理的系统、方法和计算机程序产品。CNN架构可以包括多尺度输入块和多尺度嵌套块。多尺度输入块可以被配置为接收输入数据,并且通过对输入数据进行下采样来生成第一下采样输入数据集。多尺度嵌套块可以包括第一编码层,第一编码层被配置为通过基于输入数据执行卷积来生成第一编码数据集。多尺度嵌套块可以包括第二编码层,第二编码层被配置为通过基于第一下采样输入数据集执行卷积来生成第二编码数据集。此外,多尺度嵌套块可以包括第一卷积层,第一卷积层被配置为通过对第二编码数据集进行上采样、将第一编码数据集和上采样的第二编码数据集进行级联、并且执行卷积来生成第一输出数据集。第一卷积层可以嵌套在编码层与解码层之间,从而增加了与CNN的通信通道的数量,并且简化了底层优化问题。化了底层优化问题。化了底层优化问题。

【技术实现步骤摘要】
【国外来华专利技术】使用嵌套卷积神经网络架构进行音频处理的方法和装置
[0001]相关申请的交叉引用
[0002]本申请要求以下优先申请的优先权:于2020年10月19日提交的PCT国际申请PCT/CN2020/121829,于2020年11月11日提交的美国临时申请63/112,220,于2020年12月3日提交的欧洲申请20211501.0,于2021年3月2日提交的PCT国际申请PCT/CN2021/078705,以及于2021年3月22日提交的美国临时申请63/164,028。


[0003]本公开总体上涉及使用卷积神经网络(CNN)进行音频处理的方法和装置。更具体地,本公开涉及使用聚合多尺度嵌套CNN架构从原始有噪语音信号中提取语音。
[0004]尽管本文将特别参考该公开内容来描述一些实施例,但是应当理解,本公开不限于这种使用领域,并且可应用于更广泛的背景。

技术介绍

[0005]在整个公开内容中对
技术介绍
的任何讨论绝不应视为承认这种技术是本领域众所周知的或形成本领域公知常识的一部分。
[0006]深度神经网络(DNN)已经成为解决各种音频处理问题的可行选择。DNN的类型包括前馈多层感知器(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)。其中,CNN是一类前馈网络。
[0007]近年来,CNN架构已经被用于音频处理领域。特别地,CNN架构已经被成功地应用于各种音频处理问题,包括声音分离、语音增强和语音源分离。语音源分离旨在从背景干扰中恢复目标语音,并在语音和/或音频
有许多应用。在这种背景下,语音源分离通常也被称为“鸡尾酒会问题”。在这种场景中,由于复杂的背景,从专业内容(比如电影和TV)中提取对话存在挑战。
[0008]本文档的目的是提供一种新颖的CNN架构,其可以应用于音频处理的各个领域,包括声音分离、语音增强和语音源分离。

技术实现思路

[0009]根据本公开的第一方面,描述了一种实施卷积神经网络(CNN)架构的计算系统。CNN架构可以包括多尺度输入块和多尺度嵌套块。多尺度输入块可以被配置为接收输入数据,并且通过对输入数据进行下采样来生成第一下采样输入数据集。多尺度嵌套块可以包括第一编码层,第一编码层被配置为通过基于输入数据执行卷积来生成第一编码数据集。多尺度嵌套块可以包括第二编码层,第二编码层被配置为通过基于第一下采样输入数据集执行卷积来生成第二编码数据集。此外,多尺度嵌套块可以包括第一卷积层,第一卷积层被配置为通过基于第一编码数据集和上采样的第二编码数据集执行卷积来生成第一输出数据集,其中,上采样的第二编码数据集是通过对第二编码数据集进行上采样而获得的。例如,第一卷积层可以被配置为通过对第二编码数据集进行上采样、将第一编码数据集和上
采样的第二编码数据集进行级联、并且基于第一编码数据集和上采样的第二编码数据集的级联结果执行卷积来生成第一输出数据集。可替代地,上采样和/或级联可以由某个其他层或单元来执行,例如由第一编码层或第二编码层来执行。第一卷积层可以嵌套在编码层与解码层之间,从而增加了CNN内的通信通道的数量,并且简化了底层优化问题。
[0010]输入数据可以表示音频信号。例如,输入数据可以包括沿时间维度和频率维度延伸的音频信号频谱。多尺度输入块然后可以被配置为通过在时间维度上对频谱进行下采样或者通过在频率维度上对频谱进行下采样来执行下采样操作。可替代地,多尺度输入块可以被配置为通过在时间维度和频率维度两者上对该频谱进行下采样来执行该下采样操作。如将在以下说明书中描述的,多尺度输入块可以被配置为生成输入数据的进一步下采样版本,并且因此生成多个尺度的原始输入数据,这些数据被转发到多尺度嵌套块以供进一步处理。
[0011]在多尺度嵌套块中,编码层和卷积层可以是相同的或不同的。它们可以例如包括单个卷积层或多个卷积层,其输出以任意方式聚合或相加。每个卷积操作可以是例如2D卷积,并且可以后跟合适的激活函数。卷积层可以具有多个滤波器。编码层和卷积层的滤波器大小可以是不同的。可以用随机权重初始化滤波器,并且可以在训练过程期间训练权重。训练过程可以包括正向传播过程和反向传播过程两者。由编码层和卷积层生成的数据集在本文档中也可以表示为特征图。
[0012]多尺度嵌套块可以进一步包括第二卷积层,第二卷积层被配置为通过基于第二编码数据集执行卷积来生成第二输出数据集。多尺度嵌套块可以进一步包括第三卷积层,第三卷积层被配置为通过基于第一输出数据集和上采样的第二输出数据集执行卷积来生成第三输出数据集,其中,上采样的第二输出数据集是通过对第二输出数据集进行上采样而获得的。例如,第三卷积层可以被配置为通过对第二输出数据集进行上采样、将第一输出数据集和上采样的第二输出数据集进行级联、并且基于第一输出数据集和上采样的第二输出数据集的级联结果执行卷积来生成第三输出数据集。
[0013]第三卷积层也可以被表示/视为第一解码层,并且第三输出数据集可以被表示为第一解码数据集。换句话说,第一解码数据集可以表示与输入数据具有相同尺度的解码数据集。类似地,第二卷积层也可以被表示为第二解码层,并且第二输出数据集可以被表示为第二解码数据集。即,第二解码数据集可以表示与输入数据相比处于较低尺度的解码数据集,或者更准确地说:处于第一下采样输入数据集的尺度的解码数据集。因此,根据对所描述的CNN架构的上述解释,第一卷积层耦接在两个编码层与两个解码层之间,并且因此也可以被表示为嵌套(或中间)卷积层。因此,这种嵌套卷积层的存在使所提出的CNN架构内的通信增加。特别地,嵌套卷积层的引入使得编码数据集(例如编码器特征图)的语义级别更接近于解码数据集(例如解码器特征图)的语义级别。技术优势在于,当接收到的编码数据集和对应的解码数据集在语义上更相似时,优化器可以面临更容易的优化问题。
[0014]从网络的角度来看,第一编码层、第一卷积层和第三卷积层(即,第一解码层)可以被配置为处理并输出处于与输入数据相同尺度的数据集。所述三层可以形成多尺度嵌套块的第一层级。类似地,第二编码层和第二卷积层(即,第二解码层)可以被配置为处理并输出处于与第一下采样输入数据集相同尺度的数据集。所述两层可以形成多尺度嵌套块的第二层级。因此,所提出的CNN架构也可以表示为“嵌套的”,因为(a)第一卷积层位于第一层级的
不同层之间。在传统的CNN架构中,通常不提供这样的中间层,并且编码器的输出被直接转发到同一层级上的对应解码器。此外,所提出的CNN架构可以被表示为“嵌套的”,因为(b)第一卷积层在不同层级之间建立连接(具有附加的卷积处理)。例如,第一卷积层可以在第二编码层(在第二层级上)与第三卷积层(在第一第一上)之间执行一些附加的卷积处理,其中,在现有技术的架构中通常不提供这种附加的卷积处理。换句话说,多尺度嵌套块可以包括多个层级,每个层级与其输入数据的相应分辨率相关联,其中,(串行)层的数量从一个层级到下一层级减少一。
[0015]多尺度输入块可以进一步被配置为通过对第一下采样输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种实施卷积神经网络(CNN)架构的计算系统,所述CNN架构包括多尺度输入块和多尺度嵌套块,其中,所述多尺度输入块被配置为
·
接收输入数据,
·
通过对所述输入数据进行下采样来生成第一下采样输入数据集,以及并且其中,所述多尺度嵌套块包括:
·
第一编码层,所述第一编码层被配置为通过基于所述输入数据执行卷积来生成第一编码数据集,
·
第二编码层,所述第二编码层被配置为通过基于所述第一下采样输入数据集执行卷积来生成第二编码数据集,以及
·
第一卷积层,所述第一卷积层被配置为通过基于所述第一编码数据集和上采样的第二编码数据集执行卷积来生成第一输出数据集,其中,所述上采样的第二编码数据集是通过对所述第二编码数据集进行上采样而获得的。2.根据权利要求1所述的计算系统,其中,所述多尺度嵌套块进一步包括:
·
第二卷积层,所述第二卷积层被配置为通过基于所述第二编码数据集执行卷积来生成第二输出数据集;以及
·
第三卷积层,所述第三卷积层被配置为通过基于所述第一输出数据集和上采样的第二输出数据集执行卷积来生成第三输出数据集,其中,所述上采样的第二输出数据集是通过对所述第二输出数据集进行上采样而获得的。3.根据权利要求2所述的计算系统,其中,
·
所述多尺度输入块进一步被配置为通过对所述第一下采样输入数据集进行下采样来生成第二下采样输入数据集,
·
所述多尺度嵌套块进一步包括第三编码层,所述第三编码层被配置为通过基于所述第二下采样输入数据集执行卷积来生成第三编码数据集,并且
·
所述第二卷积层被配置为通过基于所述第二编码数据集和上采样的第三编码数据集执行卷积来生成所述第二输出数据集,其中,所述上采样的第三编码数据集是通过对所述第三编码数据集进行上采样而获得的。4.根据前述权利要求中任一项所述的计算系统,其中,
·
所述第二编码层被配置为通过基于所述第一下采样输入数据集和下采样的第一编码数据集执行卷积来生成所述第二编码数据集,其中,所述下采样的第一编码数据集是通过对所述第一编码数据集进行下采样而获得的。5.根据权利要求2至4中任一项所述的计算系统,其中,
·
所述第二卷积层被配置为通过基于所述第二编码数据集、下采样的第一输出数据集和上采样的第三编码数据集执行卷积来生成所述第二输出数据集,其中,所述下采样的第一输出数据集是通过对所述第一输出数据集进行下采样而获得的,并且所述上采样的第三编码数据集是通过对所述第三编码数据集进行上采样而获得的。6.根据权利要求2至5中任一项所述的计算系统,其中,
·
所述第三卷积层被配置为通过基于所述第一输出数据集、上采样的第二输出数据集和所述第一编码数据集执行卷积来生成所述第三输出数据集,其中,所述上采样的第二输出数据集是通过对所述第二输出数据集进行上采样而获得的。7.根据权利要求3或从属于权利要求3的任何权利要求所述的计算系统,其中,
·
所述
第三编码层被配置为通过基于所述第二下采样输入数据集、下采样的第一编码数据集和下采样的第二编码数据集执行卷积来生成所述第三编码数据集,其中,所述下采样的第一编码数据集是通过对所述第一编码数据集进行下采样而获得的,并且所述下采样的第二编码数据集是通过对所述第二编码数据集进行下采样而获得的。8.根据权利要求2至7中任一项所述的计算系统,其中,所述CNN架构包括加权加法块,所述加权加法块被配置为
·
将第一权重应用于所述第三输出数据集,
·
将第二权重应用于所述第二输出数据集,以及
·
基于所述加权的第三输出数据集和所述加权的第二输出数据集生成所述多尺度嵌套块的输出。9.根据前述权利要求中任一项所述的计算系统,其中,
·
所述第一编码层被配置为通过基于所述输入数据和上采样的第一下采样输入数据集执行卷积来生成所述第一编码数据集,其中,所述上采样的第一下采样输入数据集是通过对所述第一下采样输入数据集进行上采样而获得的,或者
·
所述第二编码层被配置为通过基于所述...

【专利技术属性】
技术研发人员:孙俊岱芦烈双志伟
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1