在实施例中,一种方法包括:接收输入音频信号的功率频谱的频带以及麦克风协方差,并且针对每个频带:使用分类器来估计语音和噪声的相应概率;基于所述频带的所述麦克风协方差和所述概率,使用方向性模型来估计语音和噪声的一组均值、或语音和噪声的一组均值和协方差;使用电平模型基于所述概率和所述功率频谱来估计噪声功率的均值和协方差;基于所述方向性模型来确定第一噪声抑制增益;基于所述电平模型来确定第二噪声抑制增益;基于所述输入音频信号的信噪比,选择第一噪声抑制增益或第二噪声抑制增益或这两者之和;以及通过所选择的噪声抑制增益来缩放输入信号的时频表示。声抑制增益来缩放输入信号的时频表示。声抑制增益来缩放输入信号的时频表示。
【技术实现步骤摘要】
【国外来华专利技术】机器学习辅助的空间噪声估计和抑制
[0001]相关申请的交叉引用
[0002]本申请要求于2020年11月5日提交的美国临时申请号63/110,228以及于2021年6月14日提交的美国临时申请号63/210,215的优先权,所述专利申请中的每一个均通过引用以其全文并入本文。
[0003]本公开总体上涉及音频信号处理,并且特别是涉及语音通信中的噪声估计和抑制。
技术介绍
[0004]用于语音通信的噪声抑制算法已经有效地实施于如电话、膝上型计算机和会议系统等边缘设备。双向语音通信的常见问题是,在每个用户的位置处的背景噪声会与用户的语音信号一起传输。如果在边缘设备处接收到的组合信号的信噪比(SNR)太低,则重构语音的可理解性将降低,从而导致用户体验不佳。
技术实现思路
[0005]公开了用于机器学习辅助的空间噪声估计和抑制的实施方式。在一些实施例中,一种音频处理方法包括:接收输入音频信号的功率频谱的频带和每个频带的麦克风协方差,其中,所述麦克风协方差基于用于捕获所述输入音频信号的麦克风的配置;针对每个频带:使用机器学习分类器来估计语音和噪声的相应概率;基于所述频带的所述麦克风协方差和所述概率,使用方向性模型(directionality model)来估计语音和噪声的一组均值、或语音和噪声的一组均值和协方差;使用电平模型(level model)基于所述概率和所述功率频谱来估计噪声功率的均值和协方差;基于所述方向性模型的第一输出来确定第一噪声抑制增益;基于所述电平模型的第二输出来确定第二噪声抑制增益;基于所述输入音频信号的信噪比来选择所述第一噪声抑制增益或所述第二噪声抑制增益之一、或者所述第一噪声抑制增益与所述第二噪声抑制增益之和;通过用于所述频带的所选择的第一噪声抑制增益或第二噪声抑制增益缩放所述输入信号的时频表示;以及将所述时频表示转换为输出音频信号。
[0006]在一些实施例中,所述方法进一步包括:使用所述至少一个处理器接收包括一定数量的块/帧的输入音频信号;针对每个块/帧:使用所述至少一个处理器将所述块/帧转换为子带,每个子带具有与其他子带不同的频谱;使用所述至少一个处理器将所述子带组合为频带;以及使用所述至少一个处理器来确定分带功率。
[0007]在一些实施例中,机器学习分类器是包括输入层、输出层以及一个或多个隐藏层的神经网络。在示例中,神经网络是深度神经网络,其包括三个或更多个层、优选地多于3个层。
[0008]在一些实施例中,所述麦克风协方差被表示为归一化向量。
[0009]在一些实施例中,所述方法进一步包括:确定所述第一噪声抑制增益进一步包括:计算针对所述频带的语音的概率;如果针对所述频带的语音的所述概率小于阈值,则将所述第一噪声抑制增益设置为等于最大抑制增益;以及如果针对所述频带的语音的概率大于阈值,则基于增益斜坡设置所述第一噪声抑制增益。
[0010]在一些实施例中,使用通过所述方向性模型估计的语音和噪声的所述一组均值和所述协方差来计算所述语音的概率。
[0011]在一些实施例中,使用通过所述方向性模型估计的语音和噪声的所述一组均值和所述协方差向量、以及多变量联合高斯密度函数来计算语音的所述概率。
[0012]在一些实施例中,所述方法进一步包括:确定所述第二噪声抑制增益进一步包括:如果所述频带功率小于第一阈值,则将所述第二噪声抑制增益设置为等于最大抑制增益;如果所述频带功率在第一阈值与第二阈值之间(其中,第二阈值高于第一阈值),则将所述第二噪声抑制增益设置为等于零;以及如果所述频带功率高于第二阈值,则基于增益斜坡来设置所述第二噪声抑制增益。
[0013]在一些实施例中,使用所述方向性模型进行的所述估计使用被分类为语音和噪声的时频片,但排除被分类为混响的时频片。
[0014]在一些实施例中,所述方法进一步包括:基于所述频带的所述麦克风协方差和语音的所述概率使用方向性模型或电平模型来估计语音的均值进一步包括:使用一阶低通滤波器计算语音的所述均值的时间平均估计,其中,语音的所述均值和所述麦克风协方差向量作为所述滤波器的输入;以及通过语音的所述概率对所述滤波器的输入进行加权。
[0015]在一些实施例中,所述方法进一步包括:基于所述频带的所述麦克风协方差和噪声的所述概率使用方向性模型或电平模型来估计噪声的均值进一步包括:使用一阶低通滤波器计算噪声的所述均值的时间平均估计,其中,噪声的所述均值和所述麦克风协方差向量作为所述滤波器的输入;以及通过噪声的所述概率对所述滤波器的输入进行加权。
[0016]在一些实施例中,所述方法进一步包括:基于所述频带的所述麦克风协方差和语音的所述概率使用方向性模型或电平模型来估计语音的协方差进一步包括:使用一阶低通滤波器计算语音的所述协方差的时间平均估计,其中,语音的所述协方差和所述麦克风协方差向量作为所述滤波器的输入;以及通过语音的所述概率对所述滤波器的输入进行加权。
[0017]在一些实施例中,所述方法进一步包括:基于所述频带的所述麦克风协方差和噪声的所述概率使用方向性模型或电平模型来估计噪声的协方差进一步包括:使用一阶低通滤波器计算语音的所述协方差的时间平均估计,其中,语音的所述协方差和所述麦克风协方差向量作为所述滤波器的输入;以及通过噪声的所述概率对所述滤波器的输入进行加权。
[0018]在一些实施例中,一种系统包括:一个或多个计算机处理器;以及存储有指令的非暂态计算机可读介质,所述指令在由所述一个或多个计算机处理器执行时,使所述一个或多个处理器执行前述方法中的任何一种方法的操作。
[0019]在一些实施例中,一种非暂态计算机可读介质存储有指令,所述指令在由一个或多个计算机处理器执行时,使所述一个或多个处理器执行前述方法中的任何一种方法。
[0020]本文公开的其他实施方式涉及一种系统、一种装置和一种计算机可读介质。下文
的附图和描述中阐述了所公开的实施方式的细节。根据所述描述、附图和权利要求,其他特征、目的和优点是显而易见的。
[0021]本文公开的特定实施方式提供了以下优点中的一个或多个。所公开的实施例使用方向性和机器学习(例如,神经网络)为语音通信应用提供低成本高质量的噪声估计和抑制。所公开的噪声估计和抑制的实施例可以在各种边缘设备上实施并且无需多个麦克风。神经网络的使用扩展至用于多种多样的背景噪声。
附图说明
[0022]在附图中,为了便于描述,示出了示意性元素的特定布置或排序,如那些表示设备、单元、指令块和数据元素的示意性元素。然而,本领域技术人员应当理解,附图中示意性元素的特定排序或布置并不意味着暗示需要特定的处理次序或顺序或者单独的过程。进一步地,在附图中包括示意性元素并不意味着暗示在所有实施例中都需要这种元素,或者在一些实施方式中,由该元素表示的特征可以不包括在其他元素中或与其他元素组合。
[0023]进一步地,在附图中,在使用如实线或虚线或箭头等连接元素来说明两个或更多个其他示意性元素之间的连接、关本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种音频处理方法,包括:使用至少一个处理器来接收输入音频信号的功率频谱的频带和每个频带的麦克风协方差,其中,所述麦克风协方差基于用于捕获所述输入音频信号的麦克风的配置;针对每个频带:使用机器学习分类器来估计语音和噪声的相应概率;基于所述频带的所述麦克风协方差和所述概率,使用方向性模型来估计语音和噪声的一组均值、或语音和噪声的一组均值和协方差;使用电平模型基于所述概率和所述功率频谱来估计噪声功率的均值和协方差;使用所述至少一个处理器基于所述方向性模型的第一输出来确定第一噪声抑制增益;使用所述至少一个处理器基于所述电平模型的第二输出来确定第二噪声抑制增益;基于所述输入音频信号的信噪比,使用所述至少一个处理器来选择所述第一噪声抑制增益或所述第二噪声抑制增益之一、或者所述第一噪声抑制增益与所述第二噪声抑制增益之和;使用所述至少一个处理器通过用于所述频带的所选择的第一噪声抑制增益或第二噪声抑制增益来缩放所述输入信号的时频表示;以及使用所述至少一个处理器将所述时频表示转换为输出音频信号。2.如权利要求1所述的方法,进一步包括:使用所述至少一个处理器接收包括一定数量的块/帧的输入音频信号;针对每个块/帧:使用所述至少一个处理器将所述块/帧转换为子带,每个子带具有与其他子带不同的频谱;使用所述至少一个处理器将所述子带组合为频带;以及使用所述至少一个处理器来确定分带功率。3.如权利要求1所述的方法,其中,所述机器学习分类器是神经网络。4.如权利要求1或2所述的方法,其中,所述麦克风协方差被表示为归一化向量。5.如前述权利要求1至4中任一项所述的方法,其中,确定所述第一噪声抑制增益包括:计算针对所述频带的语音的概率;如果针对所述频带的语音的所述概率小于阈值,则将所述第一噪声抑制增益设置为等于最大抑制增益;以及通过从所述最大抑制增益向零逐渐变化来设置所述第一噪声抑制增益,以增大语音的概率。6.如权利要求5所述的方法,其中,使用通过所述方向性模型而估计的语音和噪声的所述一组均值和所述协方差来计算语音的所述概率。7.如权利要求5所述的方法,其中,使用通过所述方向性模型而估计的语音和噪声的所述一组均值和所述协方差、以及多变量联合高斯密度函数来计算语音的所述概率。8.如前述权利要求1至7中任一项所述的方法,其中,确定所述第二噪声抑制增益包括:如果所述...
【专利技术属性】
技术研发人员:R,
申请(专利权)人:杜比实验室特许公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。