本发明专利技术公开了一种音乐混响强度估计方法,该方法包括:通过获取原始音乐中带有混响的原始人声信号;对原始人声信号分别进行编码和声纹处理,得到编码向量和声纹向量;将编码向量和声纹向量进行拼接,并将拼接后的向量输入分离网络得到掩码向量;将掩码向量和编码向量叠加后进行解码得到去除混响后的人声信号;基于去除混响后的人声信号和带有混响的原始人声信号估计原始音乐的混响强度。本发明专利技术通过对原始人声信号进行处理,然后根据处理结果进行预测,不会存在相位缺失的情况,有效提高了预测结果的准确度;同时加入了声纹处理,利用了不同人嗓音不同的特点,使音乐混响强度的估计更加准确。加准确。加准确。
【技术实现步骤摘要】
一种音乐混响强度估计方法、装置及电子设备
[0001]本专利技术涉及音频处理
,具体涉及一种音乐混响强度估计方法、装置及电子设备。
技术介绍
[0002]在狭小的空间内,播放音乐的效果会受到限制,尤其是混响较小的音乐,音乐效果不够自然。如果可以给歌曲加入混响,会为用户打造更好的听歌体验。为了区别需要加入混响的音乐种类,以及需要加入混响的强度,需要先准确估计出音乐自身的混响大小。
[0003]现有技术中通常采用滤波后的混合信号提供对混响感知水平的度量,但是这种方案除了需要输入原始信号分量,还需要把原始信号分量进行混响器处理,然后将原始信号分量和处理后的信号分量共同输入用于感知强度的度量装置,进而估计出需要多大的混响强度加入到原始信号分量上。所以这个技术的输出极大的依赖于混响器的混响强度。而现在的商业音乐是经过录音房录制并经过混响处理的,由于我们不知道是采用何种方式进行的混响,对音乐中的混响强度的估计值准确度较低。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供了一种音乐混响强度估计方法,以解决对音乐中的混响强度的估计值准确度较低的问题。
[0005]为达到上述目的,本专利技术提供如下技术方案:
[0006]本专利技术实施例提供了一种音乐混响强度估计方法,包括:
[0007]获取原始音乐中带有混响的原始人声信号;
[0008]对所述原始人声信号分别进行编码和声纹处理,得到编码向量和声纹向量;
[0009]将所述编码向量和所述声纹向量进行拼接,并将拼接后的向量输入分离网络得到掩码向量;
[0010]将所述掩码向量和所述编码向量叠加后进行解码得到去除混响后的人声信号;
[0011]基于所述去除混响后的人声信号和带有混响的原始人声信号估计所述原始音乐的混响强度。
[0012]可选的,所述对所述原始人声信号分别进行编码和声纹处理,得到编码向量和声纹向量,包括:
[0013]将所述原始人声信号按照预设的步长进行划分;
[0014]将划分后的原始人声信号进行编码得到编码向量;
[0015]通过预设算法从所述原始人声信号中提取频谱特征向量;
[0016]将所述频谱特征向量进行声纹处理得到声纹向量。
[0017]可选的,所述通过预设算法从所述原始人声信号中提取频谱特征向量,包括:
[0018]将所述原始人声信号进行傅里叶分析,得到第一频谱;
[0019]对所述第一频谱进行滤波得到第二频谱;
[0020]基于所述第一频谱和所述第二频谱计算得到所述频谱特征向量。
[0021]可选的,所述将所述频谱特征向量进行声纹处理得到声纹向量,包括:
[0022]将所述频谱特征向量通过帧表示层得到隐层向量;
[0023]将所述隐层向量输入统计池化层提取特征表达向量;
[0024]将所述特征表达向量输入全连接层进行降维得到声纹向量。
[0025]可选的,所述将拼接后的向量输入分离网络得到掩码向量,包括:
[0026]通过多头注意力机制对所述拼接后的向量进行识别得到多个局部特征向量;
[0027]通过多头注意力机制对所述局部特征向量进行识别得到掩码向量。
[0028]可选的,所述基于所述去除混响后的人声信号和带有混响的原始人声信号估计所述原始音乐的混响强度,包括:
[0029]从所述原始人声信号中提取第一强度和信号频率分布;
[0030]从所述去除混响后的人声信号提取第二强度;
[0031]计算所述第一强度和第二强度的比值;
[0032]基于所述第一强度、第二强度、信号频率分布和比值计算所述原始音乐的混响强度。
[0033]可选的,所述获取原始音乐中带有混响的原始人声信号,包括:
[0034]对所述原始音乐进行音轨分离;
[0035]从音轨分离后的原始音乐中提取带有混响的原始人声信号。
[0036]本专利技术实施例还提供了一种音乐混响强度估计装置,包括:
[0037]获取模块,用于获取原始音乐中带有混响的原始人声信号;
[0038]处理模块,用于对所述原始人声信号分别进行编码和声纹处理,得到编码向量和声纹向量;
[0039]分离模块,用于将所述编码向量和所述声纹向量进行拼接,并将拼接后的向量输入分离网络得到掩码向量;
[0040]解码模块,用于将所述掩码向量和所述编码向量叠加后进行解码得到去除混响后的人声信号;
[0041]估计模块,用于基于所述去除混响后的人声信号和带有混响的原始人声信号估计所述原始音乐的混响强度。
[0042]本专利技术实施例还提供了一种电子设备,包括:
[0043]存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行本专利技术实施例提供的音乐混响强度估计方法。
[0044]本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本专利技术实施例提供的音乐混响强度估计方法。
[0045]本专利技术技术方案,具有如下优点:
[0046]本专利技术提供了一种音乐混响强度估计方法,通过获取原始音乐中带有混响的原始人声信号;对原始人声信号分别进行编码和声纹处理,得到编码向量和声纹向量;将编码向量和声纹向量进行拼接,并将拼接后的向量输入分离网络得到掩码向量;将掩码向量和编
码向量叠加后进行解码得到去除混响后的人声信号;基于去除混响后的人声信号和带有混响的原始人声信号估计原始音乐的混响强度。本专利技术通过对原始人声信号进行处理,然后根据处理结果进行预测,不会存在相位缺失的情况,有效提高了预测结果的准确度;同时加入了声纹处理,利用了不同人嗓音不同的特点,使音乐混响强度的估计更加准确。
附图说明
[0047]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0048]图1为本专利技术实施例中的音乐混响强度估计方法的流程图;
[0049]图2为根据本专利技术实施例中获取原始人声信号的流程图;
[0050]图3为根据本专利技术实施例中对原始人声信号进行处理的流程图;
[0051]图4为根据本专利技术实施例中从原始人声信号中提取频谱特征向量的流程图;
[0052]图5为根据本专利技术实施例中将频谱特征向量进行声纹处理得到声纹向量的流程图;
[0053]图6为根据本专利技术实施例中得到掩码向量的流程图;
[0054]图7为根据本专利技术实施例中得到去除混响后的人声信号的流程图;
[0055]图8为本专利技术实施例中的音乐混响强度估计装置的结构示意图;
[0本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种音乐混响强度估计方法,其特征在于,包括:获取原始音乐中带有混响的原始人声信号;对所述原始人声信号分别进行编码和声纹处理,得到编码向量和声纹向量;将所述编码向量和所述声纹向量进行拼接,并将拼接后的向量输入分离网络得到掩码向量;将所述掩码向量和所述编码向量叠加后进行解码得到去除混响后的人声信号;基于所述去除混响后的人声信号和带有混响的原始人声信号估计所述原始音乐的混响强度。2.根据权利要求1所述的音乐混响强度估计方法,其特征在于,所述对所述原始人声信号分别进行编码和声纹处理,得到编码向量和声纹向量,包括:将所述原始人声信号按照预设的步长进行划分;将划分后的原始人声信号进行编码得到编码向量;通过预设算法从所述原始人声信号中提取频谱特征向量;将所述频谱特征向量进行声纹处理得到声纹向量。3.根据权利要求2所述的音乐混响强度估计方法,其特征在于,所述通过预设算法从所述原始人声信号中提取频谱特征向量,包括:将所述原始人声信号进行傅里叶分析,得到第一频谱;对所述第一频谱进行滤波得到第二频谱;基于所述第一频谱和所述第二频谱计算得到所述频谱特征向量。4.根据权利要求2所述的音乐混响强度估计方法,其特征在于,所述将所述频谱特征向量进行声纹处理得到声纹向量,包括:将所述频谱特征向量通过帧表示层得到隐层向量;将所述隐层向量输入统计池化层提取特征表达向量;将所述特征表达向量输入全连接层进行降维得到声纹向量。5.根据权利要求1所述的音乐混响强度估计方法,其特征在于,所述将拼接后的向量输入分离网络得到掩码向量,包括:通过多头注意力机制对所述拼接后的向量进行识别得到多个局部特征向量;通过多头注意力机制对所述局部特征向量进行识别得到掩码向量。6...
【专利技术属性】
技术研发人员:于洋,
申请(专利权)人:镁佳北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。