一种单通道语音回声消除方法和装置制造方法及图纸

技术编号:37194776 阅读:19 留言:0更新日期:2023-04-20 22:54
本发明专利技术公开了一种单通道语音回声消除方法和装置,其中所述方法包括:对采集的近端时域信号和远端时域信号进行傅里叶变换获得近端频域信号和远端频域信号并提取信号特征;对频域信号特征拼接后输入至全频带模型,全频带频模型包括2个GRU层、1个全连接层和1个ReLU层;对近端频域信号特征划分子频带,将近端频域信号特征子频带划分结果与全频带模型的输出信号特征拼接后输入至子频带模型,子频带模型包括2个GRU层和1个全连接层;对子频带模型输出结果优化计算后输出语音时域信号。本发明专利技术回声消除方案基于GRU构建全频带和子频带模型并考虑频点间相关性,性能消耗低,可以实时运行于本地设备。行于本地设备。行于本地设备。

【技术实现步骤摘要】
一种单通道语音回声消除方法和装置


[0001]本说明书涉及音频处理
,尤其涉及一种单通道语音回声消除方法、装置、电子设备和存储介质。

技术介绍

[0002]在远程音视频会议通信系统中,当麦克风与扬声器存在耦合时,麦克风将扬声器产生的语音信号重新采集并通过通信系统传送至对端,导致对端听到自己的声音即为回声,回声问题严重影响会议系统的通话质量,回声消除技术对于高质量的音视频通讯具有重要意义。回声消除是在不损伤近端语音的情况下将采集到的远端信号进行消除,只发送近端语音信号给远端。传统的基于传统信号处理的回声消除方法在实际应用中面临非线性回声消除效果不好以及双讲情况下近端语音损伤的问题;近来,基于深度神经网络的回声消除算法虽然取得了较好处理效果,但是由于模型较为复杂、模型规模较大且未考虑频点间相关性,应用于实际的远程音视频会议系统中仍有诸多性能待提升。因此,如何在深度神经网络方法基础上提出具有性能消耗低、模型规模小的回声消除技术,是亟待解决的技术问题。

技术实现思路

[0003]本说明书实施例的目的是针对上述问题,提供一种单通道语音回声消除方法、装置、电子设备和存储介质。
[0004]为解决上述技术问题,本说明书实施例是这样实现的:第一方面,提出一种单通道语音回声消除方法,包括:对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号,以及分别对所述近端频域信号和所述远端频域信号提取信号特征,得到近端频域信号特征和远端频域信号特征;对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至全频带模型,所述全频带模型至少包括2个GRU层、1个全连接层和1个ReLU层;对所述近端频域信号特征进行子频带划分,并将所述近端频域信号特征子频带划分结果与所述全频带模型的输出信号特征进行拼接后输入至子频带模型,所述子频带模型至少包括2个GRU层和1个全连接层;对所述子频带模型输出结果进行优化计算后输出语音时域信号。
[0005]进一步地,对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号,以及分别对所述近端频域信号和所述远端频域信号提取信号特征的过程,包括:
分别对所述近端时域信号和所述远端时域信号进行傅里叶变换:,;其中,所述傅里叶变换点数为512;获取所述近端频域信号的幅度和所述远端频域信号幅度;计算输出所述近端频域信号特征和所述远端频域信号特征,所述近端频域信号特征和所述远端频域信号特征分别包括257个频点。
[0006]进一步地,对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至全频带模型的工作过程,包括:拼接所述近端频域信号特征和所述远端频域信号特征形成第一拼接频域信号特征,所述第一拼接频域信号特征包括514个频点;将所述第一拼接频域信号特征输入所述全频带模型并依次通过所述GRU层、所述全连接层和所述ReLU层计算获得第一频域信号特征;其中,所述GRU层节点数为32,所述全连接层节点数为257,所述第一频域信号特征包括257个频点;输出所述第一频域信号特征。
[0007]进一步地,对所述近端频域信号特征进行子频带划分的过程,包括:在当前频点前后分别选取连续个频点,构成长度为的子频带;若当前频点前后频点数不足个时,采用环形循环方式选取频点构成子频带;将全部频点对应的所述子频带构成近端频域子频带频点信息矩阵。
[0008]进一步地,将所述近端频域信号特征子频带划分结果与所述全频带模型的输出信号特征进行拼接后输入至子频带模型的过程,包括:将所述第一频点特征信息矩阵与所述第一频域信号特征进行拼接获得第二频点特征信息矩阵;将所述第二频点特征信息矩阵输入所述子频带模型并依次通过所述子频带模型的所述GRU层和所述全连接层计算获得第二频域信号特征;其中,所述GRU层节点数为16,所述全连接层节点数为514。
[0009]进一步地,对所述子频带模型输出结果进行优化计算后输出近端时域信号的过程,包括:根据所述第二频域信号特征获得对应复数理想比率掩膜;将所述复数理想比率掩膜的实部和虚部分别作用于所述近端频域信号的实部和虚部,计算得到优化后的所述近端频域信号的实部=和虚部=;对优化后的所述近端频域信号进行傅里叶逆变换输出近端时域信号。
[0010]进一步地,语音回声消除过程中神经网络训练所使用的损失函数为,其中,,,,其中,V为纯净近端语音信号经傅里叶变换之后的频域表示,V
r
为V的实部,V
i
为V的虚部;和/或,使用的优化器为学习率为0.001的Adam优化器,所述学习率依据优化预设轮次和/或优化验证结果进行调整。
[0011]第二方面,提出一种单通道语音回声消除装置,包括:第一模块,用于对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号,以及分别对所述近端频域信号和所述远端频域信号提取信号特征,得到近端频域信号特征和远端频域信号特征;第二模块,用于对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至全频带模型,所述全频带模型至少包括2个GRU层、1个全连接层和1个ReLU层;第三模块,用于对所述近端频域信号特征进行子频带划分,并将所述近端频域信号特征子频带划分结果与所述全频带模型的输出信号特征进行拼接后输入至子频带模型,所述子频带模型至少包括2个GRU层和1个全连接层;第四模块,用于对所述子频带模型输出结果进行优化计算后输出语音时域信号。
[0012]第三方面,提出一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面所述的方法。
[0013]第四方面,提出一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面所述的方法本说明书至少可以达到以下技术效果:本专利技术方案基于门控循环单元GRU构建全频带模型及子频带模型,利用了GRU的时序记忆性以及频点间的相关性,使得回声消除方法具有较好的回声抑制效果,且具有参数量小和性能消耗低的优点,可以实时运行于本地设备。
附图说明
[0014]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0015]图1为本说明书实施例提供的一种单通道语音回声消除方法示意图之一。
[0016]图2为本说明书实施例提供的一种单通道语音回声消除方法示意图之二。
[0017]图3为本说明书实施例提供的一种单通道语音回声消除方法示意图之三。
[0018]图4为本说明书实施例提供的一种单通道语音回声消除方法示意图之四。
[0019]图5本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单通道语音回声消除方法,其特征在于,包括:对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号,以及分别对所述近端频域信号和所述远端频域信号提取信号特征,得到近端频域信号特征和远端频域信号特征;对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至全频带模型,所述全频带模型至少包括2个GRU层、1个全连接层和1个ReLU层;对所述近端频域信号特征进行子频带划分,并将所述近端频域信号特征子频带划分结果与所述全频带模型的输出信号特征进行拼接后输入至子频带模型,所述子频带模型至少包括2个GRU层和1个全连接层;对所述子频带模型输出结果进行优化计算后输出语音时域信号。2.根据权利要求1所述的单通道语音回声消除方法,其特征在于,对近端麦克采集的近端时域信号和远端时域信号分别进行傅里叶变换获得近端频域信号和远端频域信号,以及分别对所述近端频域信号和所述远端频域信号提取信号特征的过程,包括:分别对所述近端时域信号和所述远端时域信号进行傅里叶变换:,;其中,所述傅里叶变换点数为512;获取所述近端频域信号的幅度和所述远端频域信号幅度;计算输出所述近端频域信号特征和所述远端频域信号特征,所述近端频域信号特征和所述远端频域信号特征分别包括257个频点。3.根据权利要求2所述的单通道语音回声消除方法,其特征在于,对所述近端频域信号特征和所述远端频域信号特征进行拼接后输入至全频带模型的工作过程,包括:拼接所述近端频域信号特征和所述远端频域信号特征形成第一拼接频域信号特征,所述第一拼接频域信号特征包括514个频点;将所述第一拼接频域信号特征输入所述全频带模型并依次通过所述GRU层、所述全连接层和所述ReLU层计算获得第一频域信号特征;其中,所述GRU层节点数为32,所述全连接层节点数为257,所述第一频域信号特征包括257个频点;输出所述第一频域信号特征。4.根据权利要求1所述的单通道语音回声消除方法,其特征在于,对所述近端频域信号特征进行子频带划分的过程,包括:在当前频点前后分别选取连续个频点,构成长度为的子频带;若当前频点前后频点数不足个时,采用环形循环方式选取频点构成子频带;将全部频点对应的所述子频带构成近端频域子频带频点信息矩阵。
5.根据权利要求3或4所述的单通道语音回声消除方法,其特征在于,将所述近端频域信号特征子频带划分结果与所述全频带模型的输出信号特征进行拼接后输入至子频带模...

【专利技术属性】
技术研发人员:杨亮
申请(专利权)人:全时云商务服务股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1