音频信号的对齐方法及装置制造方法及图纸

技术编号:39842835 阅读:20 留言:0更新日期:2023-12-29 16:33
本申请提供了一种音频信号的对齐方法及装置

【技术实现步骤摘要】
音频信号的对齐方法及装置、计算机存储介质及终端


[0001]本申请涉及音频处理
,尤其涉及一种音频信号的对齐方法及装置

计算机可读存储介质及终端


技术介绍

[0002]在多人会议场景中,通过会议终端一体机
(
一般安装在靠墙的位置
)
上的阵列麦克风进行远距离拾音所得到的拾音信号的质量通常不佳

为了提高麦克风拾音效果,一种可行的方案是在更靠近说话人的位置布置一个或多个无线麦克风,并将无线麦克风的拾音信号和会议终端一体机的拾音信号进行联合处理

多路音频信号之间的相对延时不可忽略,并且处于动态变化的状态,这会给后续的音频处理过程带来极大的困难

因此在进行多设备联合处理时,首先需要估计多路音频信号的相对时延,并根据估计结果将其对齐,然后再进行后续处理

[0003]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息


技术实现思路

[0004]本申请的目的在于提供一种音频信号的对齐方法及装置

计算机可读存储介质及设备,至少能够在一定程度上提高时延估计的准确性

[0005]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得

[0006]根据本申请的第一个方面,提供一种音频信号的对齐方法,该方法包括:通过短时傅里叶变换确定音频信号的短时频域表示,其中,上述音频信号包括第一设备所采集的第一路音频信号和第二设备所采集的第二路音频信号;根据上述音频信号的短时频域表示确定上述音频信号的时变线性预测误差滤波器的频率响应,并根据上述音频信号的短时频域表示和上述时变线性预测误差滤波器的频率响应确定上述音频信号对应的线性预测误差的短时频谱;从上述线性预测误差的短时频谱中抽取低频系数并重新组合,以确定上述音频信号对应的线性预测误差包络的短时频谱;根据上述线性预测误差包络的短时频谱,确定上述音频信号对应的线性预测误差包络的短时互功率谱;根据上述线性预测误差包络的短时互功率谱确定上述第一路音频信号和上述第二路音频信号之间的分帧时延估计结果;根据上述分帧时延估计结果,对上述第一路音频信号或上述第二路音频信号进行变速不变调处理,得到对齐后的音频信号

[0007]在本申请一个实施例中,上述通过短时傅里叶变换确定音频信号的短时频域表示,包括:对上述音频信号进行分帧,得到上述音频信号对应的时域分帧信号;对上述时域分帧信号进行加窗和快速傅里叶变换,得到上述音频信号的短时频域表示

[0008]在本申请一个实施例中,上述根据上述音频信号的短时频域表示确定上述音频信号的时变线性预测误差滤波器的频率响应,包括:在上述音频信号的短时频域表示的目标
帧中确定各频点的实部和虚部的平方和,得到上述音频信号在上述目标帧的功率谱;对上述音频信号在上述目标帧的功率谱进行逆向快速傅里叶变换,得到上述音频信号在上述目标帧的自相关函数;根据上述音频信号在上述目标帧的自相关函数确定上述音频信号的时变线性预测误差滤波器系数;对上述音频信号的时变线性预测误差滤波器系数进行快速傅里叶变换,得到上述音频信号的时变线性预测误差滤波器的频率响应

[0009]在本申请一个实施例中,上述根据上述音频信号在上述目标帧的自相关函数确定上述音频信号的时变线性预测误差滤波器系数,包括:选取上述音频信号在上述目标帧的自相关函数的前
p+1
个值,并根据上述自相关函数的前
p+1
个值确定上述音频信号的
p
阶线性预测系数,其中,
p
为正整数;取上述
p
阶线性预测系数的相反数并增加首项1,得到上述音频信号的长度为
p+1
的时变线性预测误差滤波器系数

[0010]在本申请一个实施例中,上述根据上述音频信号的短时频域表示和上述时变线性预测误差滤波器的频率响应确定上述音频信号对应的线性预测误差的短时频谱,包括:将上述音频信号的短时频域表示中目标频点的复数系数与上述时变线性预测误差滤波器的频率响应中上述目标频点的复数系数相乘,得到上述音频信号的线性预测误差的短时频谱

[0011]在本申请一个实施例中,上述从上述线性预测误差的短时频谱中抽取低频系数并重新组合,以确定上述音频信号对应的线性预测误差包络的短时频谱,包括:确定近似包络所需的下采样率,并根据上述线性预测误差的短时频谱的频点数和上述下采样率,确定上述线性预测误差的短时频谱中待抽取频点的下标;根据上述待抽取频点的下标,从上述线性预测误差的短时频谱中抽取对应频点的系数,并重新组合出上述线性预测误差包络的短时频谱

[0012]在本申请一个实施例中,上述根据上述线性预测误差包络的短时频谱,确定上述音频信号对应的线性预测误差包络的短时互功率谱,包括:对上述第二路音频信号的线性预测误差包络的短时频谱进行共轭变换,得到共轭频谱;将上述共轭频谱与上述第一路音频信号的线性预测误差包络的短时频谱相乘,得到上述线性预测误差包络的短时互功率谱

[0013]在本申请一个实施例中,上述根据上述线性预测误差包络的短时互功率谱确定上述第一路音频信号和上述第二路音频信号之间的分帧时延估计结果,包括:对上述线性预测误差包络的短时互功率谱进行逆向快速傅里叶变换,得到上述音频信号对应的线性预测误差包络的短时互相关函数;搜索上述线性预测误差包络的短时互相关函数的最大值,将上述最大值对应的采样点偏移量作为上述第一路音频信号和上述第二路音频信号之间的分帧时延估计结果

[0014]在本申请一个实施例中,上述根据上述分帧时延估计结果,对上述第一路音频信号或上述第二路音频信号进行变速不变调处理,得到对齐后的音频信号,包括:若上述线性预测误差包络的短时互相关函数的最大值大于预设阈值,则根据上述分帧时延估计结果,对上述第一路音频信号或上述第二路音频信号进行变速不变调处理,得到对齐后的音频信号

[0015]根据本申请的第二个方面,提供一种音频信号的对齐装置,上述装置包括:第一确定模块,用于:通过短时傅里叶变换确定音频信号的短时频域表示,其中,上述音频信号包
括第一设备所采集的第一路音频信号和第二设备所采集的第二路音频信号;第二确定模块,用于:根据上述音频信号的短时频域表示确定上述音频信号的时变线性预测误差滤波器的频率响应,并根据上述音频信号的短时频域表示和上述时变线性预测误差滤波器的频率响应确定上述音频信号对应的线性预测误差的短时频谱;第三确定模块,用于:从上述线性预测误差的短时频谱中抽取低频系数并重新组合,以确定上述音频信号对应的线性预测误差包络的短时频谱;第四确定模块,用于:根据上述线性预测误差包络的短时频谱,确定上述音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种音频信号的对齐方法,其特征在于,包括:通过短时傅里叶变换确定音频信号的短时频域表示,其中,所述音频信号包括第一设备所采集的第一路音频信号和第二设备所采集的第二路音频信号;根据所述音频信号的短时频域表示确定所述音频信号的时变线性预测误差滤波器的频率响应,并根据所述音频信号的短时频域表示和所述时变线性预测误差滤波器的频率响应确定所述音频信号对应的线性预测误差的短时频谱;从所述线性预测误差的短时频谱中抽取低频系数并重新组合,以确定所述音频信号对应的线性预测误差包络的短时频谱;根据所述线性预测误差包络的短时频谱,确定所述音频信号对应的线性预测误差包络的短时互功率谱;根据所述线性预测误差包络的短时互功率谱确定所述第一路音频信号和所述第二路音频信号之间的分帧时延估计结果;根据所述分帧时延估计结果,对所述第一路音频信号或所述第二路音频信号进行变速不变调处理,得到对齐后的音频信号
。2.
根据权利要求1所述的音频信号的对齐方法,其特征在于,所述通过短时傅里叶变换确定音频信号的短时频域表示,包括:对所述音频信号进行分帧,得到所述音频信号对应的时域分帧信号;对所述时域分帧信号进行加窗和快速傅里叶变换,得到所述音频信号的短时频域表示
。3.
根据权利要求1所述的音频信号的对齐方法,其特征在于,所述根据所述音频信号的短时频域表示确定所述音频信号的时变线性预测误差滤波器的频率响应,包括:在所述音频信号的短时频域表示的目标帧中确定各频点的实部和虚部的平方和,得到所述音频信号在所述目标帧的功率谱;对所述音频信号在所述目标帧的功率谱进行逆向快速傅里叶变换,得到所述音频信号在所述目标帧的自相关函数;根据所述音频信号在所述目标帧的自相关函数确定所述音频信号的时变线性预测误差滤波器系数;对所述音频信号的时变线性预测误差滤波器系数进行快速傅里叶变换,得到所述音频信号的时变线性预测误差滤波器的频率响应
。4.
根据权利要求3所述的音频信号的对齐方法,其特征在于,所述根据所述音频信号在所述目标帧的自相关函数确定所述音频信号的时变线性预测误差滤波器系数,包括:选取所述音频信号在所述目标帧的自相关函数的前
p+1
个值,并根据所述自相关函数的前
p+1
个值确定所述音频信号的
p
阶线性预测系数,其中,
p
为正整数;取所述
p
阶线性预测系数的相反数并增加首项1,得到所述音频信号的长度为
p+1
的时变线性预测误差滤波器系数
。5.
根据权利要求1至4中任意一项所述的音频信号的对齐方法,其特征在于,所述根据所述音频信号的短时频域表示和所述时变线性预测误差滤波器的频率响应确定所述音频信号对应的线性预测误差的短时频谱,包括:将所述音频信号的短时频域表示中目标频点的复数系数与所述时变线性预测误差滤
波器的频率响应中所述目标频点的复数系数相乘,得到所述音频信号的线性预测误差的短时频谱
。6.
根据权利要求1所述的音频信号的对齐方法,其特征在于,所述从所述线性预测误差的短时频谱中抽取低频系数并重新组合,以确定所述音频信号对应的线性预测误差包络的短时频谱,包括:...

【专利技术属性】
技术研发人员:李天宇刘荣
申请(专利权)人:广州视源人工智能创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1