【技术实现步骤摘要】
音频信号的对齐方法及装置、计算机存储介质及终端
[0001]本申请涉及音频处理
,尤其涉及一种音频信号的对齐方法及装置
、
计算机可读存储介质及终端
。
技术介绍
[0002]在多人会议场景中,通过会议终端一体机
(
一般安装在靠墙的位置
)
上的阵列麦克风进行远距离拾音所得到的拾音信号的质量通常不佳
。
为了提高麦克风拾音效果,一种可行的方案是在更靠近说话人的位置布置一个或多个无线麦克风,并将无线麦克风的拾音信号和会议终端一体机的拾音信号进行联合处理
。
多路音频信号之间的相对延时不可忽略,并且处于动态变化的状态,这会给后续的音频处理过程带来极大的困难
。
因此在进行多设备联合处理时,首先需要估计多路音频信号的相对时延,并根据估计结果将其对齐,然后再进行后续处理
。
[0003]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息
。
技术实现思路
[0004]本申请的目的在于提供一种音频信号的对齐方法及装置
、
计算机可读存储介质及设备,至少能够在一定程度上提高时延估计的准确性
。
[0005]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得
。
[0006]根据本申请的第一个方面,提供一种音频信号的对齐方 ...
【技术保护点】
【技术特征摘要】
1.
一种音频信号的对齐方法,其特征在于,包括:通过短时傅里叶变换确定音频信号的短时频域表示,其中,所述音频信号包括第一设备所采集的第一路音频信号和第二设备所采集的第二路音频信号;根据所述音频信号的短时频域表示确定所述音频信号的时变线性预测误差滤波器的频率响应,并根据所述音频信号的短时频域表示和所述时变线性预测误差滤波器的频率响应确定所述音频信号对应的线性预测误差的短时频谱;从所述线性预测误差的短时频谱中抽取低频系数并重新组合,以确定所述音频信号对应的线性预测误差包络的短时频谱;根据所述线性预测误差包络的短时频谱,确定所述音频信号对应的线性预测误差包络的短时互功率谱;根据所述线性预测误差包络的短时互功率谱确定所述第一路音频信号和所述第二路音频信号之间的分帧时延估计结果;根据所述分帧时延估计结果,对所述第一路音频信号或所述第二路音频信号进行变速不变调处理,得到对齐后的音频信号
。2.
根据权利要求1所述的音频信号的对齐方法,其特征在于,所述通过短时傅里叶变换确定音频信号的短时频域表示,包括:对所述音频信号进行分帧,得到所述音频信号对应的时域分帧信号;对所述时域分帧信号进行加窗和快速傅里叶变换,得到所述音频信号的短时频域表示
。3.
根据权利要求1所述的音频信号的对齐方法,其特征在于,所述根据所述音频信号的短时频域表示确定所述音频信号的时变线性预测误差滤波器的频率响应,包括:在所述音频信号的短时频域表示的目标帧中确定各频点的实部和虚部的平方和,得到所述音频信号在所述目标帧的功率谱;对所述音频信号在所述目标帧的功率谱进行逆向快速傅里叶变换,得到所述音频信号在所述目标帧的自相关函数;根据所述音频信号在所述目标帧的自相关函数确定所述音频信号的时变线性预测误差滤波器系数;对所述音频信号的时变线性预测误差滤波器系数进行快速傅里叶变换,得到所述音频信号的时变线性预测误差滤波器的频率响应
。4.
根据权利要求3所述的音频信号的对齐方法,其特征在于,所述根据所述音频信号在所述目标帧的自相关函数确定所述音频信号的时变线性预测误差滤波器系数,包括:选取所述音频信号在所述目标帧的自相关函数的前
p+1
个值,并根据所述自相关函数的前
p+1
个值确定所述音频信号的
p
阶线性预测系数,其中,
p
为正整数;取所述
p
阶线性预测系数的相反数并增加首项1,得到所述音频信号的长度为
p+1
的时变线性预测误差滤波器系数
。5.
根据权利要求1至4中任意一项所述的音频信号的对齐方法,其特征在于,所述根据所述音频信号的短时频域表示和所述时变线性预测误差滤波器的频率响应确定所述音频信号对应的线性预测误差的短时频谱,包括:将所述音频信号的短时频域表示中目标频点的复数系数与所述时变线性预测误差滤
波器的频率响应中所述目标频点的复数系数相乘,得到所述音频信号的线性预测误差的短时频谱
。6.
根据权利要求1所述的音频信号的对齐方法,其特征在于,所述从所述线性预测误差的短时频谱中抽取低频系数并重新组合,以确定所述音频信号对应的线性预测误差包络的短时频谱,包括:...
【专利技术属性】
技术研发人员:李天宇,刘荣,
申请(专利权)人:广州视源人工智能创新研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。