当前位置: 首页 > 专利查询>清华大学专利>正文

一种面向音频事件检测的双层基音特征提取方法技术

技术编号:14113471 阅读:168 留言:0更新日期:2016-12-07 10:33
本发明专利技术公开了属于音频事件检测技术领域的一种面向音频事件检测的双层基音特征提取方法。包括采集音频信号,将音频信号格式标准化:声音信号预处理和PITCH特征后处理,对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前面数个有效频域值;目前,通过对该双层基音特征的处理,可以有效提升对长时域周期性音频事件的检测。

【技术实现步骤摘要】

本专利技术属于音频事件检测
,特别涉及一种面向音频事件检测的双层基音特征提取方法
技术介绍
当前对于长时域特征的音频事件,运用在网络危险音视频检测,公共区域事故检测、医疗器械心率检测等技术的研究工作开始兴起。长时域特征是相对于短时域特征提出的,短时域特征主要针对在短时变化较大的音频事件,长时域特征则忽略短时内次要的特征,重点关注长时间主要特征的变化规律。对于可以进行长时域特征提取的音频事件往往在短时和长时都具有明显的连贯性。为处理在短时域和长时域都体现出较为明显的周期性的音频信号检测问题,提出了一种新型特征的提取方法。这种新型特征可以运用在尖叫声、警笛声、心跳声等长时域周期特征的音频事件检测。该技术可以运用到网络危险音视频检测,公共区域事故检测、医疗器械心率检测等技术中。
技术实现思路
本专利技术的目的是提供一种面向音频事件检测的双层基音特征提取方法,其特征在于,包括如下步骤:步骤A1,通过网络搜集音视频文件、麦克风收集公共场所声音信息等途径获得音频信号,将音频信号格式标准化:将音频信号调整为采样率8kHz、通道为单声道、分辨率采用16位;步骤A2,声音信号预处理;步骤A3,双层基音(double-deck-pitch,DDP)特征提取;包括A31零均值化,对每帧信号减去均值;A32对每帧信号进行离散傅里叶变换(DFT),转化为频域信号, X ( ω k ) = Σ n = 0 N d - 1 x ( n ) e - j 2 π N d n k ]]>其中,ωk代表频率,k代表频率标号,Nd是DFT变换点数,这里Nd=4000,每点的分辨率为2Hz;A33对每帧音频提取候选基频,计算候选基频出现概率;A34计算帧间候选基频转移概率;A35利用Viterbi算法计算出最优路径,其中每一条路径的损失函数记为 P a t h C o s t = Σ cos t ( C i n , C j n + 1 ) , ]]>其中,ε为调节因子,权衡帧内候选基频的度量与帧间距离之间的权重;A36进行平滑滤波处理得到该信号的PITCH(基音)特征;步骤A4,PITCH特征后处理:A41对PITCH特征进行周期延拓;A42计算PITCH的自相关函数其中Np为PITCH特征的长度标号;P(n)表示第n个PITCH特征点的频率;t表示平移距离;A43根据自相关函数得到单周期特征,包括是否具有周期性、PITCH周期长度、PITCH中心频率、PITCH频带宽度和PITCH标准化离散傅里叶变换系数;A44对以上特征进行整合得到完整的DDP特征。所述步骤A2,声音信号预处理,包括步骤:A21,静音处理:A211计算信号的能量E,以及能量的均值M和方差V;A212对能量E进行标准化,A213保留能量大于静音阈值0.1的信号;A22零均值化和方差归一化,零均值化即对整段音频减去其均值,方差归一化即对整段音频除以标准差;A23进行分帧加窗处理,每段帧长根据音频基频先验知识决定,其中采用10-25ms,即80-200点,帧移系数采用0.3,即24-60点,窗型采用汉明窗, W ( n ) = 0.54 + 0.46 * c o s ( 2 π n N h - 1 ) , 0 ≤ n ≤ N h - 1 ]]>;其中Nh为汉明窗总点数,n为样点序号。所述A33对每帧音频提取候选基频,计算候选基频出现概率,包括:A331对每帧频域信号提取所有峰值频率;A332滤除峰值频率中较低频率;A333对峰值频率按照能量从大到小排序,得到每帧中能量最大的20个点作为候选基频;A334对候选基频序列进行方差归一化;A335并根据候选基频谱能量计算其所占概率: Pa j n = E j n Σ j E j n ]]>其中,为第n帧的第j个候选基频概率,为第n帧的第j个候选基频能量。所述A34计算帧间候选基频转移概率的步骤:,A341计算帧间候选基频的距离,进行方差归一化; D i j n = Δ ( 1 | C j n + 1 - C i n | + K ) ]]>其中,表示第n层的第i个候选基频的频率,表示第n层的第i个频点和第n+1层第j个频点之间的距离;Δ表示归一化,常数K设置为0.01;A342并根本文档来自技高网...
一种面向音频事件检测的双层基音特征提取方法

【技术保护点】
一种面向音频事件检测的双层基音特征提取方法,其特征在于,包括如下步骤:步骤A1,通过网络下载或麦克风设备采集获得音频信号,将音频信号格式标准化:将音频信号调整为采样率8kHz、通道为单声道、分辨率采用16位;步骤A2,声音信号预处理;步骤A3,双层基音DDP特征提取;包括A31零均值化,对每帧信号减去均值;A32对每帧信号进行离散傅里叶变换DFT,转化为频域信号,X(ωk)=Σn=0Nd-1x(n)e-j2πNdnk]]>其中,ωk代表频率,k代表频率标号,Nd是DFT变换点数,这里Nd=4000,每点的分辨率为2Hz;A33对每帧音频提取候选基频,计算候选基频出现概率;A34计算帧间候选基频转移概率;A35利用Viterbi算法计算出最优路径,其中每一条路径的损失函数记为PathCost=Σcost(Cin,Cin+1),]]>其中,ε为调节因子,权衡帧内候选基频的度量与帧间距离之间的权重;A36进行平滑滤波处理得到该信号的基音PITCH特征;步骤A4,PITCH特征后处理:A41对PITCH特征进行周期延拓;A42计算PITCH的自相关函数其中Np为PITCH特征的长度标号;P(n)表示第n个PITCH特征点的频率;t表示平移距离;A43根据自相关函数得到单周期特征,包括是否具有周期性、PITCH周期长度、PITCH中心频率、PITCH频带宽度和PITCH标准化离散傅里叶变换系数;A44对以上特征进行整合得到完整的DDP特征。...

【技术特征摘要】
1.一种面向音频事件检测的双层基音特征提取方法,其特征在于,包括如下步骤:步骤A1,通过网络下载或麦克风设备采集获得音频信号,将音频信号格式标准化:将音频信号调整为采样率8kHz、通道为单声道、分辨率采用16位;步骤A2,声音信号预处理;步骤A3,双层基音DDP特征提取;包括A31零均值化,对每帧信号减去均值;A32对每帧信号进行离散傅里叶变换DFT,转化为频域信号, X ( ω k ) = Σ n = 0 N d - 1 x ( n ) e - j 2 π N d n k ]]>其中,ωk代表频率,k代表频率标号,Nd是DFT变换点数,这里Nd=4000,每点的分辨率为2Hz;A33对每帧音频提取候选基频,计算候选基频出现概率;A34计算帧间候选基频转移概率;A35利用Viterbi算法计算出最优路径,其中每一条路径的损失函数记为 P a t h C o s t = Σ cos t ( C i n , C i n + 1 ) , ]]>其中,ε为调节因子,权衡帧内候选基频的度量与帧间距离之间的权重;A36进行平滑滤波处理得到该信号的基音PITCH特征;步骤A4,PITCH特征后处理:A41对PITCH特征进行周期延拓;A42计算PITCH的自相关函数其中Np为PITCH特征的长度标号;P(n)表示第n个PITCH特征点的频率;t表示平移距离;A43根据自相关函数得到单周期特征,包括是否具有周期性、PITCH周期长度、PITCH中心频率、PITCH频带宽度和PITCH标准化离散傅里叶变换系数;A44对以上特征进行整合得到完整的DDP特征。2.根据权利要求1所述面向音频事件检测的双层基音特征提取方法,其特征在于,所述步骤A2,声音信号预处理,包括步骤:A21静音处理:A211计算信号的能量E,以及能量的均值M和方差V;A212对能量E进行标准化,A213保留能量大于静音阈值(0.1)的信号;A22零均值化和方差归一化,零均值化即对整段音频减去其均值,方差归一化即对整段音频除以标准差;A23进行分帧加窗处理,每段帧长根据音频基频先验知识决定,其中采用10-25ms,即80-200点,帧移系数采用0.3,即24-60点,窗型采用汉明窗, W ( n ) = 0.54 + 0.46 * c o s ( 2 π n N h - ...

【专利技术属性】
技术研发人员:王健飞张卫强
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1