音频分类方法和系统技术方案

技术编号:8453743 阅读:271 留言:0更新日期:2013-03-21 20:31
描述了用于音频分类的实施例。音频分类系统包含对音频信号执行音频分类的过程的至少一个装置。该至少一个装置能够在需要不同资源的至少两个模式下工作。音频分类系统也包含复杂度控制器,其确定组合并且指示该至少一个装置根据该组合来工作。对于该至少一个装置中的每个,该组合指定该装置的模式之一,而该组合的资源要求不超过最大可用资源。通过控制模式,音频分类系统改善了针对运行环境的可伸缩性。

【技术实现步骤摘要】
音频分类方法和系统
本专利技术涉及音频信号处理。更具体地,本专利技术的实施例涉及音频分类方法和系统。
技术介绍
在许多应用中,需要对音频信号进行识别和分类。一种这样的分类是把音频信号自动分类为话音、音乐或静音。通常,音频分类涉及从音频信号中提取音频特征以及用所训练的分类器根据音频特征进行分类。已经提出音频分类的方法来自动估计输入音频信号的类型,使得能够避免对音频信号进行人工标记。这能够被用于大量多媒体数据的高效分类和浏览。音频分类也被广泛地用于支持其它音频信号处理部件。例如,话音-噪声音频分类器对于语音通信系统中使用的噪声抑制系统有大的益处。作为另一个例子,在无线通信系统设备中,通过音频分类,音频信号处理能够根据信号是话音、音乐还是静音来对信号实现不同的编码和解码算法。本章节中描述的方案是能够采取的方案,但不一定是先前已经构思或采取的方案。因此,除非另外指出,不应仅因为被包含在本章节中就假定本章节描述的任何方案适合作为现有技术。类似地,根据本章节而关于一个或更多个方案发现的问题不应被假定为任何现有技术中已经认识到的问题,除非另外指出。
技术实现思路
根据本专利技术一个实施例,提供一种音频分类系统。该系统包含能够在需要不同资源的至少两个模式下工作的至少一个装置。该系统也包含复杂度控制器,其确定组合并且指示该至少一个装置根据该组合来工作。对于该至少一个装置中的每个,该组合指定该装置的模式之一,而该组合的资源要求不超过最大可用资源。该至少一个装置可以包括预处理器、特征提取器、分类装置和后处理器的至少之一,预处理器使音频信号适配于音频分类系统,特征提取器从音频信号的分段中提取音频特征,分类装置根据提取的音频特征用训练的模型对分段进行分类,后处理器对分段的音频类型进行平滑。根据本专利技术一个实施例,提供一种音频分类方法。该方法包含能够在需要不同资源的至少两个模式下执行的至少一个步骤。确定一个组合。该至少一个步骤被指示根据该组合来运行。对于该至少一个步骤中的每个,该组合指定该步骤的模式之一,而该组合的资源要求不超过最大可用资源。该至少一个步骤包括预处理步骤、特征提取步骤、分类步骤和后处理步骤的至少之一,预处理步骤使音频信号适配于音频分类,特征提取步骤从音频信号的分段中提取音频特征,分类步骤根据提取的音频特征用训练的模型对分段进行分类,后处理步骤对分段的音频类型进行平滑。根据本专利技术一个实施例,提供一种音频分类系统。系统包含用于从音频信号的分段中提取音频特征的特征提取器。特征提取器包含系数计算器和统计数据计算器。系数计算器根据维纳-辛钦定理计算音频信号中长于一个阈值的分段的长期自相关系数,以作为音频特征。统计数据计算器计算有关长期自相关系数的、用于音频分类的至少一项统计数据,以作为音频特征。系统也包含分类装置,用于通过训练的模型,基于所提取的音频特征来对分段进行分类。根据本专利技术一个实施例,提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征,用训练的模型对分段进行分类。为提取音频特征,根据维纳-辛钦定理计算音频信号中长于一个阈值的分段的长期自相关系数,以作为音频特征。计算有关长期自相关系数的、用于音频分类的至少一项统计数据,以作为音频特征。根据本专利技术一个实施例,提供一种音频分类系统。系统包含特征提取器和分类装置,特征提取器用于从音频信号的分段中提取音频特征,分类装置用于通过训练的模型,基于所提取的音频特征来对分段进行分类。特征提取器包含用于对分段进行滤波的低通滤波器,在该低通滤波器中允许低频敲击分量通过。特征提取器也包含计算器,其用于通过对每个分段应用过零率(ZCR,zerocrossingrate)来提取低音指示特征,以作为音频特征。根据本专利技术一个实施例,提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征,用训练的模型对分段进行分类。为提取音频特征,通过低通滤波器对分段进行滤波,在该低通滤波器中允许低频敲击分量通过。通过对每个分段应用过零率(ZCR)来提取低音指示特征,以作为音频特征。根据本专利技术一个实施例,提供一种音频分类系统。系统包含特征提取器和分类装置,特征提取器用于从音频信号的分段中提取音频特征,分类装置用于通过训练的模型,基于所提取的音频特征来对分段进行分类。特征提取器包含残余计算器和统计数据计算器。对于每个分段,残余计算器通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。对于每个分段,统计数据计算器关于该分段的帧的相同级别的残余计算至少一项统计数据。所计算的残余和统计数据被包含在音频特征中。根据本专利技术一个实施例,提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征,用训练的模型对分段进行分类。为提取音频特征,对于每个分段,通过从该分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余。对于每个分段,关于该分段的帧的相同级别的残余计算至少一项统计数据。所计算的残余和统计数据被包含在音频特征中。根据本专利技术一个实施例,提供一种音频分类系统。系统包含特征提取器和分类装置,特征提取器用于从音频信号的分段中提取音频特征,分类装置用于通过训练的模型,基于所提取的音频特征来对分段进行分类。特征提取器包含比值计算器,其计算每个分段的谱区间高能量比以作为音频特征。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。根据本专利技术一个实施例,提供一种音频分类方法。从音频信号的分段中提取音频特征。基于所提取的音频特征,用训练的模型对分段进行分类。为提取音频特征,针对每个分段计算谱区间高能量比,以作为音频特征。谱区间高能量比是分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值。根据本专利技术一个实施例,提供一种音频分类系统。系统包含特征提取器和分类装置,特征提取器用于从音频信号的分段中提取音频特征,分类装置用于通过训练的模型,基于所提取的音频特征来对分段进行分类。分类装置包含具有不同优先级的至少两个分类器级段的链,这些分类器级段按照优先级的降序排列。每个分类器级段包含分类器,分类器根据提取自每个分段的相应音频特征生成当前类别估计。当前类别估计包含估计的音频类型和相应置信度。每个分类器级段也包含决策单元。如果分类器级段位于链的开始处,则决策单元确定当前置信度是否高于与该分类器级段关联的置信度阈值。如果确定当前置信度高于置信度阈值,则决策单元通过输出当前类别估计来终止音频分类。否则,决策单元把当前类别估计提供给链中的所有后面的分类器级段。如果分类器级段位于链的中间,则决策单元确定当前置信度是否高于置信度阈值,或确定当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型。如果确定当前置信度高于置信度阈值,或类别估计能够决定音频类型,则决策单元通过输出当前类别估计,或输出所决定的音频类型和相应置信度来终止音频分类。否则,决策单元把当前类别估计提供给链中的所有后面的分类器级段。如果分类器级段位于链的结束处,则决策单元通过输出当前类别估计来终止音频分类。或者,决策单元确定当前类别估计和所有先前的类别估计是本文档来自技高网...
音频分类方法和系统

【技术保护点】
一种音频分类系统,包括:能够在需要不同资源的至少两个模式下工作的至少一个装置;以及复杂度控制器,其确定组合并且指示所述至少一个装置根据所述组合来工作,其中对于所述至少一个装置中的每个,所述组合指定所述装置的模式之一,所述组合的资源要求不超过最大可用资源,其中所述至少一个装置包括下列至少之一:预处理器,用于使音频信号适配于所述音频分类系统;特征提取器,用于从所述音频信号的分段中提取音频特征;分类装置,用于通过训练的模型,基于所提取的音频特征来对所述分段进行分类;以及后处理器,用于平滑所述分段的音频类型。

【技术特征摘要】
1.一种音频分类系统,包括:能够在需要不同资源的至少两个模式下工作的至少一个装置;以及复杂度控制器,其确定组合并且指示所述至少一个装置根据所述组合来工作,其中对于所述至少一个装置中的每个,所述组合指定所述装置的模式之一,所述组合的资源要求不超过最大可用资源,其中所述至少一个装置包括下列至少之一:预处理器,用于使音频信号适配于所述音频分类系统;特征提取器,用于从所述音频信号的分段中提取音频特征;分类装置,用于通过训练的模型,基于所提取的音频特征来对所述分段进行分类;以及后处理器,用于平滑所述分段的音频类型。2.如权利要求1所述的音频分类系统,其中所述预处理器的所述至少两个模式包含在进行滤波的情况下转换所述音频信号的采样速率的模式,和在不进行滤波的情况下转换所述音频信号的采样速率的另一个模式。3.如权利要求1或2所述的音频分类系统,其中用于音频分类的音频特征能够被分成不适合于预加重的第一类型和适合于预加重的第二类型,并且其中所述预处理器的至少两个模式包含所述音频信号直接被预加重并且把所述音频信号和所述预加重的音频信号转换到频域的模式,和把所述音频信号转换到频域并且对所述转换的音频信号进行预加重的另一个模式,并且其中所述第一类型的音频特征提取自未经过预加重的所述转换音频信号,第二类型的音频特征提取自经预加重的所述转换音频信号。4.如权利要求3所述的音频分类系统,其中所述第一类型包含子带能量分布、频率分解残余、过零率、谱区间高能量比、低音指示和长期自相关特征中的至少之一,其中所述谱区间高能量比是每个所述分段的谱中能量高于阈值的频率区间的数目与频率区间的总数的比值,并且所述第二类型包含谱波动和梅尔频率倒谱系数中的至少之一。5.如权利要求1所述的音频分类系统,其中所述特征提取器被配置成:根据维纳-辛钦定理计算音频信号中长于第一阈值的分段的长期自相关系数,和计算有关所述长期自相关系数的、用于所述音频分类的至少一项统计数据,其中所述特征提取器的所述至少两个模式包含根据所述分段直接计算长期自相关系数的模式,和对所述分段进行抽减并且根据所述经过抽减的分段计算所述长期自相关系数的另一个模式。6.如权利要求5所述的音频分类系统,其中所述统计数据包含以下各项中至少之一:1)均值:所有长期自相关系数的平均值;2)方差:所有长期自相关系数的标准差;3)High_Average:满足以下条件至少之一的长期自相关系数的平均值:a)大于第二阈值;以及b)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不低于所有其它长期自相关系数;4)High_Value_Percentage:High_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;5)Low_Average:满足以下条件至少之一的长期自相关系数的平均值:c)小于第三阈值;以及d)在预定比例的长期自相关系数内,所述预定比例的长期自相关系数不高于所有其它长期自相关系数;6)Low_Value_Percentage:Low_Average所涉及的长期自相关系数的数目与长期自相关系数的总数的比值;以及7)对比度:High_Average和Low_Average之间的比值。7.如权利要求1或2所述的音频分类系统,其中用于音频分类的音频特征包含通过对经过低通滤波器滤波的每个分段应用过零率而获得的低音指示特征,在所述低通滤波器中允许低频敲击分量通过。8.如权利要求1所述的音频分类系统,其中所述特征提取器被配置成:对于每个所述分段,通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余;以及对于每个所述分段,关于所述分段的帧的相同级别的残余计算至少一项统计数据,其中所计算的残余和统计数据被包含在所述音频特征中,并且其中所述特征提取器的所述至少两个模式包含所述第一能量是所述谱的H1个最高频率区间的总能量,所述第二能量是所述谱的H2个最高频率区间的总能量,而所述第三能量是所述谱的H3个最高频率区间的总能量的模式,其中H1<H2<H3,以及所述第一能量是所述谱的一个或更多个峰区域的总能量,所述第二能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第一能量所涉及的峰区域,而所述第三能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式。9.如权利要求8所述的音频分类系统,其中所述统计数据包含以下各项中至少之一:1)相同分段的帧的相同级别的残余的均值;2)方差:相同分段的帧的相同级别的残余的标准差;3)Residual_High_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:a)大于第四阈值;以及b)在预定比例的残余内,所述预定比例的残余不低于所有其它残余;4)Residual_Low_Average:相同分段的帧的相同级别的、满足下列条件中至少之一的残余的平均值:c)小于第五阈值;以及d)在预定比例的残余内,所述预定比例的残余不高于所有其它残余;以及5)Residual_Contrast:Residual_High_Average和Residual_Low_Average之间的比值。10.如权利要求1或2所述的音频分类系统,其中用于音频分类的音频特征包含谱区间高能量比,所述谱区间高能量比是每个所述分段的谱中能量高于第六阈值的频率区间的数目与频率区间的总数的比值。11.如权利要求10所述的音频分类系统,其中所述第六阈值被计算为下列之一:1)所述分段的谱的平均能量,或所述分段周围的分段范围的谱的平均能量;2)所述分段的谱的加权平均能量,或所述分段周围的分段范围的谱的加权平均能量,其中所述分段具有相对较高的权重,所述范围中的每个其它分段具有相对较低的权重,或者其中相对较高能量的每个频率区间具有相对较高的权重,相对较低能量的每个频率区间具有相对较低的权重;3)所述平均能量或加权平均能量的换算值;以及4)所述平均能量或加权平均能量加上或减去标准差。12.如权利要求1所述的音频分类系统,其中所述分类装置包括:具有不同优先级的至少两个分类器级段的链,这些分类器级段按照优先级的降序排列;以及级段控制器,其确定从具有最高优先级的分类器级段开始的子链,其中所述子链的长度取决于所述组合中针对所述分类装置的模式,其中每个所述分类器级段包括:分类器,其根据提取自每个所述分段的相应音频特征生成当前类别估计,其中所述当前类别估计包含所估计的音频类型和相应置信度;以及决策单元,其1)在所述分类器级段位于所述子链的开始处的情况下,确定所述当前置信度是否高于与所述分类器级段相关联的置信度阈值;以及如果确定所述当前置信度高于所述置信度阈值,则通过输出所述当前类别估计来终止音频分类,否则将所述当前类别估计提供给所述子链中的所有后面的分类器级段,2)在所述分类器级段位于所述子链的中间的情况下,确定所述当前置信度是否高于所述置信度阈值,或确定所述当前类别估计和所有先前的类别估计是否能够根据第一判决准则决定一个音频类型;以及如果确定所述当前置信度高于所述置信度阈值,或所述类别估计能够决定音频类型,则通过输出所述当前类别估计,或输出所决定的音频类型和相应置信度来终止音频分类,否则将所述当前类别估计提供给所述子链中的所有后面的分类器级段,以及3)在所述分类器级段位于所述子链的结束处的情况下,通过输出所述当前类别估计来终止音频分类,或者确定所述当前类别估计和所有先前的类别估计是否能够根据第二判决准则决定一个音频类型;以及如果确定所述类别估计能够决定音频类型,则通过输出所决定的音频类型和相应置信度来终止音频分类,否则通过输出所述当前类别估计来终止音频分类。13.如权利要求12所述的音频分类系统,其中所述第一判决准则包括下列准则之一:1)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的平均置信度高于第七阈值,则能够决定所述当前音频类型;2)如果所述当前置信度和对应于与所述当前音频类型相同的音频类型的先前置信度的加权平均置信度高于第八阈值,则能够决定所述当前音频类型;以及3)如果决定与所述当前音频类型相同的音频类型的先前分类器级段的数目高于第九阈值,则能够决定所述当前音频类型,并且其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。14.如权利要求12所述的音频分类系统,其中所述第二判决准则包括下列准则之一:1)在所有类别估计中,如果包含相同音频类型的类别估计的数目最高,则所述相同音频类型能够被这些相应类别估计决定;2)在所有类别估计中,如果包含相同音频类型的类别估计的加权数目最高,则所述相同音频类型能够被这些相应类别估计决定;以及3)在所有类别估计中,如果对应于相同音频类型的置信度的平均置信度最高,则所述相同音频类型能够被相应类别估计决定,并且其中所输出的置信度是所述当前置信度,或能够决定所输出的音频类型的类别估计的置信度的加权或非加权平均,其中所述先前的置信度的权重高于后面的置信度的权重。15.如权利要求12所述的音频分类系统,其中如果所述分类器级段之一所采用的分类算法在分类出所述音频类型的至少之一方面具有较高的准确性,那么所述分类器级段被指定较高优先级。16.如权利要求12或15所述的音频分类系统,其中用于每个在后分类器级段中的分类器的每个训练样本至少包括标记有正确音频类型的音频样本,要由所述分类器识别的音频类型,以及有关对应于每个所述音频类型的置信度的统计数据,这些置信度是由所有先前的分类器级段根据所述音频样本生成的。17.如权利要求12或15所述的音频分类系统,其中用于每个在后分类器级段中的分类器的训练样本至少包括标记有正确音频类型但是被所有先前分类器级段误分类或以低置信度分类的音频样本。18.如权利要求12所述的音频分类系统,其中所述至少一个装置包括所述特征提取器、所述分类装置和所述后处理器,并且其中所述特征提取器被配置成:对于每个所述分段,通过从所述分段的每个帧的谱上的总能量E中分别至少移除第一能量、第二能量和第三能量来分别计算至少一级、二级和三级的频率分解残余;以及对于每个所述分段,关于所述分段的帧的相同级别的残余计算至少一项统计数据,其中所计算的残余和统计数据被包含在所述音频特征中,并且其中所述特征提取器的所述至少两个模式包含所述第一能量是所述谱的H1个最高频率区间的总能量,所述第二能量是所述谱的H2个最高频率区间的总能量,而所述第三能量是所述谱的H3个最高频率区间的总能量的模式,其中H1<H2<H3,以及所述第一能量是所述谱的一个或更多个峰区域的总能量,所述第二能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第一能量所涉及的峰区域,而所述第三能量是所述谱的一个或更多个峰区域的总能量,这些峰区域的一部分包含所述第二能量所涉及的峰区域的另一个模式,并且其中所述后处理器被配置成在所述音频信号中搜索两个重复部分,并且通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果,并且其中所述后处理器的所述至少两个模式包含采用相对长的搜索范围的模式,和采用相对短的搜索范围的另一个模式。19.如权利要求1所述的音频分类系统,其中通过所述音频分类针对所述音频信号中的每个所述分段生成当前类别估计,其中每个所述当前类别估计包含所估计的音频类型和相应置信度,并且其中所述后处理器的所述至少两个模式包含确定窗口中对应于相同音频类型的置信度的最高和数或平均值,并且当前音频类型被所述相同音频类型所代替的模式,以及采用具有相对短的长度的窗口,并且/或者确定所述窗口中对应于相同音频类型的置信度的最高数目,当前音频类型被所述相同音频类型所代替的另一个模式。20.如权利要求1所述的音频分类系统,其中所述后处理器被配置成在所述音频信号中搜索两个重复部分,并且通过把所述两个重复部分之间的分段当作非话音类型来平滑分类结果,并且其中所述后处理器的所述至少两个模式包含采用相对长的搜索范围的模式,...

【专利技术属性】
技术研发人员:程斌芦烈
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1