提供了一种声音处理装置、声音处理方法和程序。该声音处理装置包括:背景噪声估计单元,被配置成估计输入信号的背景噪声;噪声抑制单元,被配置成基于通过估计背景噪声而获得的结果,来抑制输入信号的背景噪声;特征量计算单元,被配置成基于抑制了背景噪声的输入信号而计算特征量;以及辅音检测单元,被配置成基于特征量从输入信号检测辅音。
【技术实现步骤摘要】
【专利摘要】提供了一种声音处理装置、声音处理方法和程序。该声音处理装置包括:背景噪声估计单元,被配置成估计输入信号的背景噪声;噪声抑制单元,被配置成基于通过估计背景噪声而获得的结果,来抑制输入信号的背景噪声;特征量计算单元,被配置成基于抑制了背景噪声的输入信号而计算特征量;以及辅音检测单元,被配置成基于特征量从输入信号检测辅音。【专利说明】声音处理装置、声音处理方法和程序对相关申请的交叉引用该申请要求2012年12月20日提交的日本优先权专利申请JP2012-277662的权益,其全部内容通过引用合并于此。
本技术涉及一种声音处理装置、声音处理方法和程序。更具体地,本技术涉及一种能够以更高准确度检测辅音的声音处理装置、声音处理方法和程序。
技术介绍
近年来,随着老龄化社会的发展,越来越多的人正遭受年龄相关的听力损失。在年龄相关的听力损失中,在高频带的听觉灵敏度趋于劣化,因此存在听见话音尤其是辅音变得困难的许多示例。因此,作为使得较容易听见辅音的技术,存在通过使用均衡器而增强存在输入信号的辅音的频带的技术。然而,在该技术中,通常在与输入信号的类型无关的情况下执行该频带的增强,因此,尽管增强了辅音,但是除辅音之外的声音的质量被改变,从而变得难以听见该声音。此外,随着便携式电话的发展,变得能够在任何时间任何地点使用便携式电话进行对话。然而,这也意味着扬声器更可能处于有噪声的环境中。声音信号的辅音部分与其元音部分相比具有相对少的功率。因此,由于辅音部分被埋没在噪声中的事实而降低了声音的清晰度,因此出现难以听见对话语音的情形。特别地,对于具有年龄相关听力损失的人,已知听见声音的容易性受到背景噪声的幅度的影响,因此期望一种用于使得甚至在有噪声的环境中也较容易地听见声音的技术。例如,如果噪声较大,则存在用于通过使用噪声抑制技术减小噪声来相对增加声音的SN比(信噪比)的技术。然而,在该技术中,随着SN比的增加,声音本身的质量通常将被改变,并且语音清晰度或可懂度趋于劣化。另外,当说话者从开始以模糊的语音咕哝时,噪声抑制技术是无用的。鉴于以上情形,需要提供一种检测和增强辅音的技术,并且已提出了用于检测和增强辅音的技术。作为这样的技术的一个示例,提出了通过利用多个时间帧提取多个帧信号以及通过计算和比较帧信号的平均功率来检测和增强辅音的技术(例如,参考日本未审查专利申请公布第2010-091897号和日本专利第04876245号)。
技术实现思路
在日本未审查专利申请公布第2010-091897号和日本专利第04876245号所公开的技术中,音节的辅音区间或长度是先前定义的,并且仅对应于该定义的帧被视为辅音。然而,实际的声音不一定遵从该定义。特别地,其定义根据语言而变化,因此算法的语言依赖性将变高。此外,仅通过帧信号的功率的比较来执行辅音的检测,因此如果功率由于背景噪声而改变,则可能难以正确地检测辅音。如上所述,在检测辅音的上述方法中,对于在辅音的背景中存在噪声的信号,难以以高准确度检测辅音。本技术的实施例是鉴于这样的情形而做出的。期望以较高准确度检测辅音。根据本公开的实施例,提供了一种声音处理装置,该声音处理装置包括:背景噪声估计单元,被配置成估计输入信号的背景噪声;噪声抑制单元,被配置成基于通过估计背景噪声而获得的结果,来抑制输入信号的背景噪声;特征量计算单元,被配置成基于抑制了背景噪声的输入信号而计算特征量;以及辅音检测单元,被配置成基于特征量来从输入信号检测辅音。背景噪声估计单元可在频域中估计背景噪声。噪声抑制单元可通过抑制从输入信号获得的输入谱中包括的背景噪声而获得噪声抑制谱。特征量计算单元可基于噪声抑制谱而计算特征量。背景噪声估计单元可通过获得先前输入谱的平均值而估计背景噪声。声音处理装置还可包括辅音增强单元,该辅音增强单元被配置成针对这样的频率增强所述输入谱:在该频率处,噪声抑制谱的值大于通过将背景噪声谱乘以常数所获得的值,该背景噪声谱是通过对背景噪声的估计而获得的。辅音增强单元可以以预定增强量来增强输入谱。声音处理装置还可包括辅音增强水平计算单元,被配置成基于输入信号的当前功率与输入信号的先前元音部分的功率的平均值之比而计算增强量。辅音增强单元可以以该增强量来增强输入谱。可关于频率方向执行增强量的内插。噪声抑制单元可通过使用谱减法而获得噪声抑制谱。输入信号的音调强度也可用作特征量。辅音检测单元可基于作为特征量的音调强度和根据噪声抑制谱算出的特征量而从输入信号检测辅音。音调强度可由在音调频率的位置和该音调频率的谐波频率的位置生成噪声抑制谱的峰的程度来表示。音调强度可以是输入信号的自相关系数值。特征量计算单元可将噪声抑制谱的频带划分为多个子带,并且基于子带中的噪声抑制谱的代表值而计算特征量。噪声抑制谱可以是功率谱。噪声抑制谱可以是幅度谱。代表值可以是子带中的噪声抑制谱的平均值。代表值可以是子带中的噪声抑制谱的最大值。特征量计算单元可计算噪声抑制谱中的子带的代表值之间的时间差分值作为特征量。根据本公开的实施例,提供了一种声音处理方法,该声音处理方法包括:估计输入信号的背景噪声;基于通过估计背景噪声而获得的结果,来抑制输入信号的背景噪声;基于抑制了背景噪声的输入信号而计算特征量;以及基于特征量从输入信号检测辅音。根据本公开的实施例,提供了一种用于使得计算机执行如下处理的程序:估计输入信号的背景噪声;基于通过估计背景噪声而获得的结果,来抑制输入信号的背景噪声;基于抑制了背景噪声的输入信号而计算特征量;以及基于特征量从输入信号检测辅音。根据本公开的一个或更多个实施例,可以以高准确度检测辅音。【专利附图】【附图说明】图1是示出辅音增强装置的示例性配置的图;图2是用于说明时间频率变换的图;图3是用于说明背景噪声的估计的图;图4是用于说明噪声抑制谱的计算的图;图5是用于说明特征量的计算的图;图6是用于说明输入谱的增强的图;图7是示出通过增强输入信号而获得的结果的示例的图;图8是用于说明辅音增强处理的流程图;图9是用于说明辅音检测处理的流程图;图10是用于说明增强量计算处理的流程图;图11是示出辅音增强装置的另一示例性配置的图;图12是示出辅音增强装置的另一示例性配置的图;图13是示出辅音增强装置的另一示例性配置的图;图14是示出辅音检测装置的示例性配置的图;图15是示出辅音检测装置的另一示例性配置的图;以及图16是示出计算机的示例性配置的图。【具体实施方式】在下文中,将参照附图详细描述本技术的优选实施例。注意,在该说明书和附图中,具有基本上相同的功能和结构的结构元件以相同的附图标记来表示,并且省略对这些结构元件的重复说明。〈第一实施例〉<辅音增强装置的示例性配置>本技术的实施例可以被配置成通过基于具有抑制后的背景噪声的信号检测辅音,甚至在背景中存在噪声时仍以高准确度检测辅音。另外,本技术的实施例允许通过基于输入信号、估计的背景噪声和噪声抑制后的信号的水平来确定增强量而在考虑噪声的情况下适当地执行辅音的增强。图1是示出根据应用本技术的辅音增强装置的实施例的示例性配置的图。辅音增强装置11接收作为声音信号的输入信号,从输入信号检测辅音部分,基于通过检测获得的结果而增强辅音,并且输出所得到的声音信号本文档来自技高网...
【技术保护点】
一种声音处理装置,包括:背景噪声估计单元,被配置成估计输入信号的背景噪声;噪声抑制单元,被配置成基于通过估计所述背景噪声而获得的结果,来抑制所述输入信号的背景噪声;特征量计算单元,被配置成基于抑制了所述背景噪声的所述输入信号而计算特征量;以及辅音检测单元,被配置成基于所述特征量来从所述输入信号检测辅音。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:东山惠祐,
申请(专利权)人:索尼公司,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。