语音检测方法及装置制造方法及图纸

技术编号:13894336 阅读:50 留言:0更新日期:2016-10-24 20:37
一种语音检测方法及装置,所述方法包括:将所采集的声音信号进行重叠分帧,得到对应的多个声音帧;对所得到的多个声音帧进行加窗处理;将经过加窗处理后的声音帧进行频域转换,得到各个声音帧对应的频谱;将所得到的各个声音帧对应的频谱进行倒频谱域转换,得到对应的倒频谱;计算相邻的两个声音帧的倒频谱之间的倒谱距离;当计算得出的倒谱距离大于预设的距离阈值时,对所采集的声音信号进行语音检测。上述的方案可以节省语音检测的时间。

【技术实现步骤摘要】

本专利技术涉及语音检测
,特别是涉及一种语音检测方法及装置
技术介绍
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。语音检测方法和总听系统(AlwaysListeningSystem)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音检测系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。但是,现有技术中语音检测方法,在应用于总听系统中时,需要一直保持开启状态以对用户的声音活动进行检测,因此,存在着耗时较长的问题。
技术实现思路
本专利技术实施例解决的问题是如何在进行语音检测时节省时间。为解决上述问题,本专利技术实施例提供了一种语音检测方法,所述语音检测方法包括:将所采集的声音信号进行重叠分帧,得到对应的多个声音帧;对所得到的多个声音帧进行加窗处理;将经过加窗处理后的声音帧进行频域转换,得到各个声音帧对应的频谱;将所得到的各个声音帧对应的频谱进行倒频谱域转换,得到对应的倒频谱;计算相邻的两个声音帧的倒频谱之间的倒谱距离;当计算得出的倒谱距离大于预设的距离阈值时,对所采集的声音信号进行语音检测。可选地,所述将经过加窗处理后的声音帧进行频域转换,得到各个声音帧对应的频谱,包括:将经过加窗处理后的声音帧进行快速傅里叶变换,得到各个声音帧对应的频谱。可选地,所述将所得到的各个声音帧对应的频谱进行倒频谱域转换,得到对应的倒频谱,包括: c = ∫ - π π ( log S ( w ) - α ) dw 2 π ]]>其中,c表示倒谱系数,S(w)表示声音帧,α为预设的修正项。可选地,所述计算相邻的两个声音帧的倒频谱之间的倒谱距离,包括: D = Σ j = 1 k | a j - b j | ]]>其中,D表示倒谱距离,j表示声音帧中的采样频点的序号,aj、bj分别表示相邻的两个声音帧的倒频谱,k表示采样频点数。可选地,所述声音帧的采样频点数为32。可选地,所述所采集的声音信号的时长为200ms至1s。可选地,所述距离阈值通过对采样频率为8KHz的采样信号进行预加重处理,并对帧长为20ms的声音帧加256点的汉明窗得到。本专利技术实施例还提供了一种语音检测装置,所述装置包括:分帧单元,适于将所采集的声音信号进行重叠分帧,得到对应的多个声
音帧;加窗处理单元,适于对所得到的多个声音帧进行加窗处理;频域转换单元,适于将经过加窗处理后的声音帧进行频域转换,得到各个声音帧对应的频谱;倒频谱域转换单元,适于将所得到的各个声音帧对应的频谱进行倒频谱域转换,得到对应的倒频谱;计算单元,适于计算相邻的两个声音帧的倒频谱之间的倒谱距离;语音检测单元,适于当计算得出的倒谱距离大于预设的距离阈值时,对所采集的声音信号进行语音检测。可选地,所述频域转换单元适于将经过加窗处理后的声音帧进行快速傅里叶变换,得到各个声音帧对应的频谱。可选地,所述声音帧的采样频点数为32。可选地,所述所采集的声音信号的时长为200ms至1s。可选地,所述距离阈值通过对采样频率为8KHz的采样信号进行预加重处理,并对帧长为20ms的声音帧加256点的汉明窗得到。与现有技术相比,本专利技术的技术方案具有以下的优点:通过计算相邻声音帧的倒频谱之间的倒谱距离,来确定是否对输入的声音信号进行检测,由于计算不同声音帧之间的倒谱距离的运算较为简单,仅因此,可以节省语音检测的计算资源和时间。进一步地,由于各个声音帧中的采样频点数为32,可以在节约计算成本的同时,获得较好的语音检测性能。附图说明图1是本专利技术实施例中的一种语音检测方法的流程图;图2是本专利技术实施例中的另一种语音检测方法的流程图;图3是本专利技术实施例中的语音检测方法在不同的纯净语音条件下的语音识别正确率的仿真结果示意图;图4是采用ITU-T G.729B标准的语音检测方法在不同的纯净语音条件下的语音识别正确率的仿真结果示意图;图5是基于统计模型的VAD在不同的纯净语音条件下的语音识别正确率的仿真结果示意图;图6是基于长期语音信息的VAD在不同的纯净语音条件下的语音识别正确率的仿真结果示意图;图7是本专利技术实施例中的语音检测方法在白色噪声条件下的语音识别正确率的仿真结果示意图;图8是采用ITU-T G.729B标准的语音检测方法在白色噪声条件下的语音识别正确率的仿真结果示意图;图9是基于统计模型的VAD在白色噪声条件下的语音识别正确率的仿真结果示意图;图10是基于长期语音信息的VAD在白色噪声条件下的语音识别正确率的仿真结果示意图;图11是本专利技术实施例中的一种语音检测装置的结构示意图。具体实施方式现有技术中的总听系统采用语音活动检测(Voice Activity Detection,VAD)技术来对声音进行侦测。GSM标准中最常用的语音活动检测方法,在噪声时段进行背景噪声的更新。这种基于频域的语音活动检测方法通常使用包括线性预测谱、全频段能量、低频段(0-1KHz)能量和过零率的特征向量。具体而言,将输入声音信号经过滤波器组进行滤波后,计算各个频段的声音水平,并使用具有预测量结果模型子模块确定可能性,或者确定当前帧的能量水平是否大于存储的噪声。上述语音活动检测方法,通常需要一个可靠的子模块来更新和存储噪声模型。针对这一问题,目前存在通过对功率包络动态进行追踪来进行噪声谱评估,对上述语音活动检测方法进行进一步改进。其中的一种方法通过将接收
器工作特性曲线在一些代表性的噪声和情境下非语音虚警率是否较少、以及语音命中率是否增加,来与原始的语音活动检测方法进行比较。现有技术中的另一种语音检测方法则构建了一种具有六种繁琐规则的繁琐语音活动检测方法。上述的语音活动检测方法在特定的条件和平台中可以表现出优良的性能。但是,上述的语音活动检测方法在应用于总本文档来自技高网
...

【技术保护点】
一种语音检测方法,其特征在于,包括:将所采集的声音信号进行重叠分帧,得到对应的多个声音帧;对所得到的多个声音帧进行加窗处理;将经过加窗处理后的声音帧进行频域转换,得到各个声音帧对应的频谱;将所得到的各个声音帧对应的频谱进行倒频谱域转换,得到对应的倒频谱;计算相邻的两个声音帧的倒频谱之间的倒谱距离;当计算得出的倒谱距离大于预设的距离阈值时,对所采集的声音信号进行语音检测。

【技术特征摘要】
1.一种语音检测方法,其特征在于,包括:将所采集的声音信号进行重叠分帧,得到对应的多个声音帧;对所得到的多个声音帧进行加窗处理;将经过加窗处理后的声音帧进行频域转换,得到各个声音帧对应的频谱;将所得到的各个声音帧对应的频谱进行倒频谱域转换,得到对应的倒频谱;计算相邻的两个声音帧的倒频谱之间的倒谱距离;当计算得出的倒谱距离大于预设的距离阈值时,对所采集的声音信号进行语音检测。2.根据权利要求1所述的语音检测方法,其特征在于,所述将经过加窗处理后的声音帧进行频域转换,得到各个声音帧对应的频谱,包括:将经过加窗处理后的声音帧进行快速傅里叶变换,得到各个声音帧对应的频谱。3.根据权利要求2所述的语音检测方法,其特征在于,所述将所得到的各个声音帧对应的频谱进行倒频谱域转换,得到对应的倒频谱,包括: c = ∫ - π π ( log S ( w ) - α ) dw 2 π ]]>其中,c表示倒谱系数,S(w)表示声音帧,α为预设的修正项。4.根据权利要求1所述的语音检测方法,其特征在于,所述计算相邻的两个声音帧的倒频谱之间的倒谱距离,包括: D = Σ j = 1 k | a ...

【专利技术属性】
技术研发人员:孙廷玮林福辉
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1