当前位置: 首页 > 专利查询>英特尔公司专利>正文

低功率语音检测制造技术

技术编号:10282738 阅读:132 留言:0更新日期:2014-08-04 09:59
允许具有最小功耗的语音处理的方法包含以第一时钟频率和第一电压记录时域音频信号,并且以第二时钟频率对时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号。可通过一个或多个滤波和增强技术来增强频域音频信号而获取更佳信噪比。增强的音频信号可用于生成总信号能量并且估计背景噪声能量。决策逻辑可从信号能量和背景噪声来确定人语音的存在或不存在。第一时钟频率可不同于第二时钟频率。

【技术实现步骤摘要】
【国外来华专利技术】低功率语音检测背景。
实施例通常涉及音频处理。更特别地,实施例涉及语音识别。讨论 语音命令和连续的言语识别对于移动计算系统而言因为有限的键盘功能性而可能是重要的。然而,持续地监听环境中的潜在语音的功率成本可能太高以使得在系统可以开始监听之前大多数系统要求来自用户的输入。此方式会不便并且会限制许多潜在应用的实用性。【附图说明】通过阅读下文的说明书和所附权利要求,并且通过参考以下的图,本专利技术的实施例的各种优势将对于本领域的技术人员而变得明显,图中: 图1是图示言语识别系统的实施例的示例的框图; 图2是图示根据实施例的与音频信号有关的示例能量和帧的图表; 图3是表示噪声抑制的示例实施例的框图。图4是图示与人语音检测操作关联的示例错误接受率和错误拒绝率的图表; 图5是语音活动检测模块的硬件架构实施例的示例; 图6是图示根据实施例的示例512点快速傅里叶变换的框图; 图7是图示根据实施例的快速傅里叶变换模块的示例硬件实现的框图; 图8是图示根据实施例的乘法和滤波模块的示例硬件实现的图;以及 图9是处理音频信号来检测人语音的示例方法的流程图。【具体实施方式】实施例可包括设备,它包含用于在存储器中存储时域中的音频信号的逻辑,其配置为基于第一时钟频率和第一电压来操作,并且基于第二时钟频率和第二电压对时域中的音频信号执行快速傅里叶变换(FFT)操作来生成频域中的音频信号。实施例可包括计算机实现的方法,其包含以第一时钟频率和第一电压记录时域音频信号。该方法还包含以第二时钟频率对时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号。第一时钟频率可比第二时钟频率快。实施例可包含计算机可读存储介质,具有一组指令,当处理器执行该组指令时,使计算机:以第一时钟频率和第一电压记录时域音频信号,以及以第二时钟频率对时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号。第一时钟频率可比第二时钟频率快。转到图1,示出了图示言语识别系统100的实施例的框图。该系统可包含预处理模块101 (配置为捕获音频信号)、前端处理模块102 (配置为处理音频信号并且检测可包含在音频信号中的任何人语音信息)、以及后端处理模块103 (配置为分析人语音信息并且执行与人语音信息关联的操作)。可注意到,音频信号可包含背景噪声和人语音信息。预处理模块101可包含记录器105 (例如,麦克风),它可用于将音频信号捕获为脉冲密度调制(PDM)信息流。PDM流可包含时域中的采用数字格式的音频信号。预处理模块101可包含PDM到脉冲编码调制(PCM)转换器110,它配置为接收PDM信息流并且生成PCM信息流。PCM信息流可被视为PDM信息流的数字表示。PCM信息流包含未编码的或原始信息。对于一些实施例,PCM数据流可以被直接接收。例如,记录器105可包含整合特征以使它生成PCM信息流。前端处理模块102 (也被称作语音活动检测或VAD模块)可包含分帧和加窗模块115,配置为分帧并且加窗从PDM-PCM转换器110接收的PCM信息流。分帧和加窗模块115可基于采样率和帧大小来将PCM信息流分帧并且加窗成多个帧(在图2中图示)。例如,采样率可设置为16kHz,并且帧大小可设置为32ms (毫秒)。取决于实现,可使用不同的采样率和不同的帧大小。对于一些实施例,帧可彼此重叠,并具有非重叠窗口。例如,两个连续帧(每个具有32ms的帧大小)可彼此重叠22ms (具有IOms的非重叠窗口)。使用16kHz采样率和32ms帧大小的示例,每个帧的采样数可以为16X32=512。FFT模块120可配置为接收PCM信息流的帧并且执行那些帧的从它们的时域表示到频域表示的必要变换。音频信号的频域表示可指示在频率范围上在每个给定频带内的能量或信号电平(在图2中图示)。在FFT模块120执行变换操作之后,噪声估计和抑制模块125可分析频域表示中的每个帧,并且滤出可与人语音信息不在相同频带内的任何噪声信息。对于一些实施例,噪声估计和抑制模块125可实现为可编程带通滤波器。一般而言,人语音可落入近似在20Hz与7KHz之间的频带(本文称作人语音频带)。噪声估计和抑制模块125可配置为检测可落在人语音频带之外的任何能量或信号电平,并且将该能量作为带外能量抑制。人语音与背景噪声的统计性质之间可能有差别。对于一些实施例,噪声估计和抑制模块125可基于人语音趋于短脉冲后跟着可图示为高幅度能量(其后跟着低幅度能量)的短脉冲的间歇的图案的假定来从背景噪声中辨别人语音。此能量图案不同于与背景噪声关联的能量,其中,能量的平均幅度可趋于从一个时间段到另一时间段保持相对相同或非常缓慢改变。其结果是,有可能保持跟踪并且估计一段时间上的背景噪声。人语音检测模块130可配置为使用背景噪声估计来确定在人语音频带内是否存在人语音。对于一些实施例,人语音检测模块130可确定在频域表示中的帧内的总能量,比较该总能量与估计的噪声能量,并且确定那个帧内是否存在人语音。例如,当总能量大于背景噪声能量乘以阈值时,可存在人语音信息135。当总能量近似小于或等于背景噪声能量时,可不存在人语音信息135。当不存在人语音信息135时,前端处理模块102的操作可继续到下一帧的噪声估计和抑制(如噪声估计和抑制模块125所执行的)。后端处理模块103可包含语音处理模块140,其配置为从前端处理模块102接收人语音信息135并且确定可包含在人语音信息135中的命令或指令。语音处理模块140可引起基于所确定的命令或指令来执行操作。转到图2,图2是图示与音频信号有关的示例能量和帧的图表200。图表200包含在时间段上可由记录器105 (在图1中图示)捕获的音频信号的能量。图表200的垂直轴线205可表示能量的幅度,并且水平轴线210可表示时间。对于一些实施例,音频信号可被分成多个重叠的帧,例如诸如帧215、220和225。在此示例中,帧215、220和225中的每个可与32ms的窗口关联并且可彼此偏置IOms的非重叠窗口 230。FFT模块120 (在图1中图示)可首先处理帧215,帧215可与覆盖从Oms到31ms的时间段的窗口关联。十毫秒以后,FFT模块120可处理第二帧220,第二帧220可与覆盖从IOms到41ms的时间段的窗口关联。然后,十毫秒以后,FFT模块120可处理第三帧225,第三帧225可与覆盖从20ms到51ms的时间段的窗口关联。使用16kHz的采样率,帧215、220和225中的每个可包含512个样本。取决于所选择的采样率和帧大小,样本数量可改变但通常可以是二的幂的数量。对于一些实施例,可期望FFT模块120 (图1)在类似于非重叠窗口的大小的时间段内(例如,IOms)完成对于每个帧的其变换操作(从时域表示变换到频域表示)。在其它实施例中,可期望FFT模块在非重叠窗口的时间的一部分中完成其变换。例如,FFT模块可只需要IOms的10% (或Ims)来完成其处理;FFT模块的操作可由以下公式来表示:X(k) - FfT (Xlf))公式 I 其中XOO表示音频信号的频域表示,x(0表示音频信号的时域表示,k的范围是从值I到频带的总数量(例如,512),并且t表示时间。公式I本文档来自技高网...

【技术保护点】
一种设备,包括:逻辑,所述逻辑用于:在存储器中存储时域音频信号,所述存储器配置为基于第一时钟频率和第一电压来操作,以及基于第二时钟频率和第二电压对所述时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号。

【技术特征摘要】
【国外来华专利技术】1.一种设备,包括: 逻辑,所述逻辑用于: 在存储器中存储时域音频信号,所述存储器配置为基于第一时钟频率和第一电压来操作,以及 基于第二时钟频率和第二电压对所述时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号。2.如权利要求1所述的设备,其中所述逻辑用于: 执行第一组FFT操作, 执行复数乘法操作,以及 与所述第一组FFT操作串行地执行第二组FFT操作。3.如权利要求2所述的设备,其中所述第二时钟频率比所述第一时钟频率慢,并且其中所述第二电压低于所述第一电压。4.如权利要求3所述的设备,其中所述逻辑用于: 执行噪声抑制操作, 基于所述第二时钟频率和所述第二电压对所述频域音频信号执行滤波操作来生成增强的音频信号。5.如权利要求4所述的设备,其中所述复数乘法操作和滤波操作使用相同的硬件部件来实现。6.如权利要求4所述的设备,其中所述逻辑用于基于所述第二时钟频率和所述第二电压对所述增强的音频信号执行人语音检测操作。7.如权利要求6所述的设备,其中所述逻辑用于确定所述增强的音频信号的帧中的总能量,并且确定所述增强的音频信号的所述帧中的背景噪声。8.如权利要求7所述的设备,其中所述逻辑用于执行中值滤波操作,并且执行轮廓跟踪操作。9.如权利要求7所述的设备,其中所述逻辑用于基于所述第一时钟频率和所述第一电压来执行与所检测的人语音关联的命令。10.一种计算机实现的方法,包括: 以第一时钟频率和第一电压记录时域音频信号; 以第二时钟频率对所述时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号,其中所述第一时钟频率比所述第二时钟频率快。11.如权利要求10所述的方法,其中所述FFT操作以低于所述第一电压的第二电压执行。12.如权利要求11所述的方法,还包含; 以所述第二时钟频率和所述第二电压对所述频域音频信号执行噪声抑制操作来生成增强的音频信号。13.如权利要求12所述的方法,还包含: 以所述第二时钟频率和所述第二电压对所述增强的音频信号执行语音检测操作来检测人语音。14.如权利要求13所述的方法,其中执行所述人语音检测操作包含:确定所述增强的音频信号的帧中的总能量; 确定与所述增强的音频信号的所述帧中的背景噪声关联的能量;以及 通过从所述增强的音频信号的所述帧中的所述总能量中减去与所述背景噪声关联的能量来检测所述人语音。15.如权利要求13所述的方法,还包含: 以所述第一时钟频率和所述第一电压执行与所述人语音关联的命令。16.如权利要求15所述的方法,其中以所述第一时钟频率和所述第一电压持续地记录所述时域音频信号并且将所述时...

【专利技术属性】
技术研发人员:A雷乔杜里WM贝尔特曼JW尚茨C托库纳加ME戴舍尔TE沃尔什
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1