本发明专利技术揭示分类音频环境的系统和方法。在一个实施例中,一种分类音频环境的方法包括根据第一时间间隔对所述音频环境进行取样以获得经取样音频数据,计算所述经取样音频数据的特征,根据第二时间间隔从所述经取样音频数据的所述特征中推断音频群集标识符,以及根据第三时间间隔使用所述经取样音频数据的所述特征更新音频环境模型。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及无线通信领域。明确地说,本专利技术涉及。
技术介绍
可将低功率始终接通音频环境分类设想为用于智能手机的情境感知应用的启用 程序。虽然已试图促进监督(即,预先训练的)音频分类,但此监督音频分类的执行可能被 混淆,这是因为给定周围音频环境的正确语义标签可能常常为用户特定的。举例来说,一个 人的家里的周围环境可能听起来好像另一个人的办公室的周围环境。另外,常规音频分类 方法可为计算上密集的,从而使得此类方法不适于以低功率始终接通方式来实施。关于常 规音频分类方法的另一个问题是对隐私的关注,这是因为可存储原始音频样本。
技术实现思路
一种根据本专利技术的分类音频环境的方法的实例包含根据第一时间间隔对所述音 频环境进行取样以获得经取样音频数据,计算所述经取样音频数据的特征,根据第二时间 间隔从经取样音频数据的所述特征推断音频群集标识符,以及根据第三时间间隔使用经取 样音频数据的所述特征更新音频环境模型。 所述方法的实施方案可包含以下特征中的一者或一者以上。计算所述经取样音 频数据的特征可包含计算多个梅尔频率倒谱系数(mel-frequency ceptral coefficient ; MFCC),在所述第一时间间隔内使用所述多个MFCC产生对MFCC数据的统计的连续估计,以 及存储对MFCC数据的统计的所述连续估计。产生对MFCC数据的统计的连续估计可包含将 所述多个MFCC加到与所述音频环境的所述多个MFCC的平均值成比例的估计,以及将所述 多个MFCC的平方加到与所述音频环境的所述多个MFCC的方差成比例的估计。推断所述 音频群集标识符可包含读取对MFCC数据的统计的所述连续估计、先前所存储的音频环境 模型和先前所确定的音频环境概率分布;使用对MFCC数据的统计的所述连续估计、所述先 前所存储的音频环境模型和所述先前所确定的音频环境概率分布计算当前音频环境概率 分布;用所述当前音频环境概率分布替换所述先前所确定的音频环境概率分布;根据所述 当前音频环境概率分布推断当前音频群集标识符;以及将对MFCC数据的统计的所述连续 估计存储为MFCC统计。更新所述音频环境模型可包含读取所述MFCC统计,使用所述MFCC 统计更新所述音频环境模型,以及将所述音频环境模型存储在存储装置中。对所述音频环 境进行取样可在20毫秒到30毫秒之间的持续时间内执行,推断所述音频群集标识符可在 1毫秒到100毫秒之间的持续时间内执行,且更新所述音频环境模型可在1分钟到20分钟 之间的持续时间内执行。第一时间间隔可实质上比第二时间间隔短,且第二时间间隔可实 质上比第三时间间隔短。第一时间间隔可在0. 5秒到3秒之间,第二时间间隔可在30秒到 120秒之间,且第三时间间隔可在6小时到24小时之间。音频群集标识符可表示周围音频 环境。 一种根据本专利技术的分类音频环境的设备的实例包含存储器单元;处理器,所述处 理器经编程以进行以下操作:根据第一时间间隔对所述音频环境进行取样以获得经取样音 频数据;计算所述经取样音频数据的特征;根据第二时间间隔从经取样音频数据的所述特 征推断音频群集标识符,以便将所述音频群集标识符存储在所述存储器单元中;以及根据 第三时间间隔使用经取样音频数据的所述特征更新音频环境模型。 所述设备的实施方案可包含以下特征中的一者或一者以上。所述处理器可经编程 以进行以下操作:计算多个梅尔频率倒谱系数(MFCC),在所述第一时间间隔内使用所述多 个MFCC产生对MFCC数据的统计的连续估计,以及将对MFCC数据的统计的所述连续估计存 储在所述存储器模块中。所述处理器可经配置以将所述多个MFCC加到与所述音频环境的 所述多个MFCC的平均值成比例的估计,以及将所述多个MFCC的平方加到与所述音频环境 的所述多个MFCC的方差成比例的估计。所述处理器也可经配置以进行以下操作:读取对 MFCC数据的统计的所述连续估计、先前所存储的音频环境模型和先前所确定的音频环境概 率分布;使用对MFCC数据的统计的所述连续估计、所述先前所存储的音频环境模型和所述 先前所确定的音频环境概率分布计算当前音频环境概率分布;用所述当前音频环境概率分 布替换所述先前所确定的音频环境概率分布;根据所述当前音频环境概率分布推断当前音 频群集标识符;以及将对MFCC数据的统计的所述连续估计存储为MFCC统计。所述处理器 也可经编程以读取所述MFCC统计,使用所述MFCC统计更新所述音频环境模型,以及将所述 音频环境模型存储在所述存储器单元中。可在20毫秒到30毫秒之间的持续时间内对所述 音频环境进行取样,可在1毫秒到100毫秒之间的持续时间内推断所述音频群集标识符,且 可在1分钟到20分钟之间的持续时间内更新所述音频环境模型。第一时间间隔可实质上 比第二时间间隔短,且第二时间间隔实质上比第三时间间隔短。所述处理器可经编程以使 得第一时间间隔在〇. 5秒到3秒之间,第二时间间隔在30秒到120秒之间,且第三时间间 隔在6小时到24小时之间。所述处理器可经编程以指示所述音频群集标识符表示周围音 频环境。 -种根据本专利技术的计算机程序产品的实例驻留在处理器可执行计算机存储媒体 上且包含处理器可执行指令,所述处理器可执行指令经配置以致使处理器进行以下操作: 根据第一时间间隔对音频环境进行取样以获得经取样音频数据,计算所述经取样音频数据 的特征,根据第二时间间隔从经取样音频数据的所述特征推断音频群集标识符,以及根据 第三时间间隔使用经取样音频数据的所述特征更新音频环境模型。 所述计算机程序产品的实施方案可包含以下特征中的一者或一者以上。指令经配 置以致使所述处理器进行以下操作:计算多个梅尔频率倒谱系数(MFCC),在所述第一时间 间隔内使用所述多个MFCC产生对MFCC数据的统计的连续估计,以及将对MFCC数据的统计 的所述连续估计存储在存储器模块中。指令经配置以致使所述处理器将所述多个MFCC加 到与所述音频环境的所述多个MFCC的平均值成比例的估计,以及将所述多个MFCC的平方 加到与所述音频环境的所述多个MFCC的方差成比例的估计。指令经配置以致使所述处理 器进行以下操作:读取对MFCC数据的统计的所述连续估计、先前所存储的音频环境模型和 先前所确定的音频环境概率分布;使用对MFCC数据的统计的所述连续估计、所述先前所存 储的音频环境模型和所述先前所确定的音频环境概率分布计算当前音频环境概率分布;用 所述当前音频环境概率分布替换所述先前所确定的音频环境概率分布;根据所述当前音频 环境概率分布推断当前音频群集标识符;以及将对MFCC数据的统计的所述连续估计存储 为MFCC统计。指令经配置以致使所述处理器读取所述MFCC统计,使用所述MFCC统计更新 所述音频环境模型,以及存储所述音频环境模型。指令经配置以致使所述处理器在20毫秒 到30毫秒之间的持续时间内对所述音频环境进行取样,在1毫秒到100毫秒之间的持续时 间内推断所述音频群集标识符,以及在1分钟到20分钟之间的持续时间内更新所述音频环 境模型。指令指示:第一时间间隔实质上比第二时间间隔短,且第二时间间隔实质上比第三 时间间隔短。指令指示:第一时间间隔在0. 5秒到3秒之间,第二时间间本文档来自技高网...
【技术保护点】
一种分类音频环境的方法,其包括:根据第一时间间隔对所述音频环境进行取样以获得经取样音频数据;计算所述经取样音频数据的特征;根据第二时间间隔从所述经取样音频数据的所述特征中推断音频群集标识符;以及根据第三时间间隔使用所述经取样音频数据的所述特征更新音频环境模型。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:里昂纳德·亨利·葛罗科普,
申请(专利权)人:高通股份有限公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。