一种语音信息搜索方法、装置及服务器制造方法及图纸

技术编号:13593819 阅读:65 留言:0更新日期:2016-08-26 07:17
本申请提供一种语音信息搜索方法、装置及服务器。所述方法包括:提取语音信息库中目标语音的语音特征,生成所述目标语音的特征描述符;获取待识别语音的特征描述符,将查找到的与所述待识别语音的特征描述符相匹配的特征描述符对应的目标语音作为所述待识别语音对应的目标候选集;根据预定规则在所述目标候选集中选取所述待识别语音的搜索结果。利用本申请中各个实施例,可以优化查询效率,提高语音搜索速度。

【技术实现步骤摘要】

本申请属于电子信息信号处理
,尤其涉及一种语音信息搜索方法、装置及服务器
技术介绍
在未来,语音识别将逐步成为电子信息技术中人机交互的关键技术。目前在银行自助服务、公共自助服务、微信的终端应用、即时语音通信等领域对语音识别技术的需求越来越强烈,尤其是在移动互联网领时代基于安全考虑的语音内容审核。例如在目前的众多社交应用App中,用户可以发布包括各种内容的语音信息,其中有些可能涉及恐怖、色情、广告推销、诈骗等违法信息。目前,常用的方法是基于特定语种和关键词的语音识别技术进行语音信息内容自动审核。在该技术中通常的做法可以包括获取审核语音的语音特征,通过训练产生声学模型,目的是为每个发音建立发音模板。在识别时将待识别的语音特征与审核语音的声学模型逐个进行匹配,选取与待识别语音最接近的发音模板作为待识别语音的所表达的含义。在实际的语音识别过程中,通常将语音信息分成多个音频特征,例如以20毫秒为一个帧长,一段10秒是语音将产生500个音频特征。而存储的审核语音常常多达成千上万,同一个含义的审核语音又可以包括多个不同方言、不同语气的表述方式,同时每个审核语音的发音模块中又存在大量音频特征,在大规模数据集的情况下,现有的基于发音模块进行音频识别的方法面临着高维特征索引和查询过程复杂,查询时间长的问题,降低了查询效率。
技术实现思路
本申请目的在于提供一种语音信息搜索方法、装置及服务器,可以提取与特定人无关的语音底层特征,然后进行量化编码,建立索引,通过K-d数搜索数据库中已有的目标语音,达到语音内容快速搜索的目的,提高查询效率。本申请提供的一种语音信息搜索方法、装置及服务器是这样实现的:一种语音信息搜索方法,所述方法包括:提取语音信息库中目标语音的语音特征,生成所述目标语音的特征描述符;对所述特征描述符进行量化编码生成量化编码后的特征描述符,并存储所述特征描述符;获取待识别语音的特征描述符,在所述存储的所述特征描述符中,查找与所述待识别语音的特征描述符相匹配的特征描述符对应的目标语音,将查找到的目标语音作为所述待识别语音对应的目标候选集;根据预定规则在所述目标候选集中选取所述待识别语音的搜索结果。一种语音信息搜索装置,所述装置包括:信息获取模块,用于获取目标语音,并提取所述目标语音的语音特征;描述符模块,用于基于所述目标语音的语音特征生成所述目标语音的特征描述符;量化编码模块,用于对所述特征描述符进行量化编码,生成量化编码后的特征描述符,并存储所述特征描述符;识别信息模块,用于获取待识别语音的特征描述符;第一搜索模块,用于在所述存储的所述特征描述符中,查找与所述待识别语音的特征描述符相匹配的特征描述符对应的目标语音,将查找到的目标语音作为所述待识别语音对应的目标候选集;第二搜索模块,用于根据预定规则在所述目标候选集中选取所述待识别语音的搜索结果。一种语音信息搜索服务器,所述服务器被设置成包括:第一处理单元,用于获取目标语音,生成所述目标语音的特征描述符;还用于对所述特征描述符进行量化编码;存储单元,用于分别存储所述量化编码后的特征描述符中路径相同的特征描述符;第二处理单元,用于获取待识别语音的特征描述符;还用于在所述存储的特征描述符中查找与所述待识别语音相匹配的特征描述符的目标语音,获取候选集;还用于根据预定规则在所述候选集中选取所述待识别语音的搜索结果。本申请提供一种语音信息搜索方法、装置及服务器,可以将语音信息库中存储的需要审核的目标关键词或者短语的目标语音信息行音素级别的模型学习和表述,并生成特征描述符,建立索引。本申请中可以对生成特征描述符进行量化编码,降低特征描述符索引维度和信息长度,可以提高信息索引时的处理速度。在查询时,本申请利用K-d树获取搜索范围更小的待识别语音的目标候选集,然后进一步筛选出搜索结果。本申请提供的语音信息搜索方法,将传统高纬度、复杂的发音模块语音识别转化成相似音频特征的搜索,而且通过特征描
述符降低索引维度和K-d树优化查询效率,可以大大提高语音信息搜索速度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请一种语音信息搜索方法一种实施例的流程示意图;图2是本申请一种对特征描述符进行量化编码的示意图;图3是本申请建立特征描述符的索引示意图;图4是本申请一种语音信息搜索装置的一种实施例的模块结构示意图;图5是本申请提供的一种量化编码模块的模块结构示意图;图6是本申请提供的一种第二搜索模块的模块结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。本申请中提供的一种语音信息搜索方法,可以将需要审核的目标关键词或者短语对应的不同语种的语音底层特征添加到数据库,进行音素级别的模型学习和表述,并生成特征描述符,建立索引。在查询时,利用K-d树获取待识别语音的目标候选集,然后进一步筛选出搜索结果。基于上述的检索方案,可以通过特征描述符量化编码降低索引维度和K-d树优化查询效率,可以大大提高语音信息搜索速度。图1是本申请所述一种语音信息搜索方法的一个实施例的方法流程图,如图1所述,所述方法可以包括:S1:提取语音信息库中目标语音的语音特征,生成所述目标语音的特征描述符。所述的语音信息库可以包括存储的目标语音。所述目标语音可以预先采集或设置。所述目标语音具体的在不同的应用场景中可以包括不同的内容。例如在基于安全考虑的语音内容审核中,所述语音信息库中的目标语音可以为包括多个方言或多种语气的涉及恐怖、色情、广告、诈骗等内容的关键词或者短语。在家庭音像或者汽车智能控制终端中,所述语音信息
库中的目标语音可以包括对家庭智能设备如智能电视、音响等或者汽车驾驶控制设备进行功能控制的语音关键词或者短语。又或者收集存储的在智能终端社交、购物、聊天等应用中常用的例如“天气”、“苹果”“双十一”等关键词或者短语的目标语音信息。所述的语音信息库中存储的目标语音可以根据不同的应用场景进行设置,本申请中所述的语音信息搜索方法可以适用但并不限于基于安全考虑的语音内容审核的应用场景。基于语音内容自动审核的语音识别通常需要提取与特定人无关的语音底层特征,这样可以更加准确识别不同的人说的相同的话,或者相同的人因为自身状态和场合不同但说的内容相同的话。本申请中提取跟特定人无关的语音底层特征的方法可以包括MFCC(Mel-Frequency Cepstrum Coefficients,Mel频率倒谱系数)和PLP(Perceptual LinearPredictive,感觉加权线性预测)方法。其中MFCC是建立在傅立叶和倒谱分析基础上,对短时音频帧中的采样点进行傅立叶变换,得到这个短时本文档来自技高网
...

【技术保护点】
一种语音信息搜索方法,其特征在于,所述方法包括:提取语音信息库中目标语音的语音特征,生成所述目标语音的特征描述符;对所述特征描述符进行量化编码生成量化编码后的特征描述符,并存储所述特征描述符;获取待识别语音的特征描述符,在所述存储的所述特征描述符中,查找与所述待识别语音的特征描述符相匹配的特征描述符对应的目标语音,将查找到的目标语音作为所述待识别语音对应的目标候选集;根据预定规则在所述目标候选集中选取所述待识别语音的搜索结果。

【技术特征摘要】
1.一种语音信息搜索方法,其特征在于,所述方法包括:提取语音信息库中目标语音的语音特征,生成所述目标语音的特征描述符;对所述特征描述符进行量化编码生成量化编码后的特征描述符,并存储所述特征描述符;获取待识别语音的特征描述符,在所述存储的所述特征描述符中,查找与所述待识别语音的特征描述符相匹配的特征描述符对应的目标语音,将查找到的目标语音作为所述待识别语音对应的目标候选集;根据预定规则在所述目标候选集中选取所述待识别语音的搜索结果。2.如权利要求1所述的一种语音信息搜索方法,其特征在于,所述对所述特征描述符进行量化编码生成量化编码后的特征描述符包括:将每个所述特征描述符等分成L份子向量,对所述L个子向量分别进行聚类,并设置所述子向量聚类后的索引编号,L≥2;将每个所述特征描述符的L个子向量分别用与所述子向量距离最近的所述聚类的索引编号表示,生成量化编码后的特征描述符。3.如权利要求2所述的一种语音信息搜索方法,其特征在于,所述存储所述特征描述符包括:建立高度为(L+1)的K-d树;为所述K-d树的非叶子节点划分索引维度和与所述索引维度相对应的划分值;建立与所述划分值进行比较的结果路径指向;从所述K-d树的根节点开始,将与非叶子节点的索引维度相对应的特征描述符的值与所述非叶子节点的划分值进行比较,并基于比较的结果与所述结果路径指向将所述特征描述符存储至所述K-d树的叶子节点中。4.如权利要求3所述的一种语音信息搜索方法,其特征在于,所述为非叶子节点划分索引维度包括:为非叶子节点划分的索引维度值S为随机生成的取值范围为1≤S≤L的整数,并且当前非叶子节点的索引维度值S为从所述K-d树根节点到所述当前非叶子节点的路径上未划分过的索引维度值。5.如权利要求1所述的一种语音信息搜索方法,其特征在于,所述根据预定规则在所述目标候选集中选取所述待识别语音的搜索结果包括:在所述目标候选集中选取与所述待识别语音的特征描述符欧氏距离最小的前R个特征描述符作为搜索结果集,以所述搜索结果集所对应的目标语音作为所述待识别语音的搜索结果,R≥1。6.如权利要求1所述的一种语音信息搜索方法,其特征在于,所述生成所述目标语音的特征描述符包括:对所述提取的语音特征通过k-means聚类方法获取所述目标语音的码本;获取所述目标语音的语音特征集合,计算所述语音特征集合与所述码本中距离最近的码字所有残差向量之和;对所述码字的残差向量之和进行归一化,生成所述目标语音的特征描述符。7.如权利要求1所述的一种语音信息搜索方法,其特征在于,所述提取语音信息库中目标语音的语音特征包括:对所述目标语音进行预处理;计算所述预处理后的目标语音的能量谱;对所述能量谱进行Mel滤波,计算所述Mel滤波后的能量谱的对数;对所述能量谱的对数进行DCT变换得到MFCC系数,获取所述目标语音的语音特征。8.如权利要求7所述的一种语音信息搜索方法,其特征在于,所述对所述目标语音进行预处理包括:对所述目标语音进行语音格式转换、预加重、分帧、加窗处理。9.如权利要求8所述的一种语音信息搜索方法,其特征在于,所述方法还包括:计算所述MFCC系数的一阶和二阶差分系数,将所述一阶和二阶差分系数添加至所述语音特征中。10.一种语音信息搜索装置,其特征在于,所述装置包括:信息获取模块,用...

【专利技术属性】
技术研发人员:闻乃松
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1