【技术实现步骤摘要】
本申请属于电子信息信号处理
,尤其涉及一种语音信息搜索方法、装置及服务器。
技术介绍
在未来,语音识别将逐步成为电子信息技术中人机交互的关键技术。目前在银行自助服务、公共自助服务、微信的终端应用、即时语音通信等领域对语音识别技术的需求越来越强烈,尤其是在移动互联网领时代基于安全考虑的语音内容审核。例如在目前的众多社交应用App中,用户可以发布包括各种内容的语音信息,其中有些可能涉及恐怖、色情、广告推销、诈骗等违法信息。目前,常用的方法是基于特定语种和关键词的语音识别技术进行语音信息内容自动审核。在该技术中通常的做法可以包括获取审核语音的语音特征,通过训练产生声学模型,目的是为每个发音建立发音模板。在识别时将待识别的语音特征与审核语音的声学模型逐个进行匹配,选取与待识别语音最接近的发音模板作为待识别语音的所表达的含义。在实际的语音识别过程中,通常将语音信息分成多个音频特征,例如以20毫秒为一个帧长,一段10秒是语音将产生500个音频特征。而存储的审核语音常常多达成千上万,同一个含义的审核语音又可以包括多个不同方言、不同语气的表述方式,同时每个审核语音的发音模块中又存在大量音频特征,在大规模数据集的情况下,现有的基于发音模块进行音频识别的方法面临着高维特征索引和查询过程复杂,查询时间长的问题,降低了查询效率。
技术实现思路
本申请目的在于提供一种语音信息搜索方法、装置及服务器,可以提取与特定人无关的语音底层特征,然后进行量化编码,建立索引,通过K-d数搜索数据库中已有的目标语音,达到语音内容快速搜索的目的,提高查询效率。本申请提供的一种语音信息搜索方法、装 ...
【技术保护点】
一种语音信息搜索方法,其特征在于,所述方法包括:提取语音信息库中目标语音的语音特征,生成所述目标语音的特征描述符;对所述特征描述符进行量化编码生成量化编码后的特征描述符,并存储所述特征描述符;获取待识别语音的特征描述符,在所述存储的所述特征描述符中,查找与所述待识别语音的特征描述符相匹配的特征描述符对应的目标语音,将查找到的目标语音作为所述待识别语音对应的目标候选集;根据预定规则在所述目标候选集中选取所述待识别语音的搜索结果。
【技术特征摘要】
1.一种语音信息搜索方法,其特征在于,所述方法包括:提取语音信息库中目标语音的语音特征,生成所述目标语音的特征描述符;对所述特征描述符进行量化编码生成量化编码后的特征描述符,并存储所述特征描述符;获取待识别语音的特征描述符,在所述存储的所述特征描述符中,查找与所述待识别语音的特征描述符相匹配的特征描述符对应的目标语音,将查找到的目标语音作为所述待识别语音对应的目标候选集;根据预定规则在所述目标候选集中选取所述待识别语音的搜索结果。2.如权利要求1所述的一种语音信息搜索方法,其特征在于,所述对所述特征描述符进行量化编码生成量化编码后的特征描述符包括:将每个所述特征描述符等分成L份子向量,对所述L个子向量分别进行聚类,并设置所述子向量聚类后的索引编号,L≥2;将每个所述特征描述符的L个子向量分别用与所述子向量距离最近的所述聚类的索引编号表示,生成量化编码后的特征描述符。3.如权利要求2所述的一种语音信息搜索方法,其特征在于,所述存储所述特征描述符包括:建立高度为(L+1)的K-d树;为所述K-d树的非叶子节点划分索引维度和与所述索引维度相对应的划分值;建立与所述划分值进行比较的结果路径指向;从所述K-d树的根节点开始,将与非叶子节点的索引维度相对应的特征描述符的值与所述非叶子节点的划分值进行比较,并基于比较的结果与所述结果路径指向将所述特征描述符存储至所述K-d树的叶子节点中。4.如权利要求3所述的一种语音信息搜索方法,其特征在于,所述为非叶子节点划分索引维度包括:为非叶子节点划分的索引维度值S为随机生成的取值范围为1≤S≤L的整数,并且当前非叶子节点的索引维度值S为从所述K-d树根节点到所述当前非叶子节点的路径上未划分过的索引维度值。5.如权利要求1所述的一种语音信息搜索方法,其特征在于,所述根据预定规则在所述目标候选集中选取所述待识别语音的搜索结果包括:在所述目标候选集中选取与所述待识别语音的特征描述符欧氏距离最小的前R个特征描述符作为搜索结果集,以所述搜索结果集所对应的目标语音作为所述待识别语音的搜索结果,R≥1。6.如权利要求1所述的一种语音信息搜索方法,其特征在于,所述生成所述目标语音的特征描述符包括:对所述提取的语音特征通过k-means聚类方法获取所述目标语音的码本;获取所述目标语音的语音特征集合,计算所述语音特征集合与所述码本中距离最近的码字所有残差向量之和;对所述码字的残差向量之和进行归一化,生成所述目标语音的特征描述符。7.如权利要求1所述的一种语音信息搜索方法,其特征在于,所述提取语音信息库中目标语音的语音特征包括:对所述目标语音进行预处理;计算所述预处理后的目标语音的能量谱;对所述能量谱进行Mel滤波,计算所述Mel滤波后的能量谱的对数;对所述能量谱的对数进行DCT变换得到MFCC系数,获取所述目标语音的语音特征。8.如权利要求7所述的一种语音信息搜索方法,其特征在于,所述对所述目标语音进行预处理包括:对所述目标语音进行语音格式转换、预加重、分帧、加窗处理。9.如权利要求8所述的一种语音信息搜索方法,其特征在于,所述方法还包括:计算所述MFCC系数的一阶和二阶差分系数,将所述一阶和二阶差分系数添加至所述语音特征中。10.一种语音信息搜索装置,其特征在于,所述装置包括:信息获取模块,用...
【专利技术属性】
技术研发人员:闻乃松,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。