一种基于MVGG-CTC的关键词搜索方法技术

技术编号:30324772 阅读:57 留言:0更新日期:2021-10-10 00:03
一种基于MVGG

【技术实现步骤摘要】
一种基于MVGG

CTC的关键词搜索方法


[0001]本专利技术属于语音识别
,具体涉及一种基于MVGG

CTC的关键词搜索方法。

技术介绍

[0002]随着网络通信技术的迅速发展,音视频媒体已经成为一种主流的信息传播形式,其高效流通和快速交互等特点越来越突显。舆论信息的传播和交互已达到前所未有的程度,在给人们带来便捷的同时,其中不良舆论信息的传播所产生的负面影响也越来越显著,诸如色情、恐怖、暴力等舆论信息的传播不仅违背公序良俗,也为社会公共安全带来巨大威胁和隐患,这也是我国相关部门所重点关注的问题。如何在保证信息自由流通的同时有效地加强监测和坚决防止不良舆论信息的传播,以及有效引导化解舆论危机对维护社会稳定、促进国家发展具有重要的现实意义,也是摆在信息科学工作者面前的新课题、新挑战。
[0003]对于音视频媒体舆论信息的监控,最有效的方法就是对其音频的关键词进行实时监测并建立关键词搜索系统,其中关键词搜索系统是针对连续语音数据进行自动识别并监测是否包含敏感关键词,并对含有关键词的语音片段建立关键词倒排索引,以便后期人工核实。该方法包含了语音信号预处理和特征提取、语言模型和声学模型的建立、语言解码器以及倒排索引的构建等等,其中:
[0004]1)语音信号预处理和特征提取是为了对语音信号数据进行前端预处理,包括特征提取、静音检测以及混合多环境混响的语音增强三部分组成,其中语音信号特征提取常采用语谱图特征、FilterBank(滤波器组)特征、MFCC(梅尔倒谱系数)特征或PLP(感知线性预测)特征等方法,静音检测采用的技术有基于SNR(信噪比)的VAD(噪音检测)方法、基于GMM(混合高斯模型)的VAD(噪音检测)方法以及基于DNN(深度神经网络)的静音检测方法等;多环境混响的语音增强主要包括室内混响增强、室外噪音增强以及音乐噪音增强等等。
[0005]2)传统的声学模型有传统GMM

HMM(混合高斯模型

隐马尔可夫模型)、HMM

DNN(隐马尔可夫模型

深度神经网络模型)等,而这些模型是由多个模型级联组成,不仅降低了效率且在级联过程中降低了准确度。
[0006]3)现有技术中的WFST(加权有限状态解码器)虽然有着较好的速度和准确率,但是应用于模型中仍然需要对各个模块分别训练,因为模型复杂且中间环节会损失一些关键信息,导致结果往往也差强人意。
[0007]4)对于检索技术最常见的就是关系数据库,绝大多数模型软件都应用了关系数据库,其更新查询比较出色,但对于大量数据的处理是不擅长的。基于以上现状,最为迫切的就是降低模型的复杂性,提高关键词搜索的效率以及解决模型存在的各种缺陷。

技术实现思路

[0008]为解决上述问题,本专利技术提供了一种基于MVGG

CTC的关键词搜索方法,所述方法包括步骤:
[0009]获取语音数据;
[0010]对所述语音数据进行预处理;
[0011]将所述语音数据输入MVGG

CTC模型中训练;
[0012]构建语音模型和词典;
[0013]将所述MVGG

CTC模型输出的拼音序列转化为连续文字;
[0014]利用倒排索引构建语音关键词搜索库;
[0015]在所述语音关键词搜索库中输入关键词进行检索;
[0016]获取所述语音关键词搜索库输出的检索结果。
[0017]优选地,所述对所述语音数据进行预处理包括步骤:
[0018]对所述语音数据进行特征提取;
[0019]对所述语音数据进行静音检测;
[0020]对所述语音数据进行多环境混响增强。
[0021]优选地,所述将所述语音数据输入MVGG

CTC模型中训练包括步骤:
[0022]构建MVGG模型;
[0023]构建连接时序分类器;
[0024]将所述语音数据依次输入所述MVGG模型和所述连接时序分类器;
[0025]获取所述连接时序分类器输出的拼音序列。
[0026]优选地,所述构建语音模型和词典包括步骤:
[0027]构建一元言模型和二元语言模型;
[0028]把所述一元语言模型的汉字构建成拼音词典。
[0029]优选地,所述将所述MVGG

CTC模型输出的拼音序列转化为连续文字包括步骤:
[0030]构建马尔可夫模型;
[0031]基于恐慌补偿的维特比算法构建解码器;
[0032]将所述拼音序列依次输入所述马尔可夫模型和所述解码器;
[0033]获取所述解码器输出的连续文字。
[0034]优选地,所述利用倒排索引构建语音关键词搜索库包括步骤:
[0035]识别所述语音数据中每段语音所对应的文字序列;
[0036]构建倒排索引库;
[0037]构建搜索程序。
[0038]本申请提供的一种基于MVGG

CTC的关键词搜索方法具有如下有益效果:
[0039](1)改进了网络结构,提升了语音识别的效率与准确度;
[0040](2)提升模型的鲁棒性;
[0041](3)能够实现快速关键词检索的智能自动识别。
附图说明
[0042]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0043]图1为本专利技术提供的一种基于MVGG

CTC的关键词搜索方法的流程示意图;
[0044]图2为本专利技术提供的一种基于MVGG

CTC的关键词搜索方法中频谱图提取流程示意图;
[0045]图3为本专利技术提供的一种基于MVGG

CTC的关键词搜索方法中MVGG

CTC网络结构示意图;
[0046]图4为本专利技术提供的一种基于MVGG

CTC的关键词搜索方法中倒排索引结构示意图。
具体实施方式
[0047]为使本专利技术的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本专利技术进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。
[0048]如图1

4,在本申请实施例中,本专利技术提供了一种基于MVGG

CTC的关键词搜索方法,所述方法包括步骤:
[0049]S1:获取语音数据;
[0050]在本申请实施例中,语音数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于MVGG

CTC的关键词搜索方法,其特征在于,所述方法包括步骤:获取语音数据;对所述语音数据进行预处理;将所述语音数据输入MVGG

CTC模型中训练;构建语音模型和词典;将所述MVGG

CTC模型输出的拼音序列转化为连续文字;利用倒排索引构建语音关键词搜索库;在所述语音关键词搜索库中输入关键词进行检索;获取所述语音关键词搜索库输出的检索结果。2.根据权利要求1所述的基于MVGG

CTC的关键词搜索方法,其特征在于,所述对所述语音数据进行预处理包括步骤:对所述语音数据进行特征提取;对所述语音数据进行静音检测;对所述语音数据进行多环境混响增强。3.根据权利要求1所述的基于MVGG

CTC的关键词搜索方法,其特征在于,所述将所述语音数据输入MVGG

CTC模型中训练包括步骤:构建MVGG模型;构建连接...

【专利技术属性】
技术研发人员:江海刘俊南王化薛辉齐心
申请(专利权)人:因诺微科技天津有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1