一种有害音频检测方法及装置制造方法及图纸

技术编号:28562283 阅读:27 留言:0更新日期:2021-05-25 17:57
本发明专利技术公开了一种有害音频检测方法及装置,该包括如下步骤:步骤SS1:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;步骤SS2:基于步骤SS1获得的识别的文本内容,采用SVM分类器进行分类;步骤SS3:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;步骤SS4:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。本发明专利技术通过解决正、反例样本数量失衡条件下的小样本训练的问题,最终提高有害音频检测的准确率。

【技术实现步骤摘要】
一种有害音频检测方法及装置
本专利技术涉及一种有害音频检测方法及装置,属于人工智能
,具体涉及音频数据的意图识别。
技术介绍
有害音频主要为涉毒类的音频文件,涉毒类音频样本具有重要的情报价值,但样本十分稀疏,正例样本属于一类小样本条件下的语音分类任务。有害音频发现是音频文件意图识别应用的一个子方向,其目的是要从固定电话、移动互联网所产生的数以万计的音频文件中,自动的识别出涉毒、涉暴、涉黄等包括有害信息的音频文件,本案主要讨论涉毒有害音频的自动发现问题。涉毒类音频文件意图会被刻意的伪装,与毒品有关的名词及采取的各类活动会借用其它词来替代,仅从字面上理解是很难与涉毒活动关联起来的。客观上造成了,这类正例样本不仅少而且难以收集。相对海量的音频文件,从统计意义上涉毒音频几乎可忽略不计,但从实际的情报价值来看,对于反毒破案其意义不言而喻。因此,这是一类正例样本极度稀缺、负例样本占主导的二分类问题。那么基于意图识别的涉毒音频发现技术包含两个关键技术难点:1)正例样本获取。如何从海量音频文件中获取正例样本是构建基于有监督学习的自动分类系统的关键。2)基于小样本智能学习的识别技术。如何构建适用于小样本的分类学习算法,同样是问题的关键。目前主流的意图识别技术可以按技术路线分为两类:基于关键词匹配和规则文法的要素抽取技术方案和基于机器学习、深度学习的意图识别方案。基于关键词匹配的意图识别技术,是通过精确关键词匹配来达到分类的目的的,但是对精确关键词匹配技术做了扩充,不仅仅通过单个关键词进行匹配,而且通过定义组合关键词,以及在组合关键词上进行多种模式的匹配来达到的。关键词策略对文本进行关键词匹配,首先对输入的文本句子进行分词,通过正向单关键词、正向组合关键词和负向组合关键词进行意图识别,然后将分类得分归一化,大致技术原理如图1所示。基于规则文法的要素抽取技术基于设定的文法规则,通过将定义的分类目标进行分解,分解为多个小的目标点,分别针对每个目标任务定义多个文法,用来匹配输入,最后通过统计匹配上的不同类别下的目标点的情况来决策是否属于某个定义的意图分类类别,比如,一个输入文档,同时匹配上了“办卡、存取钱业务”中的多个文法,则很大程度是该输入文档中内容是涉及到银行业务相关内容,可以认为是属于银行客服这个类别,通过文法进行意图分类的整体过程如图2所示。基于机器学习的意图识别算法有LDA-SVM分类算法。LDA(LatentDirichletAllocation)认为一篇文档(Document)可以由多个主题(Topic)混合组成,每个主题都是词汇上的概率分布,文章中的每个词都是由一个固定的主题生成的。支持向量机(SupportVectorMachine,SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机,SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题,SVM的学习算法就是求解凸二次规划的最优化算法。LDA-SVM模型首先使用LDA对整个语料库进行建模,划分K个主题,提取每个主题的特征,得到每个文档的主题分布,即每个文档包含的每个主题的权重,此权重即可作为特征,然后使用SVM对LDA提取的特征进行建模,预测意图类别,最后将分类得分归一化。深度学习的CNN网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性,最早用于图像,目前也被应用到NLP任务中,典型的CNN文本分类模型一共包括4层,结构如下:a)输入层:如图所示,输入层是句子中的词语对应的词向量(wordvector)依次(从上到下)排列的矩阵,假设句子有n个词,vector的维数为k,那么这个矩阵就是n×k的(在CNN中可以看作一副高度为n、宽度为k的图像)。这个矩阵的类型可以是静态的(static),也可以是动态的(nonstatic)。静态就是wordvector是固定不变的,而动态则是在模型训练过程中,wordvector也当作是可优化的参数。b)卷积层:输入层通过卷积操作得到若干个FeatureMap,卷积窗口的大小为h×k,其中h表示纵向词语的个数,而k表示wordvector的维数。通过这样一个大型的卷积窗口,将得到若干个列数为1的FeatureMap。c)池化层:采用Max-Over-TimePooling的方法,这种方法从之前一维的FeatureMap中提取最大的值,因为最大值代表着最重要的信号。这种Pooling方式可以解决可变长度的句子输入问题,无论FeatureMap中有多少个值,只需要提取其中的最大值,最终池化层的输出为各个FeatureMap的最大值,即一个一维的向量。d)全连接+Softmax:池化层的一维向量通过全连接的方式,连接一个Softmax层,Softmax层可根据任务的需要设置(通常反映着最终类别上的概率分布)。LSTM网络可以很好地利用文本中的词序信息,文本中的n+1个词依次通过LSTM后,得到相应的n+1个隐层神经元向量,将这些隐层向量求meanpooling(平均池化),即得到整个文本的分布式特征表示,然后紧接着是一个简单的逻辑回归层,得到一个类别分布概率。除了meanpooling,也可以使用maxpooling(最大池化),或者两者同时使用,并将两者得到的结果相拼接。
技术实现思路
本专利技术提出的意图分类系统构建过程由简单的关键词语匹配、传统的分类算法到基于深度学习的分类算法,层层递进,从零开始快速实现分类系统的构建。关键词匹配,根据专家经验确定与涉毒相关的关键词,利用关键词强制匹配,获取相关候选正例,经专家确认存入正例样本库。然后基于收集到的正例、反例样本训练意图分类系统。本专利技术的要解决的技术难点有以下两个。(1)涉毒类音频文件意图会被刻意的伪装,与毒品有关的名词及采取的各类活动会借用其它词来替代,仅从字面上理解是很难与涉毒活动关联起来的,导致涉毒音频这类正例样本难以收集。相对海量的音频文件,涉毒音频的数量几乎可以忽略不计,而且需要大量有专业经验的Z察人员从海量音频数据中人工进行甄别、筛选,耗时长且工作量大,样本获取难度大。(2)现有的技术方案是基于大批量的样本数据去训练分类系统,需要人工收集有害音频并对涉毒类的正例样本进行标注。基于第(1)个难点,涉毒类正例样本数量少且收集困难,无法满足当前技术方案下意图识别分类系统的训练条件。且有害音频识别属于以负例样本为主的二分类问题,正、反例样本数量不均衡,会进一步影响到模型的训练,导致模型训偏,有害音频会被错误地识别成无害音频。因为有害音频存在的数量少,即使被识别成无害音频对系统整体的错误率也不会有太大影响,但作为重点关注的有害音频存在着巨大的Z察价值,其识别错误的代价远高于无害音频,出现大量漏警时会严重降低系统的使用效果。现有的基于关键词匹配的技术方案仅能对特定的关键词进行强制匹配,本案的应用场景为涉毒类有害音频的检测,这本文档来自技高网
...

【技术保护点】
1.一种有害音频检测方法,其特征在于,包括如下步骤:/n步骤SS1:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;/n步骤SS2:基于步骤SS1获得的识别的文本内容,采用SVM分类器进行分类,;/n步骤SS3:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;/n步骤SS4:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。/n

【技术特征摘要】
1.一种有害音频检测方法,其特征在于,包括如下步骤:
步骤SS1:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;
步骤SS2:基于步骤SS1获得的识别的文本内容,采用SVM分类器进行分类,;
步骤SS3:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;
步骤SS4:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。


2.根据权利要求1所述的一种有害音频检测方法,其特征在于,所述步骤SS1具体包括:输入一段语音数据,分别经声学模型识别和语言模型解码后,得到所有可能解码路径的词混淆网络,所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小;然后输出概率最大的解码路径,也即识别的文本内容;根据专家经验确定与涉毒相关的关键词,利用关键词强制匹配,获取相关候选正例,经专家确认存入正例样本库。


3.根据权利要求1所述的一种有害音频检测方法,其特征在于,所述步骤SS2具体包括:对步骤SS1中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V={V1,V1,...,Vn},然后基于支持向量机算法SVM训练一个二分类器,基于文本意图对有害与无害的文本内容进行分类,有害的文本集合记为VT,无害的文本集合记为VF。


4.根据权利要求1所述的一种有害音频检测方法,其特征在于,所述步骤SS3具体包括:设计一个大数据量的意图分类网络称之为基分类器g(x;θ),设计一个参数回归映射网络F(.);给定大数据量的意图分类网络k-shot的标注样本,进行普通的分类训练,得到参数θk,其中k=1,2,...,2n;参数回归映射网络作用:元学习当样本集增大时基分类器参数的映射关系f(θk)=θk+1,训练的目标函数为:



通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,来指导小样本(VT,VF)条件下有害音频的分类网络的学习。


5.根据权利要求1所述的一种有害音频检测方法,其特征在于,所述步骤SS4具体包括:设连续语音关键词匹配的关键词得分为SASR,SVM分类器得分为SSVM,元学习分类网络的得分为Smeta,则待测音频最终被检测为有害音频的得分为:
S=W1SASR+W2SSVM+W3Smeta
通过设定一个阈值范围,得分超过该范围的音频定性为有害音频,不超过该设定阈值的音频定性为无害音频,最终完成有害音频的检测。


6.一种有害音频检测装...

【专利技术属性】
技术研发人员:张震石瑾李鹏夏静雯方磊
申请(专利权)人:讯飞智元信息科技有限公司国家计算机网络与信息安全管理中心
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1