【技术实现步骤摘要】
一种有害音频检测方法及装置
本专利技术涉及一种有害音频检测方法及装置,属于人工智能
,具体涉及音频数据的意图识别。
技术介绍
有害音频主要为涉毒类的音频文件,涉毒类音频样本具有重要的情报价值,但样本十分稀疏,正例样本属于一类小样本条件下的语音分类任务。有害音频发现是音频文件意图识别应用的一个子方向,其目的是要从固定电话、移动互联网所产生的数以万计的音频文件中,自动的识别出涉毒、涉暴、涉黄等包括有害信息的音频文件,本案主要讨论涉毒有害音频的自动发现问题。涉毒类音频文件意图会被刻意的伪装,与毒品有关的名词及采取的各类活动会借用其它词来替代,仅从字面上理解是很难与涉毒活动关联起来的。客观上造成了,这类正例样本不仅少而且难以收集。相对海量的音频文件,从统计意义上涉毒音频几乎可忽略不计,但从实际的情报价值来看,对于反毒破案其意义不言而喻。因此,这是一类正例样本极度稀缺、负例样本占主导的二分类问题。那么基于意图识别的涉毒音频发现技术包含两个关键技术难点:1)正例样本获取。如何从海量音频文件中获取正例样本是构建基于有监督学习的自动分类系统的关键。2)基于小样本智能学习的识别技术。如何构建适用于小样本的分类学习算法,同样是问题的关键。目前主流的意图识别技术可以按技术路线分为两类:基于关键词匹配和规则文法的要素抽取技术方案和基于机器学习、深度学习的意图识别方案。基于关键词匹配的意图识别技术,是通过精确关键词匹配来达到分类的目的的,但是对精确关键词匹配技术做了扩充,不仅仅通过单个关键词进行匹配,而且通过定义 ...
【技术保护点】
1.一种有害音频检测方法,其特征在于,包括如下步骤:/n步骤SS1:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;/n步骤SS2:基于步骤SS1获得的识别的文本内容,采用SVM分类器进行分类,;/n步骤SS3:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;/n步骤SS4:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。/n
【技术特征摘要】
1.一种有害音频检测方法,其特征在于,包括如下步骤:
步骤SS1:输入语音数据进行连续语音关键词匹配,输出识别的文本内容,从关键词的角度检测待测音频中是否含有有害关键词;
步骤SS2:基于步骤SS1获得的识别的文本内容,采用SVM分类器进行分类,;
步骤SS3:基于元学习进行有害音频分类网络,从文本意图的角度对待测样本进行分类;
步骤SS4:对关键词匹配得分、SVM分类器得分、元学习分类网络得分进行融合,获得待测音频最终被检测为有害音频的得分S。
2.根据权利要求1所述的一种有害音频检测方法,其特征在于,所述步骤SS1具体包括:输入一段语音数据,分别经声学模型识别和语言模型解码后,得到所有可能解码路径的词混淆网络,所述词混淆网络中每条路径的权重代表该条解码路径正确概率的大小;然后输出概率最大的解码路径,也即识别的文本内容;根据专家经验确定与涉毒相关的关键词,利用关键词强制匹配,获取相关候选正例,经专家确认存入正例样本库。
3.根据权利要求1所述的一种有害音频检测方法,其特征在于,所述步骤SS2具体包括:对步骤SS1中确认的所有有害与无害的识别文本利用Bert模型抽取能表征文本意图特征的文本向量V={V1,V1,...,Vn},然后基于支持向量机算法SVM训练一个二分类器,基于文本意图对有害与无害的文本内容进行分类,有害的文本集合记为VT,无害的文本集合记为VF。
4.根据权利要求1所述的一种有害音频检测方法,其特征在于,所述步骤SS3具体包括:设计一个大数据量的意图分类网络称之为基分类器g(x;θ),设计一个参数回归映射网络F(.);给定大数据量的意图分类网络k-shot的标注样本,进行普通的分类训练,得到参数θk,其中k=1,2,...,2n;参数回归映射网络作用:元学习当样本集增大时基分类器参数的映射关系f(θk)=θk+1,训练的目标函数为:
通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,来指导小样本(VT,VF)条件下有害音频的分类网络的学习。
5.根据权利要求1所述的一种有害音频检测方法,其特征在于,所述步骤SS4具体包括:设连续语音关键词匹配的关键词得分为SASR,SVM分类器得分为SSVM,元学习分类网络的得分为Smeta,则待测音频最终被检测为有害音频的得分为:
S=W1SASR+W2SSVM+W3Smeta
通过设定一个阈值范围,得分超过该范围的音频定性为有害音频,不超过该设定阈值的音频定性为无害音频,最终完成有害音频的检测。
6.一种有害音频检测装...
【专利技术属性】
技术研发人员:张震,石瑾,李鹏,夏静雯,方磊,
申请(专利权)人:讯飞智元信息科技有限公司,国家计算机网络与信息安全管理中心,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。