当前位置: 首页 > 专利查询>四川大学专利>正文

基于关键字判定非法广播的方法技术

技术编号:22240715 阅读:21 留言:0更新日期:2019-10-09 20:21
本发明专利技术公开了基于关键字判定非法广播的方法,分别建立声学模型、文字音素映射字典和关键字序列表;并用该样本对声学模型进行训练,得到关键字的语音特性与音素之间的映射,并将该映射载入声学模型;对文字音素映射表进行训练得到映射;并将该映射载入文字音素映射表;将训练好的声学模型、文字音素映射字典和关键字序列表语音关键词建立识别解码器;先进行预判,提高了效率和准确率,以及通过层级去噪,提取出来的以人声特征为主且没有那么多噪音干扰的音频,能更近似的表达出原本的录音信息,去除了电流杂音等,在音频进行关键词识别得出结果之后亦加入了针对识别的决策设计进而提高了进行关键词的识别得到的结果准确率、降低了误识率。

A Method of Determining Illegal Broadcasting Based on Keyword

【技术实现步骤摘要】
基于关键字判定非法广播的方法
本专利技术涉及语音识别
,具体涉及基于关键字判定非法广播的方法。
技术介绍
随着社会经济和无线电通讯的不断发展,无线电频谱资源的重要性日益凸显。许多非法广播,在经济利益的驱使下,私自购买、架设广播基站,播报虚假广告或进行经济欺诈行为,扰乱经济秩序,而且干扰正常的通讯信号,甚至会引发安全事故。所以,设计有效的方法对非法广播信号进行高效率的自动甄别和管控,具有十分重要的社会和经济价值。传统的非法广播甄别多采用人工收听识别的方法,人力成本高,且容易产生失误。尽管自动语音识别在人们日常生活中已经得到了不少应用,但是由于非法广播信号有显著不同于日常语音的特点,导致在频谱管控中,非法广播的自动甄别仍是一个棘手的问题。其中,最主要的两个原因,一是由于广播信号具有较大的噪声,且其信号往往并非单纯普通话语音,二是在非法广播甄别的应用领域,往往出于保密性的需要不能与外部互联网相连,这就导致了现有的自动语音识别模型大多无法使用,加上训练样本的数量不足,极大的限制了已有模型的使用。尽管中文语音识别已经取得了一定的效果和应用,但由于广播信号自身的一些特点,将自动语音识别技术直接运用到广播信号合法性甄别上仍存在一定的困难。具体地,由于一些安全性的需求,广播信号合法性甄别需要在离线环境下进行,使得许多现有的商业在线模型无法被直接使用。同时,噪声和背景音乐的影响也使得常规语音识别性能不足。另外,非法广播自动甄别系统不仅是个语音关键词识别的问题,还需要对关键词识别结果进行综合判断决策。
技术实现思路
本专利技术目的在于解决现有的非法广播检测方法对关键词的识别率低,识别准确度低的问题,提供了基于关键字判定非法广播的方法,通过使用关键字录制而成的样本对声学模型进行训练和使用关键字录制而成的样本对声学模型与文字音素映射表进行训练,同时由于我们并不需要完整的、具备意义的句子,提高了识别的容错率。本专利技术通过下述技术方案实现:基于关键字判定非法广播的方法,包括以下步骤:步骤一、指定所需的关键字词,基于词长设定检测阈值,将其保存至关键字词序列表中,以建立关键字词序列表;步骤二、录制仅含有关键字的广播音频文件样本,并用该样本对声学模型进行训练,得到关键字的语音特性与音素之间的映射,并将该映射载入声学模型,以训练声学模型;步骤三、定义音素与所需的指定字词之间的映射,并将该映射保存至文字音素序列字典中,以建立文字音素序列映射字典;步骤四、接收广播音频数据,按同地域同频点把音频数据分组;步骤五、将待识别的广播音频数据进行预判粗分类,分成语音为主的音频和非语音为主的音频;定义语音为主的音频的语音时域序列为X(n),非语音为主的音频则直接舍弃;步骤六、对语音为主的音频的语音时域序列X(n)进行分帧和加滑动窗口,得到语音时域序列Xi(n),滑动窗口为S(z),读取语音时域序列Xi(n)的波形数据,求出每条语音的最大峰值top、方差var;对语音时域序列Xi(n)做短时傅里叶变换,得到该含语音段的语音频谱PS,读取该语音频谱PS中初始静音段的幅度谱平均值作为该含语音段的噪声谱估计Pn,并计算其信噪比:其中,PS表示语音为主的音频的幅度谱,Pn表示该语音为主的音频的噪声谱估计,根据最大峰值top、方差var和信噪比snr三个参数对该语音段的语音质量进行综合打分,分数用score表示,预先设定好score的阈值(A,B,C);当score<A时,对该语音为主的音频直接进行步骤九、步骤十和步骤十一;当A<score<B时,对该语音为主的音频进行步骤七、步骤九、步骤十和步骤十一;当B<score<C时,对该语音为主的音频进行步骤七、步骤八、步骤九、步骤十和步骤十一;当score>C时,舍弃该语音为主的音频,并将此项判为存疑广播;步骤七、去除语音为主的音频中的加性噪声,得到去除加性噪声后的语音时域序列Yi(n);步骤八、对该语音为主的音频序列Yi(n)进行冲激性噪声去除;步骤九、将上述步骤得到的语音时域序列保存为音频载入语音关键词识别解码器,同时将声学模型、文字音素序列字典和关键字词序列表载入语音关键词识别解码器,识别出关键词,判定出以合法词为主的正常广播、以非法词为主的非法广播以及识别不出任何关键词的存疑项,并将关键词识别结果中的非法项,正常项制作成特征向量;步骤十、取若干正常广播语音段和非法广播语音段,并分别打上“正常广播”和“非法广播”的电子标签,组成训练集,以“正常广播/非法广播”为二分类标准训练SVM分类器;步骤十一、将步骤九得到的特征向量载入SVM分类器,得出该广播信号为正常广播或非法广播的判定结果,并结合步骤九中关键词识别解码器的识别结果,判断该项广播为正常广播、非法广播或存疑广播的判定结果;步骤十二、记录一个同地同频组内音频总数,并分别统计判定结果为非法广播、正常广播和存疑广播的数目,哪一类的数目更大,则将这一整组判为这一类频点,因此频点也会分为正常,非法和存疑三类。广播信号一般具有持续的噪声,且其播音音调较为特殊,有时还会混杂非语音信号;所以,在安静背景、标准对话语音中训练出的一般语音识别模型,难以直接在我们的问题中使用。为解决上述问题,就需要我们构建特殊的语音识别模型,使其能够特别的适应广播的语音信号。具体的,对于自动语音识别模型,专利技术人设置了声学模型、文字音素序列字典和关键词序列表三部分;而设计重点在于如何训练或调整声学模型、文字音素序列字典及关键词序列表,使语音识别系统可以在广播信号上取得较为良好的效果;由于我们只能够获取数量有限的广播信号样本,无法从零开始训练整个系统;故而,我们考虑使用已有的自动语音识别系统作为基底模型,并根据广播信号对参数进行相应的调整,使其可以准确的识别广播录音信号;在声学模型、文字音素序列字典和关键词序列表建立好后,为提高本方法的识别效率,所以在对关键词序列表进行建立时应该尽量的和实际的广播信号中的语音信号的特点相同,所以步骤四中,先将关键字序列表中的关键字录制成训练样本,然后在用该样本对声学模型进行训练,同时本方法相较于传统方法的区别在于,通过定义关键字,在识别过程中只对关键字进行识别,而不是针对句子的句意进行识别,这就使得本方法的识别速度相较于传统方法要快的多;提高了本方法在实际使用过程中的适用性,然后在通过对文字音素序列映射字典进行人工定义,得到了得到音素与定义的关键字之间的映射;由于广播通常对音质没有过高要求,在采用人工智能技术来识别黑广播时,广播录音通常噪声很大,比如电流杂音、外界环境声音、说话者语气词等,因此单单对广播录音进行关键词的识别得到的结果准确率很低、误识率较高;所以专利技术人针对广播录音的以上特性构建了广播信号的语音噪声移除方法:因为对于一段广播录音,由于其具有不同的状态,含中文普通话、各种噪声等几种不同声音类别,所以不能一概而论,要在去噪前要先对其进行分段处理,再判定语音段是否以人的语音为主;由于我们去噪的目的是进行后续的关键词识别,步骤五的具体操作方式如下:等长切分语音段,并将所有的语音片段输入进已经训练好的基于卷积网络音频类别分类器,分离出以语音为主的音频和以非语音为主的音频,打好标签并输出;针对非语音为主的音频,由于在后续识别本文档来自技高网...

【技术保护点】
1.基于关键字判定非法广播的方法,其特征在于,包括以下步骤:步骤一、指定所需的关键字词,基于词长设定检测阈值,将其保存至关键字词序列表中,以建立关键字词序列表;步骤二、录制仅含有关键字的广播音频文件样本,并用该样本对声学模型进行训练,得到关键字的语音特性与音素之间的映射,并将该映射载入声学模型,以训练声学模型;步骤三、定义音素与所需的指定字词之间的映射,并将该映射保存至文字音素序列字典中,以建立文字音素序列映射字典;步骤四、接收广播音频数据,按同地域同频点把音频数据分组;步骤五、将待识别的广播音频数据进行预判粗分类,分成语音为主的音频和非语音为主的音频;定义语音为主的音频的语音时域序列为X(n),非语音为主的音频则直接舍弃;步骤六、对语音为主的音频的语音时域序列X(n)进行分帧和加滑动窗口,得到语音时域序列Xi(n),滑动窗口为S(z),读取语音时域序列Xi(n)的波形数据,求出每条语音的最大峰值top、方差var;对语音时域序列Xi(n)做短时傅里叶变换,得到该含语音段的语音频谱PS,读取该语音频谱PS中初始静音段的幅度谱平均值作为该含语音段的噪声谱估计Pn,并计算其信噪比:

【技术特征摘要】
1.基于关键字判定非法广播的方法,其特征在于,包括以下步骤:步骤一、指定所需的关键字词,基于词长设定检测阈值,将其保存至关键字词序列表中,以建立关键字词序列表;步骤二、录制仅含有关键字的广播音频文件样本,并用该样本对声学模型进行训练,得到关键字的语音特性与音素之间的映射,并将该映射载入声学模型,以训练声学模型;步骤三、定义音素与所需的指定字词之间的映射,并将该映射保存至文字音素序列字典中,以建立文字音素序列映射字典;步骤四、接收广播音频数据,按同地域同频点把音频数据分组;步骤五、将待识别的广播音频数据进行预判粗分类,分成语音为主的音频和非语音为主的音频;定义语音为主的音频的语音时域序列为X(n),非语音为主的音频则直接舍弃;步骤六、对语音为主的音频的语音时域序列X(n)进行分帧和加滑动窗口,得到语音时域序列Xi(n),滑动窗口为S(z),读取语音时域序列Xi(n)的波形数据,求出每条语音的最大峰值top、方差var;对语音时域序列Xi(n)做短时傅里叶变换,得到该含语音段的语音频谱PS,读取该语音频谱PS中初始静音段的幅度谱平均值作为该含语音段的噪声谱估计Pn,并计算其信噪比:其中,PS表示语音为主的音频的幅度谱,Pn表示该语音为主的音频的噪声谱估计,根据最大峰值top、方差var和信噪比snr三个参数对该语音段的语音质量进行综合打分,分数用score表示,预先设定好score的阈值(A,B,C);当score<A时,对该语音为主的音频直接进行步骤九、步骤十和步骤十一;当A<score<B时,对该语音为主的音频进行步骤七、步骤九、步骤十和步骤十一;当B<score<C时,对该语音为主的音频进行步骤七、步骤八、步骤九、步骤十和步骤十一;当score>C时,舍弃该语音为主的音频,并将此项判为存疑广播;步骤七、去除语音为主的音频中的加性噪声,得到去除加性噪声后的语音时域序列Yi(n);步骤八、对该语音为主的音频序列Yi(n)进行冲激性噪声去除;步骤九、将上述步骤得到的语音时域序列保存为音频载入语音关键词识别解码器,同时将声学模型、文字音素序列字典和关键字词序列表载入语音关键词识别解码器,识别出关键词,判定出以合法词为主的正常广播、以非法词为主的非法广播以及识别不出任何关键词的存疑项,并将关键词识别结果中的非法项,正常项制作成特征向量;步骤十、取若干正常广播语音段和非法广播语音段,并分别打上“正常广播”和“非法广播”的电子标签,组成训练集,以“正常广播/非法广播”为二分类标准训练SVM分类器;步骤十一、将步骤九得到的特征向量载入SVM分类器,得出该广播信号为正常广播或非法广播的判定结果,并结合步骤九中关键词识别解码器的识别结果,判断该项广播为正常广播、非法广播或存疑广播的判定结果;步骤十二、记录一个同地同频组内音频总数,并分别统计判定结果为非法广播、正常广播和存疑广播的数目,哪一类的数目更大,则将这一整组判为这一类频点,因此频点也会分为正常,非法和存疑三类。2.根据权利要求1所述的基于关键字判定非法广播的方法,其特征在于,所述的声学模型为隐马尔可夫-高斯混合模型;所述高斯混合模型的联合表达公式如下:其中x表示一个音节;p(x)为输出该音节的概率;P(m)为对应子高斯概率密度函数的权值;μm和σm2是对应的高斯分布的参数;m为子模型的索引,即第m个子模型;M为总共的子模型数量;N(·)为多元高斯分布;I为对应数据维度的单位矩阵;P(x|m)为对于第m个子模型,输出该音节的概率。3.根据权利要求1所述的基于关键字判定非法广播的方法,其特征在于,所述步骤三中,建立文字音素序列字典的方法是先采用词频统计,后通过人工筛选来定义。4.根据权利要求1所述的基于关键字判定非法广播的方法,其特征在于,所述步骤七中去除加性噪声的过程如下:步骤7.1、求出整体广播录音的频谱能量的平方|X′(k)|2;步骤7.2、选取一段不含语音段统计出噪声频谱的平方|D(k)|2;步骤7.3、通过如下公式进行迭代谱减:直到去噪语音功率谱|Y(k)|2不再变化,对其做反傅里叶变换得到去除加性噪声后的语音时域序列Yi(n)。5.根据权利要求1所述的基于关键字判定非法广播的方法,其特征在于,所述步骤八中去除冲激性噪声的具体过程如下:步骤8.1、将滑动窗口S(z)沿语音时域序列Yi(...

【专利技术属性】
技术研发人员:雒瑞森熊华熠龚晓峰余艳梅冯谦费绍敏武瑞娟
申请(专利权)人:四川大学成都大公博创信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1