【技术实现步骤摘要】
基于关键字判定非法广播的方法
本专利技术涉及语音识别
,具体涉及基于关键字判定非法广播的方法。
技术介绍
随着社会经济和无线电通讯的不断发展,无线电频谱资源的重要性日益凸显。许多非法广播,在经济利益的驱使下,私自购买、架设广播基站,播报虚假广告或进行经济欺诈行为,扰乱经济秩序,而且干扰正常的通讯信号,甚至会引发安全事故。所以,设计有效的方法对非法广播信号进行高效率的自动甄别和管控,具有十分重要的社会和经济价值。传统的非法广播甄别多采用人工收听识别的方法,人力成本高,且容易产生失误。尽管自动语音识别在人们日常生活中已经得到了不少应用,但是由于非法广播信号有显著不同于日常语音的特点,导致在频谱管控中,非法广播的自动甄别仍是一个棘手的问题。其中,最主要的两个原因,一是由于广播信号具有较大的噪声,且其信号往往并非单纯普通话语音,二是在非法广播甄别的应用领域,往往出于保密性的需要不能与外部互联网相连,这就导致了现有的自动语音识别模型大多无法使用,加上训练样本的数量不足,极大的限制了已有模型的使用。尽管中文语音识别已经取得了一定的效果和应用,但由于广播信号自身的一些特点,将自动语音识别技术直接运用到广播信号合法性甄别上仍存在一定的困难。具体地,由于一些安全性的需求,广播信号合法性甄别需要在离线环境下进行,使得许多现有的商业在线模型无法被直接使用。同时,噪声和背景音乐的影响也使得常规语音识别性能不足。另外,非法广播自动甄别系统不仅是个语音关键词识别的问题,还需要对关键词识别结果进行综合判断决策。
技术实现思路
本专利技术目的在于解决现有的非法广播检测方法对关键词的识别 ...
【技术保护点】
1.基于关键字判定非法广播的方法,其特征在于,包括以下步骤:步骤一、指定所需的关键字词,基于词长设定检测阈值,将其保存至关键字词序列表中,以建立关键字词序列表;步骤二、录制仅含有关键字的广播音频文件样本,并用该样本对声学模型进行训练,得到关键字的语音特性与音素之间的映射,并将该映射载入声学模型,以训练声学模型;步骤三、定义音素与所需的指定字词之间的映射,并将该映射保存至文字音素序列字典中,以建立文字音素序列映射字典;步骤四、接收广播音频数据,按同地域同频点把音频数据分组;步骤五、将待识别的广播音频数据进行预判粗分类,分成语音为主的音频和非语音为主的音频;定义语音为主的音频的语音时域序列为X(n),非语音为主的音频则直接舍弃;步骤六、对语音为主的音频的语音时域序列X(n)进行分帧和加滑动窗口,得到语音时域序列Xi(n),滑动窗口为S(z),读取语音时域序列Xi(n)的波形数据,求出每条语音的最大峰值top、方差var;对语音时域序列Xi(n)做短时傅里叶变换,得到该含语音段的语音频谱PS,读取该语音频谱PS中初始静音段的幅度谱平均值作为该含语音段的噪声谱估计Pn,并计算其信噪比:
【技术特征摘要】
1.基于关键字判定非法广播的方法,其特征在于,包括以下步骤:步骤一、指定所需的关键字词,基于词长设定检测阈值,将其保存至关键字词序列表中,以建立关键字词序列表;步骤二、录制仅含有关键字的广播音频文件样本,并用该样本对声学模型进行训练,得到关键字的语音特性与音素之间的映射,并将该映射载入声学模型,以训练声学模型;步骤三、定义音素与所需的指定字词之间的映射,并将该映射保存至文字音素序列字典中,以建立文字音素序列映射字典;步骤四、接收广播音频数据,按同地域同频点把音频数据分组;步骤五、将待识别的广播音频数据进行预判粗分类,分成语音为主的音频和非语音为主的音频;定义语音为主的音频的语音时域序列为X(n),非语音为主的音频则直接舍弃;步骤六、对语音为主的音频的语音时域序列X(n)进行分帧和加滑动窗口,得到语音时域序列Xi(n),滑动窗口为S(z),读取语音时域序列Xi(n)的波形数据,求出每条语音的最大峰值top、方差var;对语音时域序列Xi(n)做短时傅里叶变换,得到该含语音段的语音频谱PS,读取该语音频谱PS中初始静音段的幅度谱平均值作为该含语音段的噪声谱估计Pn,并计算其信噪比:其中,PS表示语音为主的音频的幅度谱,Pn表示该语音为主的音频的噪声谱估计,根据最大峰值top、方差var和信噪比snr三个参数对该语音段的语音质量进行综合打分,分数用score表示,预先设定好score的阈值(A,B,C);当score<A时,对该语音为主的音频直接进行步骤九、步骤十和步骤十一;当A<score<B时,对该语音为主的音频进行步骤七、步骤九、步骤十和步骤十一;当B<score<C时,对该语音为主的音频进行步骤七、步骤八、步骤九、步骤十和步骤十一;当score>C时,舍弃该语音为主的音频,并将此项判为存疑广播;步骤七、去除语音为主的音频中的加性噪声,得到去除加性噪声后的语音时域序列Yi(n);步骤八、对该语音为主的音频序列Yi(n)进行冲激性噪声去除;步骤九、将上述步骤得到的语音时域序列保存为音频载入语音关键词识别解码器,同时将声学模型、文字音素序列字典和关键字词序列表载入语音关键词识别解码器,识别出关键词,判定出以合法词为主的正常广播、以非法词为主的非法广播以及识别不出任何关键词的存疑项,并将关键词识别结果中的非法项,正常项制作成特征向量;步骤十、取若干正常广播语音段和非法广播语音段,并分别打上“正常广播”和“非法广播”的电子标签,组成训练集,以“正常广播/非法广播”为二分类标准训练SVM分类器;步骤十一、将步骤九得到的特征向量载入SVM分类器,得出该广播信号为正常广播或非法广播的判定结果,并结合步骤九中关键词识别解码器的识别结果,判断该项广播为正常广播、非法广播或存疑广播的判定结果;步骤十二、记录一个同地同频组内音频总数,并分别统计判定结果为非法广播、正常广播和存疑广播的数目,哪一类的数目更大,则将这一整组判为这一类频点,因此频点也会分为正常,非法和存疑三类。2.根据权利要求1所述的基于关键字判定非法广播的方法,其特征在于,所述的声学模型为隐马尔可夫-高斯混合模型;所述高斯混合模型的联合表达公式如下:其中x表示一个音节;p(x)为输出该音节的概率;P(m)为对应子高斯概率密度函数的权值;μm和σm2是对应的高斯分布的参数;m为子模型的索引,即第m个子模型;M为总共的子模型数量;N(·)为多元高斯分布;I为对应数据维度的单位矩阵;P(x|m)为对于第m个子模型,输出该音节的概率。3.根据权利要求1所述的基于关键字判定非法广播的方法,其特征在于,所述步骤三中,建立文字音素序列字典的方法是先采用词频统计,后通过人工筛选来定义。4.根据权利要求1所述的基于关键字判定非法广播的方法,其特征在于,所述步骤七中去除加性噪声的过程如下:步骤7.1、求出整体广播录音的频谱能量的平方|X′(k)|2;步骤7.2、选取一段不含语音段统计出噪声频谱的平方|D(k)|2;步骤7.3、通过如下公式进行迭代谱减:直到去噪语音功率谱|Y(k)|2不再变化,对其做反傅里叶变换得到去除加性噪声后的语音时域序列Yi(n)。5.根据权利要求1所述的基于关键字判定非法广播的方法,其特征在于,所述步骤八中去除冲激性噪声的具体过程如下:步骤8.1、将滑动窗口S(z)沿语音时域序列Yi(...
【专利技术属性】
技术研发人员:雒瑞森,熊华熠,龚晓峰,余艳梅,冯谦,费绍敏,武瑞娟,
申请(专利权)人:四川大学,成都大公博创信息技术有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。