基于深度学习语音增强的无参考语音质量客观评估方法技术

技术编号:16588581 阅读:25 留言:0更新日期:2017-11-18 16:29
本发明专利技术公开了基于深度学习语音增强的无参考语音质量客观评估方法,属于语音质量评价技术领域。本方法分为三个步骤:首先将待测语音经过已经训练好的基于深度信念网络的语音增强模型,得到增强后的语音信号;然后,分别提取出增强前后信号的梅尔倒谱系数,做两个系数的差;最后将这个参数作为输入,通过第二层的BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价。与以往的无参考语音质量评价模型相比,本发明专利技术方法与主观质量评分的相关度更好,均方误差也更小。

An objective speech quality assessment method without reference speech based on deep learning speech enhancement

The present invention discloses an objective speech quality evaluation method based on deep learning speech enhancement, which belongs to the technical field of speech quality evaluation. This method is divided into three steps: first to be tested after speech training has been good speech enhancement based on a deep belief network model, get the enhanced speech signal; then, we extract enhanced Mel cepstral coefficients before and after the signal of the two differential coefficient; finally the parameters as input, through the BP nerve the second layer network model, mapping objective score eventually, thus achieving the objective evaluation of speech quality without reference. Compared with the previous non reference speech quality assessment model, the proposed method has better correlation with subjective quality score and smaller mean square error.

【技术实现步骤摘要】
基于深度学习语音增强的无参考语音质量客观评估方法
本专利技术涉及基于深度信念网络的语音增强技术以及人工神经网络客观评估指标映射技术,尤其涉及基于深度学习语音增强的无参考语音质量客观评估方法,属于语音质量评价

技术介绍
随着科技的发展,语音通信已经成为通信学必不可少的一部分了。从电话通信到VoIP,语音通信渗透到了我们生活的很多方面。由于在语音通信的传输过程中,信道对于语音的压缩,调制解调以及噪声干扰都会大大降低语音质量,从而降低人的听觉感受。为了能够设计出传输性能良好的通信系统,判断语音通信系统的性能就成为了很关键的环节。语音质量评价方法根据评价主体的不同分为客观评价和主观评价方法。主观评价方法是人为判断一段语音的优劣并对其评分。一般的,我们将主观评价方法分为以下几种,ITU-TP.800和P.830建议书中给出的平均意见分方法(MOS),ANSIS3.2-1989标准判别音韵测试方法(DRT),以及Dynastat公司推出的判别满意度测试方法(DAM)。语音质量主观评价方法在很多场合都有应用,尤其是语音编码以及语音合成。虽然主观评价往往可以提供准确的结果,但是实现主观评价需要大量的实验人员,并对他们进行培训,操作复杂,耗时耗力。由于语音主观评价遇到的种种困难,研究人员将研究重心放在了只利用机器就可以进行语音评价的客观评价方法。客观评价方法主要分为有参考的基于输入-输出的评价模型,以及无参考的基于输出的评价模型。近几十年来,研究者一直集中研究有参考的评价算法上并获得了飞速的进展。PESQ算法是由英国电信(BT)和KPN共同开发的,2001年是被认定为ITU-TP.862规范,是一种评价网络语音传输质量的比较好的标准。通过模拟人耳听觉特性,将输入输出信号转换成感知上的形式,比较贴合听众的听觉感受。2010年ITU-T颁布的P.863标准,即POLQA算法,对PESQ进行了改进,成为下一代宽带网络的语音质量客观评价的主流标准。POLQA与主观分数之间的相关系数是目前最高的,但是由于其是基于输入-输出的评价方法,且运算复杂度较高,在使用时不具备灵活性和实时性。近年来,研究者们开始着重研究能够不依赖于输出信号的无参考评价算法,目前受到广泛使用的无参考语音质量评价模型是基于窄带电话网络的P.563协议,P.563协议是第一个经过ITU认可的基于输出的语音客观评价标准。P.563将失真类型分为不同级别,利用逻辑分类器逐级对失真信号进行分类,直到符合其中一级的失真标准,再依据不同的失真种类建立映射模型,对提取出的特征进行线性加权组合最终得到客观话音质量结果。这种方法相对于有参考评价方法具有更高的灵活性,但是相关度较低。我国授权公开号为CN102881289A(公开日:2013年1月15日)的专利“一种基于听觉感知特性的语音质量客观评价算法”,公开了一种简单有效的基于听觉感知特性的语音质量客观评价算法,根据心理声学原理将人耳听觉模型和非线性压缩变换引入MFCC特征参数提取过程,有效提高了客观评价结果和主观评价算法之间的相关度。但是这种方法是基于输入-输出信号的评价方法,不适用于无参考信号的情况。目前无参考的语音质量客观评估方法,相比有参考的方法由于没有输入纯净信号作参考,准确度还不高,亟待进一步研究。
技术实现思路
本专利技术的目的是为了解决现有的无参考语音客观评价算法结果与主观评价得分相关性过低的问题,提供基于深度学习语音增强的无参考语音质量客观评估方法,提高了客观评价方法的准确性。为了实现上述目的,本专利技术方法的基本思路是:首先,将待测的失真语音信号,即增强前信号经过训练好的基于深度信念网络的语音增强模型,得到增强后信号;然后,计算出增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,再做两个系数的差;最后将两个系数的差作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价。深度信念网络模型利用失真语音与纯净语音数据库训练得到,BP神经网络利用主观测试数据训练得到,主观测试分数使用的是MOS分数。本专利技术方法的具体实施步骤如下:步骤一、提取待测失真语音信号的特征,再输入训练好的基于深度信念网络的语音增强模型,得到增强后信号;其中,待测失真语音信号又称为增强前信号;步骤一具体为:步骤1.1通过数学变换提取待测失真语音信号特征;步骤1.2基于失真语音与纯净语音数据库基于深度信念网络训练模型进行训练,输出训练好的模型,又称为语音增强模型;其中,进行训练的深度信念网络模型含有两个隐含层,训练过程主要分为两个阶段:预训练和微调;步骤1.2A预训练阶段,将纯净语音和失真语音的特征作为训练集,模型初始化过程使用贪婪无监督逐层训练算法训练;步骤1.2B微调阶段是有监督训练,采用传统的反向传播BP算法来学习模型的参数;步骤1.3经过步骤1.2得到训练好的模型各项参数后,将失真语音的特征输入语音增强模型即可得到增强后语音的对应特征;步骤二、计算出步骤一中的增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,将增强前信号的MFCC系数及增强后信号的MFCC系数做差并作为后续映射模型的输入;步骤二具体为:步骤2.1对增强前信号和增强后信号进行分帧处理;步骤2.2将经过步骤2.1分帧处理后的每一帧信号的频率通过如下公式(1)将每一帧信号的频率映射到梅尔频率mel(f)上来;其中,步骤2.2操作的原因是人对频率的听觉感应是非线性的;步骤2.3将增强前信号和增强后信号分别经过带通滤波器分别得到滤波器后输出信号的能量;其中,带通滤波器是一组自低频至高频由密到疏的滤波器;经滤波器输出的信号能量是梅尔特征的基本形式;步骤2.4再对步骤2.3输出信号的能量求取倒数得到MFCC系数,即梅尔倒谱系数;其中,MFCC系数是一个K维的向量,优选的K取值为39;也可以是其他整数值;其中,梅尔倒谱系数完全基于听觉模型,不依赖于信号本身的特性,具有很好的鲁棒性,符合人耳的听觉感受;步骤2.5对增强前信号及增强后信号中的每条语音所有帧的MFCC系数做均值,得到一组MFCC系数;其中,一组MFCC系数中包含两个均值,即增强前信号及增强后信号中的每条语音所有帧的MFCC系数均值;步骤2.6再将步骤2.5输出的一组MFCC系数中的增强后信号MFCC系数减去增强前信号MFCC系数,将这个值作为后续映射阶段输入参数步骤三、将步骤2.6中得到的增强前后信号MFCC系数的差值作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价;其中,BP神经网络为模型中的映射网络,含有输入层,隐含层,输出层共三层,隐层节点的激励函数为sigmoid函数,输出层节点激励函数为线性函数;至此,从步骤一到步骤三,完成了基于深度学习语音增强的无参考语音质量客观评估方法。有益效果本专利技术基于深度学习语音增强的无参考的语音质量客观评估方法,对比现有的技术,有如下的有益效果:1.本专利技术所述的方法提出了基于深度学习语音增强的无参考语音质量客观评估方法,利用深度学习语音增强技术将失真语音进行增强后,再与待测失真信号进行参数比较,模拟有参考评价方法中纯净语音与测试语音之间的失真量,与其他的无参考模型相比,具有与主观评价更高的相关性以及更小的本文档来自技高网
...
基于深度学习语音增强的无参考语音质量客观评估方法

【技术保护点】
基于深度学习语音增强的无参考语音质量客观评估方法,其特征在于:基本思路是:首先,将待测的失真语音信号,即增强前信号经过训练好的基于深度信念网络的语音增强模型,得到增强后信号;然后,计算出增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,再做两个系数的差;最后将两个系数的差作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价;深度信念网络模型利用失真语音与纯净语音数据库训练得到,BP神经网络利用主观测试数据训练得到,主观测试分数使用的是MOS分数;具体实施步骤如下:步骤一、提取待测失真语音信号的特征,再输入训练好的基于深度信念网络的语音增强模型,得到增强后信号;其中,待测失真语音信号又称为增强前信号;待测失真语音信号,即增强前信号中包含很多条语音信号;相应的增强后信号中也包含多条语音信号;步骤一到步骤三均以单条语音为处理单位进行整体处理;步骤二、计算出步骤一中的增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,将增强前信号的MFCC系数及增强后信号的MFCC系数做差并作为后续映射模型的输入;步骤三、将步骤二得到的增强前后信号MFCC系数的差值作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价;其中,BP神经网络为模型中的映射网络,含有输入层,隐含层,输出层共三层,隐层节点的激励函数为sigmoid函数,输出层节点激励函数为线性函数;至此,就完成了基于深度学习语音增强的无参考语音质量客观评估方法。...

【技术特征摘要】
1.基于深度学习语音增强的无参考语音质量客观评估方法,其特征在于:基本思路是:首先,将待测的失真语音信号,即增强前信号经过训练好的基于深度信念网络的语音增强模型,得到增强后信号;然后,计算出增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,再做两个系数的差;最后将两个系数的差作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价;深度信念网络模型利用失真语音与纯净语音数据库训练得到,BP神经网络利用主观测试数据训练得到,主观测试分数使用的是MOS分数;具体实施步骤如下:步骤一、提取待测失真语音信号的特征,再输入训练好的基于深度信念网络的语音增强模型,得到增强后信号;其中,待测失真语音信号又称为增强前信号;待测失真语音信号,即增强前信号中包含很多条语音信号;相应的增强后信号中也包含多条语音信号;步骤一到步骤三均以单条语音为处理单位进行整体处理;步骤二、计算出步骤一中的增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,将增强前信号的MFCC系数及增强后信号的MFCC系数做差并作为后续映射模型的输入;步骤三、将步骤二得到的增强前后信号MFCC系数的差值作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价;其中,BP神经网络为模型中的映射网络,含有输入层,隐含层,输出层共三层,隐层节点的激励函数为sigmoid函数,输出层节点激励函数为线性函数;至此,就完成了基于深度学习语音增强的无参考语音质量客观评估方法。2.根据权利要求1所述的基于深度学习语音增强的无参考语音质量客观评估方法,其特征在于:步骤一具体为:步骤1.1通过数学变换提取待测失真语音信号特征;步骤1.2基于失真语音与纯净语音数据库基于深度信念网络训练模型进行训练,输出训练好的模型,又称为语音增强模型;其中,...

【专利技术属性】
技术研发人员:王晶单亚慧孟柳晨谢湘费泽松
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1