The present invention discloses an objective speech quality evaluation method based on deep learning speech enhancement, which belongs to the technical field of speech quality evaluation. This method is divided into three steps: first to be tested after speech training has been good speech enhancement based on a deep belief network model, get the enhanced speech signal; then, we extract enhanced Mel cepstral coefficients before and after the signal of the two differential coefficient; finally the parameters as input, through the BP nerve the second layer network model, mapping objective score eventually, thus achieving the objective evaluation of speech quality without reference. Compared with the previous non reference speech quality assessment model, the proposed method has better correlation with subjective quality score and smaller mean square error.
【技术实现步骤摘要】
基于深度学习语音增强的无参考语音质量客观评估方法
本专利技术涉及基于深度信念网络的语音增强技术以及人工神经网络客观评估指标映射技术,尤其涉及基于深度学习语音增强的无参考语音质量客观评估方法,属于语音质量评价
技术介绍
随着科技的发展,语音通信已经成为通信学必不可少的一部分了。从电话通信到VoIP,语音通信渗透到了我们生活的很多方面。由于在语音通信的传输过程中,信道对于语音的压缩,调制解调以及噪声干扰都会大大降低语音质量,从而降低人的听觉感受。为了能够设计出传输性能良好的通信系统,判断语音通信系统的性能就成为了很关键的环节。语音质量评价方法根据评价主体的不同分为客观评价和主观评价方法。主观评价方法是人为判断一段语音的优劣并对其评分。一般的,我们将主观评价方法分为以下几种,ITU-TP.800和P.830建议书中给出的平均意见分方法(MOS),ANSIS3.2-1989标准判别音韵测试方法(DRT),以及Dynastat公司推出的判别满意度测试方法(DAM)。语音质量主观评价方法在很多场合都有应用,尤其是语音编码以及语音合成。虽然主观评价往往可以提供准确的结果,但是实现主观评价需要大量的实验人员,并对他们进行培训,操作复杂,耗时耗力。由于语音主观评价遇到的种种困难,研究人员将研究重心放在了只利用机器就可以进行语音评价的客观评价方法。客观评价方法主要分为有参考的基于输入-输出的评价模型,以及无参考的基于输出的评价模型。近几十年来,研究者一直集中研究有参考的评价算法上并获得了飞速的进展。PESQ算法是由英国电信(BT)和KPN共同开发的,2001年是被认 ...
【技术保护点】
基于深度学习语音增强的无参考语音质量客观评估方法,其特征在于:基本思路是:首先,将待测的失真语音信号,即增强前信号经过训练好的基于深度信念网络的语音增强模型,得到增强后信号;然后,计算出增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,再做两个系数的差;最后将两个系数的差作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价;深度信念网络模型利用失真语音与纯净语音数据库训练得到,BP神经网络利用主观测试数据训练得到,主观测试分数使用的是MOS分数;具体实施步骤如下:步骤一、提取待测失真语音信号的特征,再输入训练好的基于深度信念网络的语音增强模型,得到增强后信号;其中,待测失真语音信号又称为增强前信号;待测失真语音信号,即增强前信号中包含很多条语音信号;相应的增强后信号中也包含多条语音信号;步骤一到步骤三均以单条语音为处理单位进行整体处理;步骤二、计算出步骤一中的增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,将增强前信号的MFCC系数及增强后信号的MFCC系数做差并作为后续映射模型的输入;步骤三、将步骤二得到的增强前后信号MFCC系数的差值作为 ...
【技术特征摘要】
1.基于深度学习语音增强的无参考语音质量客观评估方法,其特征在于:基本思路是:首先,将待测的失真语音信号,即增强前信号经过训练好的基于深度信念网络的语音增强模型,得到增强后信号;然后,计算出增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,再做两个系数的差;最后将两个系数的差作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价;深度信念网络模型利用失真语音与纯净语音数据库训练得到,BP神经网络利用主观测试数据训练得到,主观测试分数使用的是MOS分数;具体实施步骤如下:步骤一、提取待测失真语音信号的特征,再输入训练好的基于深度信念网络的语音增强模型,得到增强后信号;其中,待测失真语音信号又称为增强前信号;待测失真语音信号,即增强前信号中包含很多条语音信号;相应的增强后信号中也包含多条语音信号;步骤一到步骤三均以单条语音为处理单位进行整体处理;步骤二、计算出步骤一中的增强前信号和增强后信号的MFCC系数,即梅尔倒谱系数,将增强前信号的MFCC系数及增强后信号的MFCC系数做差并作为后续映射模型的输入;步骤三、将步骤二得到的增强前后信号MFCC系数的差值作为输入,通过BP神经网络模型,映射为最终的客观分数,由此实现无参考的语音质量客观评价;其中,BP神经网络为模型中的映射网络,含有输入层,隐含层,输出层共三层,隐层节点的激励函数为sigmoid函数,输出层节点激励函数为线性函数;至此,就完成了基于深度学习语音增强的无参考语音质量客观评估方法。2.根据权利要求1所述的基于深度学习语音增强的无参考语音质量客观评估方法,其特征在于:步骤一具体为:步骤1.1通过数学变换提取待测失真语音信号特征;步骤1.2基于失真语音与纯净语音数据库基于深度信念网络训练模型进行训练,输出训练好的模型,又称为语音增强模型;其中,...
【专利技术属性】
技术研发人员:王晶,单亚慧,孟柳晨,谢湘,费泽松,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。