当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于语音转换的病理嗓音修复方法技术

技术编号:37993468 阅读:11 留言:0更新日期:2023-06-30 10:07
本发明专利技术提供了一种基于语音转换的病理嗓音修复方法,包括对病理说话人的指定语料进行基于参数的修复得到少量修复语音,然后对修复的语音进行MOS打分,选择分数最高的语音作为“伪参考语料”;将“伪参考语料”作为目标语音,输入至音色编码器网络中提取音色;通过内容编码器分离出病理嗓音内容;对音色和病理嗓音内容经过解码器网络进行合成得到修复语音。本发明专利技术选择采用参数修复方法得到少量修复语音作为目标语音输入,结合语音转换技术,实现不受文本约束的病理嗓音修复。文本约束的病理嗓音修复。文本约束的病理嗓音修复。

【技术实现步骤摘要】
一种基于语音转换的病理嗓音修复方法


[0001]本专利技术属于病理嗓音修复
,尤其是涉及一种基于语音转换的病理嗓音修复方法。

技术介绍

[0002]病理嗓音主要是由于声带和喉的各种疾病导致的闭合或振动异常,致使其声学性质发生改变,在临床上表现出不同程度的声音嘶哑、失真等。嗓音疾病会影响人们的语言交流,给人们的生活带来严重的困扰,因此病理嗓音修复的相关研究具有重要的研究意义和实际应用价值。
[0003]目前国内外关于病理嗓音的研究侧重于病理嗓音的检测、识别和分类,鲜有病理嗓音修复方面的研究。病理嗓音诊断治疗的传统方法是主观听觉感知和侵入式方式,然而这需要专业设备和训练有素的专业人员,而且侵入式治疗的不彻底性会对患者的语言表达和听觉感知产生影响,甚至可能会给患者造成心理创伤。随着计算机的普及和声学技术的发展,采用非侵入式方法对病理嗓音进行修复逐渐成为学者们关注的重点,其中采用信号处理、机器学习等方法实现病理嗓音修复是研究的新方向,它具有运行成本低,容易操作等优点。
[0004]病理嗓音修复旨在通过修复病理嗓音中代表个人特色的客观表征以提高语音的可懂度。对于病理嗓音修复研究,主要分为基于声学参数的方法和基于语音转换的方法。
[0005]基于声学参数的方法针对的是声带受损语音的修复,它是通过对病理嗓音基频和共振峰进行提取重构实现的修复,且都有较好的修复效果,病理的可懂度有提高。但是基于参数的修复方法存在的问题是:一、只能对特定的音素进行修复,可修复的文本对象受限;二、修复效率低且不稳定,因此该方法并不能满足实际应用中为嗓音疾病患者提供便利的语音交互的需求。
[0006]近两年人们开始研究利用语音转换技术去提升语音可懂度,目前主要应用于构音障碍,关于声带受损的病理嗓音还未涉及。语音转换是人工智能的一个重要方面。语音转换的目的是在保持语言内容不变的情况下对语音信号的非语言信息进行转换。非语言信息可能包括说话人的身份,口音或发音等。基于语音转换模型的病理嗓音修复实际上是保持说话人身份不变,通过对音色进行改变,以提高病理嗓音的可懂度。目前语音转换技术在构音障碍中取得了一定的应用,但是效果并不理想。
[0007]考虑到上述问题,本专利技术选择采用参数修复方法得到少量修复语音作为目标语音输入,结合语音转换技术,实现不受文本约束的病理嗓音修复。

技术实现思路

[0008]有鉴于此,本专利技术提出了一种基于语音转换的病理嗓音修复方法,通过构建端到端的语音转换模型,达到提高病理嗓音可懂度的目的。
[0009]为达到上述目的,本专利技术的技术方案是这样实现的:
[0010]一种基于语音转换的病理嗓音修复方法,包括如下步骤;
[0011]步骤1:对病理说话人的指定语料进行基于参数的修复得到少量修复语音,然后对修复的语音进行MOS打分,选择分数最高的语音作为“伪参考语料”;
[0012]步骤2:将“伪参考语料”作为目标语音,输入至音色编码器网络中提取音色;
[0013]步骤3:将任意病理语音通过内容编码器分离出病理嗓音内容;
[0014]步骤4:对音色和病理嗓音内容经过解码器网络进行合成得到修复语音。
[0015]进一步的,所述指定语料包括汉语的所有声母和韵母音节。
[0016]进一步的,所述步骤1中,基于参数的修复方法采用小波变换和Hilbert

Huang变换进行基频提取,基于线谱对LSP特征重构共振峰,通过合成基频和共振峰得到修复的语音。
[0017]进一步的,所述步骤2中具体包括如下步骤:
[0018]步骤201:输入的目标语音频谱经L个第一残差模块依次得到不同层次的特征;
[0019]步骤202:经二维卷积和分块得到均值和方差,
[0020],
[0021]其中为分块公式;和为卷积层的权重和偏置;
[0022]步骤203:和生成正态分布,
[0023],
[0024]其中为生成正态分布公式;
[0025]步骤204:对生成的不同的正态分布进行随机采样得到,
[0026];
[0027]其中为随机采样公式,其中;
[0028]步骤205:与通过第一拼接模块相加得到第一拼接特征;为一个大小确定随机生成的可训练参数;
[0029]步骤206:通过第二残差模块得到特征;
[0030]步骤207:经二维卷积和分块得到均值和方差
[0031];
[0032]其中和为卷积层的权重和偏置;
[0033]步骤208:输入的目标语音频谱经L

i个第一残差模块得到特征,通过第二拼接模块得到第二拼接特征;
[0034]步骤209:经二维卷积和分块得到均值和方差,
[0035];其中和 为卷积层的权重和偏置;
[0036]步骤210:和,生成正态分布,
[0037][0038]步骤211:循环次步骤204

210依次得到;
[0039]最终,得到的为所需的音色Z
s

[0040]进一步的,所述步骤3中具体包括如下步骤:
[0041]步骤301:输入的病理嗓音梅尔频谱经填充和一维卷积前向计算得到特征,
[0042];
[0043]其中,为填充公式,为一维卷积公式;
[0044]步骤302:对特征进行实例归一化得到实例归一化特征,计算公式如下
[0045][0046]其中,为的均值和方差,其中;
[0047]步骤303:经激活、平均池化得到特征,
[0048];
[0049]其中,为激活函数,为一维平均池化公式;
[0050]步骤304:和相加得到;
[0051]步骤305:令,循环6次步骤302
ꢀ‑
304依次得到;
[0052]步骤306:经填充和一维卷积前向计算得到均值和方差,最终为代表病理嗓音内容的潜在表征。
[0053]进一步的,所述步骤4中具体包括如下步骤:
[0054]步骤401:依次经填充、一维卷积前向计算和实例归一化得到;
[0055]步骤402:Z
s
先通过全连接处理然后和相加得到,
[0056];
[0057]其中,为附加公式;
[0058]步骤403:依次经激活、填充、一维卷积前向计算和像素重组上采样得到,
[0059];PixelShuffle()为像素重组上采样计
算公式;
[0060]步骤404:经最近邻上采样处理的结果和相加得到
[0061];upsample()为最近邻上采样计算公式;
[0062]其中,;
[0063]步骤405:令,循环6次步骤401
‑ꢀ
404依次得到;
[0064]步骤406:经填充和一维卷积前向计算得到,最终为合成的修复语音。...

【技术保护点】

【技术特征摘要】
1.一种基于语音转换的病理嗓音修复方法,其特征在于:包括如下步骤:步骤1:对病理说话人的指定语料进行基于参数的修复得到少量修复语音,然后对修复的语音进行MOS打分,选择分数最高的语音作为“伪参考语料”;步骤2:将“伪参考语料”作为目标语音,输入至音色编码器网络中提取音色;步骤3:将任意病理语音通过内容编码器分离出病理嗓音内容;步骤4:对音色和病理嗓音内容经过解码器网络进行合成得到修复语音。2.根据权利要求1所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述指定语料包括汉语的所有声母和韵母音节。3.根据权利要求1所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述步骤1中,基于参数的修复方法采用小波变换和Hilbert

Huang变换进行基频提取,基于线谱对LSP特征重构共振峰,通过合成基频和共振峰得到修复的语音。4.根据权利要求1所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述步骤2中具体包括如下步骤:步骤201:输入的目标语音频谱经L个第一残差模块依次得到不同层次的特征;步骤202:经二维卷积和分块得到均值和方差,,其中为分块公式;和为卷积层的权重和偏置;步骤203:和生成正态分布,,其中为生成正态分布公式;步骤204:对生成的不同的正态分布进行随机采样得到,;其中为随机采样公式,其中;步骤205:与通过第一拼接模块相加得到第一拼接特征;为一个大小确定随机生成的可训练参数;步骤206:通过第二残差模块得到特征;步骤207:经二维卷积和分块得到均值和方差;;其中和为卷积层的权重和偏置;
步骤208:输入的目标语音频谱经L

i个第一残差模块得到特征,通过第二拼接模块得到第二拼接特征;步骤209:经二维卷积和分块得到均值和方差,;其中和 为卷积层的权重和偏置;步骤210:和,生成正态分布,;步骤211:循环次步骤204
‑ꢀ
210依次得到;最终,得到的为所需的音色Z
s
。5.根据权利要求4所述的一种基于语音转换的病理嗓音修复方法,其特征在于:所述步骤3中具体包括如下步骤:步骤301:输入的病理嗓音梅尔频谱经填充和一维卷积前向计算得到特征,;其中,为填充公式,为一维卷积公式;步骤302:对特征进行实例归一化得到实例归一化特征,计算公式如下:...

【专利技术属性】
技术研发人员:张涛吕莹刘赣俊赵鑫
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1