一种基于声学特性的合成语音识别方法技术

技术编号:37167725 阅读:25 留言:0更新日期:2023-04-20 22:40
本发明专利技术提供一种基于声学特性的合成语音识别方法。所述基于声学特性的合成语音识别方法包括以下步骤:S1:连接FFV特征、RMSA特征,随后一同输入至DNN模型中;S2:利用DNN模型对其进行深度表示;S3:将SNS特征依次通过Spec

【技术实现步骤摘要】
一种基于声学特性的合成语音识别方法


[0001]本专利技术涉及语音识别
,尤其涉及一种基于声学特性的合成语音识别方法。

技术介绍

[0002]目前主流识别模型主要是DNN、CNN和RNN类型的模型或是在前者基础上改进得到的模型,通过独立使用或是组合使用,都能实现对合成语音的识别的目的。
[0003]部分研究者除上述模型还利用了其他的优化模型技术,通过引入注意力机制在一定程度上能够提高现有时间序列模型、卷积网络模型等的表现性能,极大的改善了现有模型的不足,且能节省机器计算量,减少运算成本。如LiX等人提出SE通道注意力模块与Res2Net网络模型的结合,输入CQT谱图特征开展合成语音识别;MaX等人提出轻量卷积网络模型结合四层CBAM注意力模块,使用语谱图特征开展学习训练,进一步开发谱图特征的利用率等。注意力算法的研究已经成为深度学习领域的主流方法和研究热点之一,是神经网络模型逐渐走向瓶颈的发展趋势中的一大飞跃性的提高。
[0004]以上为合成语音识别领域的现有识别模型研究成果,种类繁多,技术先进。但各个模型之间联用较少,相互独立,缺乏可以让不同模型组合使用的统一性框架,且模型搭建过程复杂,实验难度大。
[0005]因此,有必要提供一种新的基于声学特性的合成语音识别方法解决上述技术问题。

技术实现思路

[0006]本专利技术解决的技术问题是提供一种能够帮助机器聚焦声学特征中高价值数据,减少与声学特性无关的噪音数据干扰,有效整合了声学特征中图像型数据和时序型数据,在一定程度上利用跨模态数据综合完成了目标任务的基于声学特性的合成语音识别方法。
[0007]为解决上述技术问题,本专利技术提供的基于声学特性的合成语音识别方法包括:以下步骤:
[0008]S1:连接FFV特征、RMSA特征,随后一同输入至DNN模型中;
[0009]S2:利用DNN模型对其进行深度表示;
[0010]S3:将SNS特征依次通过Spec

Attention模块和MDCN模型进行深度表示;
[0011]S4:将两者进行连接,输入至全连接层进行二分类输出,最终输出真实或合成。
[0012]优选的,所述Spec

Attention模块首先对输入的SNS特征图像分别按频率和音段方向进行了切割,即按频率切分得到包含谐波形态特点的切分图像,按音段切分得到包含音素频谱分布特点的切分图像,随后对每个切割图像求取空间、通道注意力并求和得到单个注意力特征图,再经过两次连接,最终得到一张特征的注意力权重分布特征图。
[0013]优选的,所述Spec

Attention模块中通过对原图F先进行分割,再输入最大、最小汇聚层,再输入至7*7卷积核的卷积层,sigmoid函数归一化后,与原图数据进行点积,输出
注意力特征图Mss。
[0014]优选的,所述Spec

Attention模块中通道注意力部分使用的是ECA模块,对分割图像通道进行一维卷积后、归一化处理,完成有选择性的关注。
[0015]优选的,所述MDCN模型通过改进稠密神经网络模型中的稠密块,以最大特征映射MFM1/2操作融入稠密块的每一层卷积之后、过渡层的最后一层,得到最大稠密块与最大过渡层。
[0016]优选的,所述最大稠密块输入和最大过渡层输入首先经过一层批标准化层,再经过一层Relu激活函数,输入至3*3的卷积层之中,接着通过MFM1/2层对卷积过后的特征进行关键信息激活。
[0017]优选的,首先经过一层具有64个3*3卷积核、步长为1的卷积层之后,再经过一层批标准化层与最大汇聚层输入至稠密连接的最大稠密块之中;MDCN模型中包含三次最大稠密块与最大过渡层,其中每一个最大稠密块包含3次卷积、MFM1/2计算;经过了三次稠密式连接计算后,再通过一层批标准化层与全局平均汇聚层,最终输入全连接层,实现二分类输出。
[0018]优选的,依据前章实验结果得到目标任务所需数据特点;依据目标所需数据特点,设计特定性算法;提取语音声学数据;利用特定算法对声学数据进行处理;对数据进行变换,以突显出数据中的关键特质,突出数据的高价值部分,弱化冗余数据,最终表征出对合成语音识别任务具有针对性的特征。
[0019]优选的,选取反映出音强离散程度、基频离散程度、语音频谱特性的声学特征,分别为均方根能量夹角特征RMSA、FFV、SNS,其中RMSA与FFV特征为时域特征,包含时序信息,SNS特征为频域特征,包含频谱信息。
[0020]与相关技术相比较,本专利技术提供的基于声学特性的合成语音识别方法具有如下有益效果:
[0021]本专利技术提供一种基于声学特性的合成语音识别方法,通过合成语音和真实语音的声学特性差异。通过比对分析合成语音和真实语音在基频、音强、频谱图等声学特性上的表现,分析差异,得出规律性结论,解释了合成语音可以被识别的声学原理,为进一步的自动识别提供了理论依据。
[0022]通过表征音强离散程度的声学特征RMSA。该特征量化和表征了合成语音和真实语音在音强变化率上的差异,并和FFV特征及SNS特征融合后作为输入识别模型的高维特征,为合成语音识别提供了新的特征设计思路。
[0023]通过最大稠密卷积神经网络模型MDCN。在构造稠密卷积神经网络的稠密块时,使用了最大特征映射函数,在保留模型稠密式连接、减少信息遗忘的同时,也强化了卷积神经元所学内容中的有效信息,为提高分类识别能力提供了良好的模型。
[0024]通过名为Spec

AttentionBlock的注意力模块。依据语音谐波形态和单个音素频谱的分布切分窄带频谱图,对精细化分割后的结果从空间及通道两个维度进行选择性关注,使模型更加聚焦于可区分合成和真实语音上的谐波位置和频谱宽泛程度,增强了模型对语音声学特性的感知,进一步提高了识别能。
附图说明
[0025]图1为本专利技术提供的基于声学特性的合成语音识别方法的原理框图;
[0026]图2为本专利技术提供的基于声学特性的合成语音识别方法的特征化声学特性过程图;
[0027]图3为本专利技术提供的基于声学特性的合成语音识别方法的滤波器组的滤波图;
[0028]图4为本专利技术提供的基于声学特性的合成语音识别方法MDCN模型中的稠密块与过渡层结构图;
[0029]图5为本专利技术提供的基于声学特性的合成语音识别方法的Spec

AttentionBlock的原理图。
具体实施方式
[0030]下面结合附图和实施方式对本专利技术作进一步说明。
[0031]请结合参阅图1、图2、图3、图4和图5,其中,图1为本专利技术提供的基于声学特性的合成语音识别方法的原理框图;图2为本专利技术提供的基于声学特性的合成语音识别方法的特征化声学特性过程图;
[0032]图3为本专利技术提供的基于声学特性的合成语音识别方法的滤波器组的滤波图;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于声学特性的合成语音识别方法,其特征在于,包括以下步骤:S1:连接FFV特征、RMSA特征,随后一同输入至DNN模型中;S2:利用DNN模型对其进行深度表示;S3:将SNS特征依次通过Spec

Attention模块和MDCN模型进行深度表示;S4:将两者进行连接,输入至全连接层进行二分类输出,最终输出真实或合成。2.根据权利要求1所述的基于声学特性的合成语音识别方法,其特征在于,所述Spec

Attention模块首先对输入的SNS特征图像分别按频率和音段方向进行了切割,即按频率切分得到包含谐波形态特点的切分图像,按音段切分得到包含音素频谱分布特点的切分图像,随后对每个切割图像求取空间、通道注意力并求和得到单个注意力特征图,再经过两次连接,最终得到一张特征的注意力权重分布特征图。3.根据权利要求2所述的基于声学特性的合成语音识别方法,其特征在于,所述Spec

Attention模块中通过对原图F先进行分割,再输入最大、最小汇聚层,再输入至7*7卷积核的卷积层,sigmoid函数归一化后,与原图数据进行点积,输出注意力特征图Ms。4.根据权利要求2所述的基于声学特性的合成语音识别方法,其特征在于,所述Spec

Attention模块中使用的是ECA模块,对分割图像通道进行一维卷积后、归一化处理,完成有选择性的关注。5.根据权利要求1所述的基于声学特性的合成语音识别方法,其特征在于,所述MDCN模型通过改进稠密神...

【专利技术属性】
技术研发人员:胡晓光周峻林候晓龙谢佳宁杨世欣
申请(专利权)人:中国人民公安大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1