一种基于声学特性的合成语音识别方法技术

技术编号：37167725 阅读：25 留言：0更新日期：2023-04-20 22:40

本发明专利技术提供一种基于声学特性的合成语音识别方法。所述基于声学特性的合成语音识别方法包括以下步骤：S1：连接FFV特征、RMSA特征，随后一同输入至DNN模型中；S2：利用DNN模型对其进行深度表示；S3：将SNS特征依次通过Spec

全部详细技术资料下载

【技术实现步骤摘要】
一种基于声学特性的合成语音识别方法

[0001]本专利技术涉及语音识别
，尤其涉及一种基于声学特性的合成语音识别方法。

技术介绍

[0002]目前主流识别模型主要是DNN、CNN和RNN类型的模型或是在前者基础上改进得到的模型，通过独立使用或是组合使用，都能实现对合成语音的识别的目的。
[0003]部分研究者除上述模型还利用了其他的优化模型技术，通过引入注意力机制在一定程度上能够提高现有时间序列模型、卷积网络模型等的表现性能，极大的改善了现有模型的不足，且能节省机器计算量，减少运算成本。如LiX等人提出SE通道注意力模块与Res2Net网络模型的结合，输入CQT谱图特征开展合成语音识别；MaX等人提出轻量卷积网络模型结合四层CBAM注意力模块，使用语谱图特征开展学习训练，进一步开发谱图特征的利用率等。注意力算法的研究已经成为深度学习领域的主流方法和研究热点之一，是神经网络模型逐渐走向瓶颈的发展趋势中的一大飞跃性的提高。
[0004]以上为合成语音识别领域的现有识别模型研究成果，种类繁多，技术先进。但各个模型之间联用较少，相互独立，缺乏可以让不同模型组合使用的统一性框架，且模型搭建过程复杂，实验难度大。
[0005]因此，有必要提供一种新的基于声学特性的合成语音识别方法解决上述技术问题。

技术实现思路

[0006]本专利技术解决的技术问题是提供一种能够帮助机器聚焦声学特征中高价值数据，减少与声学特性无关的噪音数据干扰，有效整合了声学特征中图像型数据和时序型数据，在一定程度上...

【技术保护点】

【技术特征摘要】
1.一种基于声学特性的合成语音识别方法，其特征在于，包括以下步骤：S1：连接FFV特征、RMSA特征，随后一同输入至DNN模型中；S2：利用DNN模型对其进行深度表示；S3：将SNS特征依次通过Spec
‑
Attention模块和MDCN模型进行深度表示；S4：将两者进行连接，输入至全连接层进行二分类输出，最终输出真实或合成。2.根据权利要求1所述的基于声学特性的合成语音识别方法，其特征在于，所述Spec
‑
Attention模块首先对输入的SNS特征图像分别按频率和音段方向进行了切割，即按频率切分得到包含谐波形态特点的切分图像，按音段切分得到包含音素频谱分布特点的切分图像，随后对每个切割图像求取空间、通道注意力并求和得到单个注意力特征图，再经过两次连接，最终得到一张特征的注意力权重分布特征图。3.根据权利要求2所述的基于声学特性的合成语音识别方法，其特征在于，所述Spec
‑
Attention模块中通过对原图F先进行分割，再输入最大、最小汇聚层，再输入至7*7卷积核的卷积层，sigmoid函数归一化后，与原图数据进行点积，输出注意力特征图Ms。4.根据权利要求2所述的基于声学特性的合成语音识别方法，其特征在于，所述Spec
‑
Attention模块中使用的是ECA模块，对分割图像通道进行一维卷积后、归一化处理，完成有选择性的关注。5.根据权利要求1所述的基于声学特性的合成语音识别方法，其特征在于，所述MDCN模型通过改进稠密神...

【专利技术属性】
技术研发人员：胡晓光，周峻林，候晓龙，谢佳宁，杨世欣，
申请(专利权)人：中国人民公安大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人