一种基于多域信息融合的合成语音检测方法技术

技术编号：37669650 阅读：40 留言：0更新日期：2023-05-26 04:30

本申请公开了一种基于多域信息融合的合成语音检测方法，包括：提取待检测的语音信号的多域声学特征；将提取的多域声学特征输入合成语音检测模型，以完成检测，所述合成语音检测模型，基于训练语音数据集，执行训练：分解出所述训练语音数据集中语音数据的有声段部分、静音段部分以及固有模态分量，基于所述语音数据的有声段部分、静音段以及固有模态分量部分，分别提取特征，将提取到的特征级联，作为多域声学特征；将所述训练语音数据集的语音数据的多域声学特征作为所述特征融合器的输入，执行训练；训练后的各浅层分类器、深度分类器用以输出融合的识别结果。本申请实施例通过多种手段综合提升合成语音检测模型的检测能力和泛化应用能力。泛化应用能力。泛化应用能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多域信息融合的合成语音检测方法

[0001]本申请涉及语音检测
，尤其涉及一种基于多域信息融合的合成语音检测方法。

技术介绍

[0002]合成语音检测技术是指通过一定的技术手段对伪造合成的语音进行鉴别，实现真伪语音的区分。目前，合成语音的技术手段主要包括语音合成技术和语音转换技术。语音合成技术实现从文本到语音的生成，语音转换技术实现从某人语音到特定人语音的转换生成。近年来，随着人工智能技术的发展，合成语音的自然度和相似度水平快速提升，提高了对检测技术的迷惑性；此外，合成语音的技术手段日新月异、频繁更新，而大多数合成语音检测技术属于监督性学习方法，如何在实际应用中保证检测模型的泛化能力，也是当下合成语音技术研发的重点方向。
[0003]在合成语音检测技术研究中，一般有两种技术路线：一种是前端提取声学特征，后端进行分类器的训练；另一种是直接以语音信号作为输入，训练端到端的分类网络。在第一种技术路线中，目前常用的声学特征包括梅尔倒谱系数（Mel
‑
Frequency Cepstral Coefficient，MFCC）、线性频率倒谱系数（LFCC, Linear Frequency Cepstral Coefficient）、常数Q变换倒谱系数（CQCC, Constant
‑
QCepstral Coefficient）等，其中LFCC特征在合成语音检测任务中表现突出；而在后端分类器设计方面，高斯混合模型、各类神经网络模型（如卷积神经网络、长短时记忆神经网络、残差神...

【技术保护点】

【技术特征摘要】
1.一种基于多域信息融合的合成语音检测方法，其特征在于，包括如下步骤：获取待检测的语音信号，并提取待检测的语音信号的多域声学特征；将提取的多域声学特征输入合成语音检测模型，以完成检测，其中所述合成语音检测模型包括特征融合器、深度分类器和至少两个浅层分类器，所述合成语音检测模型，基于训练语音数据集，采用如下方式训练获得：在时域上，分割出所述训练语音数据集中语音数据的有声段部分和静音段部分，以及，在时频域，分解出所述语音数据的固有模态分量，基于所述语音数据的有声段部分、静音段部分和固有模态分量，分别提取特征，将提取到的特征级联，作为多域声学特征；将所述训练语音数据集的语音数据的多域声学特征作为所述特征融合器的输入，执行训练，以获得多域声学特征的权重系数；将所述特征融合器的输出作为深度分类器的输入，训练深度分类器，通过预设的交叉熵损失函数计算损失函数值，根据所述损失函数值调整特征融合器和深度分类器的参数，迭代训练；以及，将所述特征融合器的输出作为各浅层分类器的输入，训练浅层分类器；训练后的各浅层分类器、深度分类器用以输出融合的识别结果。2.如权利要求1所述的基于多域信息融合的合成语音检测方法，其特征在于，还包括：获取初始训练语音数据集；对所述初始训练语音数据集中的语音数据进行数据增强，以扩充所述初始训练语音数据集，获得所述训练语音数据集。3.如权利要求1所述的基于多域信息融合的合成语音检测方法，其特征在于，在时域上，分割出所述训练语音数据集中语音数据的有声段部分和静音段部分包括：在时域上，将所述语音数据分割为有声段部分和静音段部分；在时频域，分解出所述语音数据的固有模态分量包括：在时频域上，采用变分模态分解（Variational mode decomposition, VMD）方法对语音进行分解，得到M个固有模态分量；基于所述语音数据的有声段部分、静音段部分和固有模态分量，分别提取特征包括：在时域上，对分解出的语音静音段，提取短时能量和...

【专利技术属性】
技术研发人员：田野，汤跃忠，陈云坤，傅景楠，张晓灿，付泊暘，
申请(专利权)人：中国电子科技集团公司第三研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人