当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于多尺度通道分离卷积特征提取的说话人聚类方法技术

技术编号:35022007 阅读:29 留言:0更新日期:2022-09-24 22:51
本发明专利技术公开了一种基于多尺度通道分离卷积特征提取的说话人聚类方法,属于声纹识别技术领域,包括以下步骤:将VoxCeleb和AMI数据集切分为训练集、开发集和测试集;对VoxCeleb和AMI数据进行预处理;在ECAPA

【技术实现步骤摘要】
一种基于多尺度通道分离卷积特征提取的说话人聚类方法


[0001]本专利技术涉及声纹识别
,尤其是一种基于多尺度通道分离卷积特征提取的说话人聚类方法。

技术介绍

[0002]随着现代科技的进步,以人工智能为核心的“类人智慧”不断吸引科研工作者的研究和探讨。说话人日志,也叫说话人分割聚类,是其中语音信号处理的一种非常重要的研究方向,它主要的任务就是在含有多个说话人的音频中分割并聚类提取各自说话人的信息,并识别说话人的边界和身份,将相同的说话人被单独标记成一类。说话人日志领域应用非常广泛,例如可以利用说话人聚类技术对音频文件进行特定人音频检索,为构建和索引说话人音频档案提供有用信息,对语音库中的录制语音进行自动切分标注和建立索引;可以为长时间的会议音频提供“日志”,方便以后的查证和学习;也可以提高“智能音响”等一些电子智能设备在分离说话人方面的性能。说话人分割聚类是声纹识别的一个必要的前端处理,对提高声纹识别率有很大的帮助。而降低分割聚类的错误率,说话人的嵌入式向量起着关键性的作用。
[0003]在声纹领域,关于声纹特征提取方面,传统的统计模型和机器学习方法依然占很大比重。通过传统方法提取到的低维特征参数,如梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)、线性预测倒谱系数(LinearPredictiveCepstralCoefficient,LPCC)、线性预测分析(LinearPredictionCoefficients,LPC)等,然后传统的概率模型对这些低维特征参数进行识别,如隐马尔可夫模型(HiddenMarkovModel,HMM)、高斯混合模型(GaussianMixtureModel,GMM)、高斯混合模型-通用背景模型(GaussianMixtureModel—UniversalBackgroundModel,UBM)等。虽然这些特征参数可以表示一些基本的特征,但是都是低维特征,而且都是以概率模型去估计特性信息,当数据集非常大时,就会出现严重的误差。但随着大数据和互联网的飞速发展,在声纹领域对深度学习的研究引起科研人员的关注。同时,在说话人的任务中,基于卷积神经网络的技术方法也在一定程度上逐渐超过了传统的因子分析框架。
[0004]目前有许多基于深度学习的卷积神经网络用于音频嵌入式向量的提取,其中ECAPA

TDNN神经网络框架是一种主流的特征提取模型之一,因为其不仅仅可以利用卷积对局部和全局的特征进行提取,同时也可以利用上下文的信息,训练速度快。但是通过在卷积神经网络中增加层数的深度和宽度并不能更深层次地进行特征提取,而Res2Net和HS

net都是引入另外一个维度:多尺度,从通道切分拼接再卷积的角度对特征提取,由于对非相邻通道间并没有做关联操作,可能会存在信息丢失的风险。

技术实现思路

[0005]本专利技术需要解决的技术问题是提供一种基于多尺度通道分离卷积特征提取的说话人聚类方法,通过建立多尺度通道之间的分离卷积,能够提取到具有判别性的声纹特征,
并在谱聚类算法上取得良好的效果,以相对较小的参数量为代价取得了更低的分割聚类错误率。
[0006]为解决上述技术问题,本专利技术所采用的技术方案是:
[0007]一种基于多尺度通道分离卷积特征提取的说话人聚类方法,包括以下步骤:
[0008]步骤1:将VoxCeleb和AMI数据集切分为训练集、验证集和测试集;
[0009]步骤2:对VoxCeleb和AMI数据进行预处理;
[0010]步骤3:在ECAPA

TDNN网络框架的基础上搭建多尺度通道分离卷积模块,对ECAPA

TDNN网络框架中的Res2Net多尺度特征提取模块进行改进;
[0011]步骤4:选用AAM

softmax损失函数对模型进行多次训练得到最优模型;
[0012]步骤5:利用多尺度通道分离卷积模型对AMI会议数据提取特征,并运用谱聚类进行聚类分析;
[0013]步骤6:使用标准的分割聚类错误率DER对聚类结果打分。
[0014]本专利技术技术方案的进一步改进在于:步骤2中,对用于模型评估的 VoxCeleb数据集和说话人聚类的AMI数据集进行预加重、分帧、加窗、快速傅里叶变换、Mel三角滤波、计算对数能量和离散余弦变换,具体包括以下步骤:
[0015]步骤2.1:对输入的语音信号进行预加重,通过一阶高通滤波器来实现,所述一阶滤波器的传递函数模型表示为:
[0016]H(z)=1

tz
‑1[0017]其中,H(z)为预加重函数,z表示变换域变量,t为预加重系数,并且0.9<t<1.0;
[0018]步骤2.2:对预加重后的语音信号进行分帧,设置在相邻的两帧之间有一部分重叠,应用汉明窗模型,所述汉明窗模型的表达方式为:
[0019][0020]其中w(n)是汉明窗函数,N是每帧的样本数,n为时域离散刻度;
[0021]步骤2.3:对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱,表示为:
[0022][0023]其中,x(n)为每一帧时域采样信号,X(k)为语音的频谱,N为离散傅里叶变换区间长度,k为频域离散刻度,n为时域离散刻度;
[0024]步骤2.4:对步骤2.3中得到的频谱信号平滑化,并消除谐波,进行Mel 三角滤波,所述的三角滤波器的频率响应表示为:
[0025][0026]其中,H
m
(k)是三角滤波后的频率响应,m表示第m个滤波器,f(m)表示第m个滤波器
输出的频率大小;
[0027]步骤2.5:对三角滤波后的频域信号计算对数能量,表示为:
[0028][0029]其中,s(m)为滤波后的对数能量;
[0030]步骤2.6:对数能量经过离散余弦变换(DCT)得到最后的80维MFCC 系数,离散余弦变换的表达公式为:
[0031][0032]其中,M是三角滤波器的个数,L为MFCC系数的阶数。
[0033]本专利技术技术方案的进一步改进在于:步骤3中,具体包括以下步骤:
[0034]步骤3.1:搭建单个多尺度通道分离卷积特征提取基本块,在第一个TDNN 卷积层后将通道分为8份,每一份都经历一个卷积,然后将卷积后的特征按照通道拼接,再通过一个TDNN卷积层进行特征融合;
[0035]步骤3.2:搭建多尺度通道分离卷积特征提取模块,将预处理后得到的80 维MFCC特征经过1x1的卷积后,接入3个连续的多尺度通道分离卷积特征提取基本块,然后将每一个块得到的输出进行通道拼接,最后经过1x1卷积完成特征融合;
[0036]步骤3.3:将得到的多尺度通道分离卷积特征提取模块接入一个统计池化层,获得全局和局部的均值和方差,通过一个softm本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度通道分离卷积特征提取的说话人聚类方法,其特征在于:包括以下步骤:步骤1:将VoxCeleb和AMI数据集切分为训练集、验证集和测试集;步骤2:对VoxCeleb和AMI数据进行预处理;步骤3:在ECAPA

TDNN网络框架的基础上搭建多尺度通道分离卷积模块,对ECAPA

TDNN网络框架中的Res2Net多尺度特征提取模块进行改进;步骤4:选用AAM

softmax损失函数对模型进行多次训练得到最优模型;步骤5:利用多尺度通道分离卷积模型对AMI会议数据提取特征,并运用谱聚类进行聚类分析;步骤6:使用标准的分割聚类错误率DER对聚类结果打分。2.根据权利要求1所述的一种基于多尺度通道分离卷积特征提取的说话人聚类方法,其特征在于:步骤2中,对用于模型评估的VoxCeleb数据集和说话人聚类的AMI数据集进行预加重、分帧、加窗、快速傅里叶变换、Mel三角滤波、计算对数能量和离散余弦变换,具体包括以下步骤:步骤2.1:对输入的语音信号进行预加重,通过一阶高通滤波器来实现,所述一阶滤波器的传递函数模型表示为:H(z)=1

tz
‑1其中,H(z)为预加重函数,z表示变换域变量,t为预加重系数,并且0.9<t<1.0;步骤2.2:对预加重后的语音信号进行分帧,设置在相邻的两帧之间有一部分重叠,应用汉明窗模型,所述汉明窗模型的表达方式为:其中w(n)是汉明窗函数,N是每帧的样本数,n为时域离散刻度;步骤2.3:对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱,表示为:其中,x(n)为每一帧时域采样信号,X(k)为语音的频谱,N为离散傅里叶变换区间长度,k为频域离散刻度,n为时域离散刻度;步骤2.4:对步骤2.3中得到的频谱信号平滑化,并消除谐波,进行Mel三角滤波,所述的三角滤波器的频率响应表示为:其中,H
m
(k)是三角滤波后的频率响应,m表示第m个滤波器,f(m)表示第m个滤波器输出的频率大小;
步骤2.5:对三角滤波后的频域信号计算对数能量,表示为:其中,s(m)为滤波后的对数能量;步骤2.6:对数能量经过离散余弦变换(DCT)得到最后的80维MFCC系数,离散余弦变换的表达公式为:其中,M是三角滤波器的个数,L为MFCC系数的阶数。3.根据权利要求1所述的一种基于多尺度通道分离卷积特征提取的说话人聚类方法,其特征在于:步骤3中,具体包括以下步骤:步骤3.1:搭建单个多尺度通道分离卷积特征提取基本块,在第一个TDNN卷积层后将通道分为8份,每一份都经历一个卷积,然后将卷积后的特征按照通道拼接,再通过一个TDNN卷积层进行特征融合;步骤3.2:搭建多尺度通道分离卷积特征提取模块,将预处理后得到的80维MFCC特征经过1x1的卷积后,接入3个连续的多尺度通道分离卷积特征提取基本块,然后将每...

【专利技术属性】
技术研发人员:李海滨张晓龙李雅倩肖存军
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1