【技术实现步骤摘要】
一种基于多尺度通道分离卷积特征提取的说话人聚类方法
[0001]本专利技术涉及声纹识别
,尤其是一种基于多尺度通道分离卷积特征提取的说话人聚类方法。
技术介绍
[0002]随着现代科技的进步,以人工智能为核心的“类人智慧”不断吸引科研工作者的研究和探讨。说话人日志,也叫说话人分割聚类,是其中语音信号处理的一种非常重要的研究方向,它主要的任务就是在含有多个说话人的音频中分割并聚类提取各自说话人的信息,并识别说话人的边界和身份,将相同的说话人被单独标记成一类。说话人日志领域应用非常广泛,例如可以利用说话人聚类技术对音频文件进行特定人音频检索,为构建和索引说话人音频档案提供有用信息,对语音库中的录制语音进行自动切分标注和建立索引;可以为长时间的会议音频提供“日志”,方便以后的查证和学习;也可以提高“智能音响”等一些电子智能设备在分离说话人方面的性能。说话人分割聚类是声纹识别的一个必要的前端处理,对提高声纹识别率有很大的帮助。而降低分割聚类的错误率,说话人的嵌入式向量起着关键性的作用。
[0003]在声纹领域,关于声纹特征提取方面,传统的统计模型和机器学习方法依然占很大比重。通过传统方法提取到的低维特征参数,如梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)、线性预测倒谱系数(LinearPredictiveCepstralCoefficient,LPCC)、线性预测分析(LinearPredictionCoefficients,LPC)等,然后传统的概率模型对这些低 ...
【技术保护点】
【技术特征摘要】
1.一种基于多尺度通道分离卷积特征提取的说话人聚类方法,其特征在于:包括以下步骤:步骤1:将VoxCeleb和AMI数据集切分为训练集、验证集和测试集;步骤2:对VoxCeleb和AMI数据进行预处理;步骤3:在ECAPA
‑
TDNN网络框架的基础上搭建多尺度通道分离卷积模块,对ECAPA
‑
TDNN网络框架中的Res2Net多尺度特征提取模块进行改进;步骤4:选用AAM
‑
softmax损失函数对模型进行多次训练得到最优模型;步骤5:利用多尺度通道分离卷积模型对AMI会议数据提取特征,并运用谱聚类进行聚类分析;步骤6:使用标准的分割聚类错误率DER对聚类结果打分。2.根据权利要求1所述的一种基于多尺度通道分离卷积特征提取的说话人聚类方法,其特征在于:步骤2中,对用于模型评估的VoxCeleb数据集和说话人聚类的AMI数据集进行预加重、分帧、加窗、快速傅里叶变换、Mel三角滤波、计算对数能量和离散余弦变换,具体包括以下步骤:步骤2.1:对输入的语音信号进行预加重,通过一阶高通滤波器来实现,所述一阶滤波器的传递函数模型表示为:H(z)=1
‑
tz
‑1其中,H(z)为预加重函数,z表示变换域变量,t为预加重系数,并且0.9<t<1.0;步骤2.2:对预加重后的语音信号进行分帧,设置在相邻的两帧之间有一部分重叠,应用汉明窗模型,所述汉明窗模型的表达方式为:其中w(n)是汉明窗函数,N是每帧的样本数,n为时域离散刻度;步骤2.3:对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱,表示为:其中,x(n)为每一帧时域采样信号,X(k)为语音的频谱,N为离散傅里叶变换区间长度,k为频域离散刻度,n为时域离散刻度;步骤2.4:对步骤2.3中得到的频谱信号平滑化,并消除谐波,进行Mel三角滤波,所述的三角滤波器的频率响应表示为:其中,H
m
(k)是三角滤波后的频率响应,m表示第m个滤波器,f(m)表示第m个滤波器输出的频率大小;
步骤2.5:对三角滤波后的频域信号计算对数能量,表示为:其中,s(m)为滤波后的对数能量;步骤2.6:对数能量经过离散余弦变换(DCT)得到最后的80维MFCC系数,离散余弦变换的表达公式为:其中,M是三角滤波器的个数,L为MFCC系数的阶数。3.根据权利要求1所述的一种基于多尺度通道分离卷积特征提取的说话人聚类方法,其特征在于:步骤3中,具体包括以下步骤:步骤3.1:搭建单个多尺度通道分离卷积特征提取基本块,在第一个TDNN卷积层后将通道分为8份,每一份都经历一个卷积,然后将卷积后的特征按照通道拼接,再通过一个TDNN卷积层进行特征融合;步骤3.2:搭建多尺度通道分离卷积特征提取模块,将预处理后得到的80维MFCC特征经过1x1的卷积后,接入3个连续的多尺度通道分离卷积特征提取基本块,然后将每...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。