一种灵活离、在线声纹日志系统技术方案

技术编号:38040940 阅读:13 留言:0更新日期:2023-06-30 11:07
本发明专利技术公开了一种灵活离、在线声纹日志系统,包括在线分支,或在线分支和离线分支,在线分支的输出包括每个说话人对应的时间边界和每个说话人对应的声纹,通过离线分支能够获取精确至帧级别的说话人边界。本发明专利技术提供的灵活离、在线声纹日志系统,满足声纹日志在不同使用场景中对实时展示或者高精确度的需求;创新性采用EEND模型实时检测语音中的说话人重叠,避免提取重叠语音的声纹进行聚类;创新性采用Adaptive PLDA模型提升声纹的类内聚合度与类间区分度,在声纹系统的使用过程中不断地纠正PLDA模型参数,使得声纹模型越用越精准;创新性使用目标说话人VAD(TS

【技术实现步骤摘要】
一种灵活离、在线声纹日志系统


[0001]本专利技术属于计算机
,具体涉及一种灵活离、在线声纹日志系统。

技术介绍

[0002]声纹日志技术是语音识别领域中的一个重要分支,它解决对话场景中何时谁在说话的标注问题,因此被广泛应用于会议、课堂教学、司法记录、执法取证等多个场景。声纹日志实质上就是以声纹模型提取对话中的说话人声纹,随后对声纹进行分割聚类,从而确定每个时刻的说话者。根据使用方式的不同,声纹日志可分为在线和离线两种方式,两者的区别在于,在线的方式通过在线聚类的方式实时展示当前的说话者,可部署于终端设备或者实时率要求较高的场景,但是聚类的精度较低,造成在线聚类精度较低的原因主要在于在线聚类无法检测出音频中的语音重叠,而利用重叠的语音提取声纹会造成聚类算法出现大量无法与说话人对应的簇,此外,聚类算法依赖声纹之间的距离测度,若距离测度无法保证足够大的类间距与足够小的类内距,同样造成在线聚类容易产生误分;离线声纹日志需要获取所有的对话片段,随后采用谱聚类或者贝叶斯隐马尔可夫聚类,离线聚类可以兼顾对话中时序或者距离矩阵中不同话者的拓扑关系,虽然准确率高,但是计算复杂度较高,终端设备部署困难,且传统的离线声纹日志系统无法解决语音的重叠部分,因此,对于重叠率较高的使用场景,精度急剧下降。

技术实现思路

[0003]为解决现有技术中存在的技术问题,本专利技术的目的在于提供一种灵活离、在线声纹日志系统。
[0004]为实现上述目的,达到上述技术效果,本专利技术采用的技术方案为:
[0005]一种灵活离、在线声纹日志系统,包括在线分支,或在线分支和离线分支,所述在线分支的输出包括每个说话人对应的时间边界和每个说话人对应的声纹,通过离线分支能够获取精确至帧级别的说话人边界。
[0006]在本专利技术提供的一种灵活离、在线声纹日志系统中,所述在线分支的处理步骤包括:
[0007]S1、获取音频序列;
[0008]S2、对音频序列进行分窗;
[0009]S3、采用EEND输出的说话人概率,确定每一帧是否有说话人以及是否有说话人重叠;
[0010]S4、根据步骤S3中各帧说话人概率切除静音段,切出重叠、非重叠段;其中,对于不包含重叠的语音片段,对其提取声纹并聚类;对于重叠语音,对重叠部分的说话人对应的声纹进行分离,随后对分离的声纹进行聚类,获取重叠段对应的说话人。
[0011]在本专利技术提供的一种灵活离、在线声纹日志系统中,对于不包含重叠的语音片段,对其提取声纹并聚类的步骤包括:
[0012]S9、提取非重叠段的声纹
[0013]声纹模型由Resnet和统计池化层构成,Resnet负责抽象非重叠段的帧级别说话人表示,随后使用统计池化层统计所有帧级别的表示的均值μ与方差σ,将两者拼接之后作为该段语音的声纹:
[0014]E=cat(μ,σ)
[0015]S10、对声纹进行白化
[0016]对声纹E进行ZCA白化以降低步骤S9中声纹的冗余性:
[0017]E
ZCA
=U∧

1/2
U
T
E
[0018]其中,E的协方差矩阵∑的特征值为∧、特征向量为U;
[0019]S11、计算声纹与簇中心的对数似然比;
[0020]S12、根据对数似然比聚类。
[0021]在本专利技术提供的一种灵活离、在线声纹日志系统中,步骤S11中,采用的聚类方式为K

means,每一个簇代表一个说话人,假设簇中心为声纹E
p
与簇中心的对数似然比计算公式为:
[0022][0023]其中,T是PLDA的投影矩阵,Ψ为PLDA模型的协方差,n为簇中的声纹数量。
[0024]在本专利技术提供的一种灵活离、在线声纹日志系统中,当声纹u
p
与簇中心之间的距离大于阈值时,将u
p
加入该簇并更新簇中心否则人为声纹的纯净度不够,不将其加入簇,以免造成数据污染。
[0025]在本专利技术提供的一种灵活离、在线声纹日志系统中,当训练与测试的域不匹配时,在线聚类的同时将已生成的声纹保存并不断自适应PLDA模型,使其更接近使用场景的声纹分布,从而使得声纹日志越用越精准,包括以下步骤:
[0026]S14:输入初始PLDA模型;
[0027]S15:采用Adaptive PLDA算法更新PLDA参数;
[0028]每收集满一定数量的声纹u
p
后,采用Adaptive PLDA算法对PLDA的类间、类内协方差进行更新,使得PLDA的参数更加符合使用场景。
[0029]在本专利技术提供的一种灵活离、在线声纹日志系统中,对于重叠语音,对重叠部分的说话人对应的声纹进行分离,随后对分离的声纹进行聚类,获取重叠段对应的说话人的步骤包括:
[0030]S5、采用声纹模型提取每帧的说话人表征x
t

[0031]S6、计算重叠语音中所有说话人的声纹E
i

[0032]S7、对E
i
进行ZCA白化,随后对白化后的声纹计算与簇中心的对数似然比;
[0033]S8、聚类,随后,整合重叠语音、非重叠语音聚类结果,得到完整音频中说话人的时间标注。
[0034]在本专利技术提供的一种灵活离、在线声纹日志系统中,步骤S6中,根据步骤S2中EEND
模型获取的各帧说话人占比weight
t,i
,分离出重叠语音中第i个说话人均值μ
i
与方差σ
i

[0035][0036][0037]其中,T为说话人表征x
t
的帧数;
[0038]于是得到重叠语音中第i个说话人的声纹E
i
=cat(μ
i

i
)。
[0039]在本专利技术提供的一种灵活离、在线声纹日志系统中,所述离线分支的处理步骤包括:
[0040]S21、获取在线声纹日志的声纹;
[0041]S22、获取音频序列;
[0042]S23、提取音频序列的Fbank特征;
[0043]S24、将步骤S23中的Fbank特征与步骤S21在线声纹日志中各个说话人的声纹拼接作为TS

VAD模型的输入;
[0044]S25:获取在线聚类的结果。
[0045]与现有技术相比,本专利技术的有益效果为:
[0046]1)本专利技术公开了一种灵活离、在线声纹日志系统,满足声纹日志在不同使用场景中对实时展示或者高精确度的需求,若需要实时展示声纹日志的结果,只需进行本专利技术的在线分支,若用户需要后续更精细准确的标注,可在在线分支的基础上使用离线分支进行精细分割聚类;
[0047]2)本专利技术解决了在线声纹日志中语音重叠造成聚类产生异常簇的问题,创新性采用EEND模型实时检测语音中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种灵活离、在线声纹日志系统,其特征在于,包括在线分支,或在线分支和离线分支,所述在线分支的输出包括每个说话人对应的时间边界和每个说话人对应的声纹,通过离线分支能够获取精确至帧级别的说话人边界。2.根据权利要求1所述的一种灵活离、在线声纹日志系统,其特征在于,所述在线分支的处理步骤包括:S1、获取音频序列;S2、对音频序列进行分窗;S3、采用EEND输出的说话人概率,确定每一帧是否有说话人以及是否有说话人重叠;S4、根据步骤S3中各帧说话人概率切除静音段,切出重叠、非重叠段;其中,对于不包含重叠的语音片段,对其提取声纹并聚类;对于重叠语音,对重叠部分的说话人对应的声纹进行分离,随后对分离的声纹进行聚类,获取重叠段对应的说话人。3.根据权利要求2所述的一种灵活离、在线声纹日志系统,其特征在于,对于不包含重叠的语音片段,对其提取声纹并聚类的步骤包括:S9、提取非重叠段的声纹声纹模型由Resnet和统计池化层构成,Resnet负责抽象非重叠段的帧级别说话人表示,随后使用统计池化层统计所有帧级别的表示的均值μ与方差σ,将两者拼接之后作为该段语音的声纹:E=cat(μ,σ)S10、对声纹进行白化对声纹E进行ZCA白化以降低步骤S9中声纹的冗余性:E
ZCA
=U∧

1/2
U
T
E其中,E的协方差矩阵∑的特征值为∧、特征向量为U;S11、计算声纹与簇中心的对数似然比;S12、根据对数似然比聚类。4.根据权利要求3所述的一种灵活离、在线声纹日志系统,其特征在于,步骤S11中,采用的聚类方式为K

means,每一个簇代表一个说话人,假设簇中心为声纹E
p
与簇中心的对数似然比计算公式为:其中,T是PLDA的投影矩阵,Ψ为PLDA模型的协方差,n为簇中的声纹数量。5.根据权利要求3所述的一种灵活离、在线声纹日志系统,其特征在于,当声纹u
p
与簇中心之间的距离大于阈值时,将u
p
加入该簇并更新簇中心否则人为声纹的纯净度不够,不将其加入簇,以免造成数...

【专利技术属性】
技术研发人员:王飞王欢良吴天昕
申请(专利权)人:苏州奇梦者科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1