一种灵活离、在线声纹日志系统技术方案

技术编号：38040940 阅读：13 留言：0更新日期：2023-06-30 11:07

本发明专利技术公开了一种灵活离、在线声纹日志系统，包括在线分支，或在线分支和离线分支，在线分支的输出包括每个说话人对应的时间边界和每个说话人对应的声纹，通过离线分支能够获取精确至帧级别的说话人边界。本发明专利技术提供的灵活离、在线声纹日志系统，满足声纹日志在不同使用场景中对实时展示或者高精确度的需求；创新性采用EEND模型实时检测语音中的说话人重叠，避免提取重叠语音的声纹进行聚类；创新性采用Adaptive PLDA模型提升声纹的类内聚合度与类间区分度，在声纹系统的使用过程中不断地纠正PLDA模型参数，使得声纹模型越用越精准；创新性使用目标说话人VAD(TS

全部详细技术资料下载

【技术实现步骤摘要】
一种灵活离、在线声纹日志系统

[0001]本专利技术属于计算机
，具体涉及一种灵活离、在线声纹日志系统。

技术介绍

[0002]声纹日志技术是语音识别领域中的一个重要分支，它解决对话场景中何时谁在说话的标注问题，因此被广泛应用于会议、课堂教学、司法记录、执法取证等多个场景。声纹日志实质上就是以声纹模型提取对话中的说话人声纹，随后对声纹进行分割聚类，从而确定每个时刻的说话者。根据使用方式的不同，声纹日志可分为在线和离线两种方式，两者的区别在于，在线的方式通过在线聚类的方式实时展示当前的说话者，可部署于终端设备或者实时率要求较高的场景，但是聚类的精度较低，造成在线聚类精度较低的原因主要在于在线聚类无法检测出音频中的语音重叠，而利用重叠的语音提取声纹会造成聚类算法出现大量无法与说话人对应的簇，此外，聚类算法依赖声纹之间的距离测度，若距离测度无法保证足够大的类间距与足够小的类内距，同样造成在线聚类容易产生误分；离线声纹日志需要获取所有的对话片段，随后采用谱聚类或者贝叶斯隐马尔可夫聚类，离线聚类可以兼顾对话中时序或者距离矩阵中不同话者的拓扑关系，虽然准确率高，但是计算复杂度较高，终端设备部署困难，且传统的离线声纹日志系统无法解决语音的重叠部分，因此，对于重叠率较高的使用场景，精度急剧下降。

技术实现思路

[0003]为解决现有技术中存在的技术问题，本专利技术的目的在于提供一种灵活离、在线声纹日志系统。
[0004]为实现上述目的，达到上述技术效果，本专利技术采用的技术方案为：
[0005]...

【技术保护点】

【技术特征摘要】
1.一种灵活离、在线声纹日志系统，其特征在于，包括在线分支，或在线分支和离线分支，所述在线分支的输出包括每个说话人对应的时间边界和每个说话人对应的声纹，通过离线分支能够获取精确至帧级别的说话人边界。2.根据权利要求1所述的一种灵活离、在线声纹日志系统，其特征在于，所述在线分支的处理步骤包括：S1、获取音频序列；S2、对音频序列进行分窗；S3、采用EEND输出的说话人概率，确定每一帧是否有说话人以及是否有说话人重叠；S4、根据步骤S3中各帧说话人概率切除静音段，切出重叠、非重叠段；其中，对于不包含重叠的语音片段，对其提取声纹并聚类；对于重叠语音，对重叠部分的说话人对应的声纹进行分离，随后对分离的声纹进行聚类，获取重叠段对应的说话人。3.根据权利要求2所述的一种灵活离、在线声纹日志系统，其特征在于，对于不包含重叠的语音片段，对其提取声纹并聚类的步骤包括：S9、提取非重叠段的声纹声纹模型由Resnet和统计池化层构成，Resnet负责抽象非重叠段的帧级别说话人表示，随后使用统计池化层统计所有帧级别的表示的均值μ与方差σ，将两者拼接之后作为该段语音的声纹：E＝cat(μ,σ)S10、对声纹进行白化对声纹E进行ZCA白化以降低步骤S9中声纹的冗余性：E
ZCA
＝U∧
‑
1/2
U
T
E其中，E的协方差矩阵∑的特征值为∧、特征向量为U；S11、计算声纹与簇中心的对数似然比；S12、根据对数似然比聚类。4.根据权利要求3所述的一种灵活离、在线声纹日志系统，其特征在于，步骤S11中，采用的聚类方式为K
‑
means，每一个簇代表一个说话人，假设簇中心为声纹E
p
与簇中心的对数似然比计算公式为：其中，T是PLDA的投影矩阵，Ψ为PLDA模型的协方差，n为簇中的声纹数量。5.根据权利要求3所述的一种灵活离、在线声纹日志系统，其特征在于，当声纹u
p
与簇中心之间的距离大于阈值时，将u
p
加入该簇并更新簇中心否则人为声纹的纯净度不够，不将其加入簇，以免造成数...

【专利技术属性】
技术研发人员：王飞，王欢良，吴天昕，
申请(专利权)人：苏州奇梦者科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人