语音检测方法、电子设备及计算机存储介质技术

技术编号：34357254 阅读：29 留言：0更新日期：2022-07-31 06:49

本申请实施例提供了一种语音检测方法、电子设备及计算机存储介质，其中，语音检测方法包括：获取待检测的音频数据对应的多个音频帧向量，其中，所述音频数据中包含有至少一个说话人对应的语音数据；对所述多个音频帧向量进行聚类，获得特征聚类结果；从所述特征聚类结果中确定出目标说话人对应的特征向量，并基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码，根据掩码结果获得所述目标说话人的音频帧向量。通过本申请实施例，使得提取出的目标说话人的音频帧向量能够准确地代表目标说话人的声音，实现目标说话人音频的精准分离。精准分离。精准分离。

Voice detection method, electronic equipment and computer storage medium

全部详细技术资料下载

【技术实现步骤摘要】
语音检测方法、电子设备及计算机存储介质

[0001]本申请实施例涉及计算机
，尤其涉及一种语音检测方法、电子设备及计算机存储介质。

技术介绍

[0002]随着智能语音技术的发展，越来越多的领域和服务将其作为基础功能加以使用。在智能语音技术中，说话人日志(Speaker Diarization)技术是其中的一个重要组成部分。说话人日志技术是给定一段多人交流的音频(通常为单通道口语对话语音，有较多的多人混叠片段)，由计算机自动地识别出音频中有几个说话人，并检测出音频中每个说话人发言的起止时间戳，解决“谁在什么时候说话”的问题的一种技术。在一种应用场景中，希望通过说话人日志技术，将会议或多人说话的一段音频中，每个说话人的声音和说话内容区分出来，为后续应用提供基础。
[0003]传统方式中，多采用将一个完整音频切分为多个音频分段，然后针对每一个音频分段，利用预先训练好的机器学习模型进行说话人特征提取的方式。但在实际应用中，一个音频片段中可能包含多个说话人的声音和噪声。因此，在某个音频片段中提取出的说话人特征难以代表真实的说话人声音，导致将不同说话人，尤其是目标说话人的音频分离出来的效果很差。

技术实现思路

[0004]有鉴于此，本申请实施例提供一种语音检测方案，以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面，提供了一种语音检测方法，包括：获取待检测的音频数据对应的多个音频帧向量，其中，所述音频数据中包含有至少一个说话人对应的语音数据；对所述多个音频帧向量进行聚类，获得特...

【技术保护点】

【技术特征摘要】
1.一种语音检测方法，包括：获取待检测的音频数据对应的多个音频帧向量，其中，所述音频数据中包含有至少一个说话人对应的语音数据；对所述多个音频帧向量进行聚类，获得特征聚类结果；从所述特征聚类结果中确定出目标说话人对应的特征向量，并基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码，根据掩码结果获得所述目标说话人的音频帧向量。2.根据权利要求1所述的方法，其中，所述基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码，包括：将所述目标说话人对应的特征向量和所述多个音频帧向量输入掩码预测网络，获得所述掩码预测网络输出的、针对每个音频帧的掩码标签；根据所述掩码标签对所述多个音频帧向量进行掩码，获得掩码结果。3.根据权利要求2所述的方法，其中，所述掩码标签包括：用于指示每个音频帧对应的特征向量是否与所述目标说话人对应的特征向量匹配的掩码标签；或者，用于指示每个音频帧对应的特征向量与所述目标说话人对应的特征向量的匹配概率的掩码标签。4.根据权利要求1
‑
3任一项所述的方法，其中，所述根据掩码结果获得所述目标说话人的音频帧向量，包括：对所述掩码结果进行权重平均池化，获得所述目标说话人的音频帧向量。5.根据权利要求1所述的方法，其中，所述从所述特征聚类结果中确定出目标说话人对应的特征向量，包括：从所述特征聚类结果中筛选出最大类别的特征聚类结果，将所述最大类别的特征聚类结果对应的特征向量确定为目标说话人对应的特征向量。6.根据权利要求5所述的方法，其中，所述将所述最大类别的特征聚类结果对应的特征向量确定为目标说话人对应的特征向量，包括：对所述最大类别的特征聚类结果对应的特征向量进行平均池化，根据平均池化结果获得目标说话人对应的特征向量。7.根据权利要求1、5或6所述的方法，其中，所述对所述多个音频帧向量进行聚类，获得特征聚类结果，包括：对所述多个音频帧向量进行两分类聚类，获得主说话人特征聚类结果和非主说话人特征聚类结果；所述从所述特征聚类结果中确定出目标说话人对应的特征向量，包括：将...

【专利技术属性】
技术研发人员：郑斯奇，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人