语音检测方法、电子设备及计算机存储介质技术

技术编号:34357254 阅读:15 留言:0更新日期:2022-07-31 06:49
本申请实施例提供了一种语音检测方法、电子设备及计算机存储介质,其中,语音检测方法包括:获取待检测的音频数据对应的多个音频帧向量,其中,所述音频数据中包含有至少一个说话人对应的语音数据;对所述多个音频帧向量进行聚类,获得特征聚类结果;从所述特征聚类结果中确定出目标说话人对应的特征向量,并基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码,根据掩码结果获得所述目标说话人的音频帧向量。通过本申请实施例,使得提取出的目标说话人的音频帧向量能够准确地代表目标说话人的声音,实现目标说话人音频的精准分离。精准分离。精准分离。

Voice detection method, electronic equipment and computer storage medium

【技术实现步骤摘要】
语音检测方法、电子设备及计算机存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种语音检测方法、电子设备及计算机存储介质。

技术介绍

[0002]随着智能语音技术的发展,越来越多的领域和服务将其作为基础功能加以使用。在智能语音技术中,说话人日志(Speaker Diarization)技术是其中的一个重要组成部分。说话人日志技术是给定一段多人交流的音频(通常为单通道口语对话语音,有较多的多人混叠片段),由计算机自动地识别出音频中有几个说话人,并检测出音频中每个说话人发言的起止时间戳,解决“谁在什么时候说话”的问题的一种技术。在一种应用场景中,希望通过说话人日志技术,将会议或多人说话的一段音频中,每个说话人的声音和说话内容区分出来,为后续应用提供基础。
[0003]传统方式中,多采用将一个完整音频切分为多个音频分段,然后针对每一个音频分段,利用预先训练好的机器学习模型进行说话人特征提取的方式。但在实际应用中,一个音频片段中可能包含多个说话人的声音和噪声。因此,在某个音频片段中提取出的说话人特征难以代表真实的说话人声音,导致将不同说话人,尤其是目标说话人的音频分离出来的效果很差。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种语音检测方案,以至少部分解决上述问题。
[0005]根据本申请实施例的第一方面,提供了一种语音检测方法,包括:获取待检测的音频数据对应的多个音频帧向量,其中,所述音频数据中包含有至少一个说话人对应的语音数据;对所述多个音频帧向量进行聚类,获得特征聚类结果;从所述特征聚类结果中确定出目标说话人对应的特征向量,并基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码,根据掩码结果获得所述目标说话人的音频帧向量。
[0006]根据本申请实施例的第二方面,提供了另一种语音检测方法,包括:获取待检测的会议音频数据对应的多个音频帧向量,其中,所述会议音频数据中包含有会议发言人对应的语音数据;对所述多个音频帧向量进行聚类,获得特征聚类结果;从所述特征聚类结果中确定出所述会议发言人对应的特征向量,并基于所述会议发言人对应的特征向量对所述多个音频帧向量进行掩码,根据掩码结果获得所述会议发言人的音频帧向量;基于所述会议发言人的音频帧向量进行语音识别,根据语音识别结果生成会议记录文本。
[0007]根据本申请实施例的第三方面,提供了又一种语音检测方法,包括:获取待检测的第一音频数据对应的多个第一音频帧向量和第二音频数据对应的多个第二音频帧向量;分别获得所述第一音频帧向量对应的第一主说话人音频帧向量和所述第二音频帧向量对应的第二主说话人音频帧向量;其中,所述第一主说话人音频帧向量和所述第二主说话人音频帧向量均通过以下方式获得:分别对多个第一或第二音频帧向量进行聚类,获得对应的
特征聚类结果;从所述特征聚类结果中确定出对应的第一主说话人或第二主说话人对应的特征向量,并基于所述特征向量对多个第一或第二音频帧向量进行掩码,根据掩码结果获得第一主说话人或第二主说话人的音频帧向量;根据所述第一主说话人音频帧向量和所述第二主说话人音频帧向量,确定所述第一音频数据和所述第二音频数据是否为同一说话人的音频数据。
[0008]根据本申请实施例的第四方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第二方面或第三方面所述方法对应的操作。
[0009]根据本申请实施例的第五方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面或第三方面所述的方法。
[0010]根据本申请实施例的第六方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如第一方面或第二方面或第三方面所述方法对应的操作。
[0011]根据本申请实施例提供的方案,一方面,可以无需对待检测的音频数据进行分段或者简单分为几个大段即可,无需切分为较小的音频片段,从而在一定程度上节省了音频数据的处理成本,提高了处理效率。另一方面,针对待检测的音频数据,通过特征聚类的方式可以简单且高效地从音频中筛选出目标说话人,即主说话人的特征向量;进而,以此为依据对待检测的音频数据对应的多个音频帧向量进行掩码,可以有效过滤掉非目标说话人的音频帧向量。由此,使得提取出的目标说话人的音频帧向量能够准确地代表目标说话人的声音,实现目标说话人音频的精准分离。
附图说明
[0012]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0013]图1为适用本申请实施例的语音检测方案的示例性系统的示意图;图2A为根据本申请实施例的一种语音检测方法的步骤流程图;图2B为图2A所示实施例中的一种示例性模型结构的示意图;图2C为图2A所示实施例中的一种场景示例的示意图;图2D为图2A所示实施例中的另一种场景示例的示意图;图3为根据本申请实施例的一种电子设备的结构示意图。
具体实施方式
[0014]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0015]下面结合本申请实施例附图进一步说明本申请实施例具体实现。
[0016]图1示出了一种适用本申请实施例的语音检测方案的示例性系统。如图1所示,该系统100可以包括云服务端102、通信网络104和/或一个或多个用户设备106,图1中示例为多个用户设备。
[0017]云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备,包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中,云服务端102可以执行任何适当的功能。例如,在一些实施例中,云服务端102可以用于从音频数据中获得目标说话人对应的那部分数据。作为可选的示例,在一些实施例中,云服务端102可以被用于根据待检测的音频数据对应的多个音频帧向量,通过聚类来获得目标说话人对应的特征向量,进而根据该目标说话人对应的特征向量,通过对多个音频帧向量进行掩码的方式,获得目标说话人的音频帧向量。作为另一示例,在一些实施例中,云服务端102可以被用于接收用户设备发送的待检测的音频数据,或者,接收用户设备发送的语音检测请求,基于该请求获得待检测的音频数据,并基于聚类和掩码方式,获得音频数据中的目标说话人的音频帧向量及其对应的音频帧数据。
[0018]在一些实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音检测方法,包括:获取待检测的音频数据对应的多个音频帧向量,其中,所述音频数据中包含有至少一个说话人对应的语音数据;对所述多个音频帧向量进行聚类,获得特征聚类结果;从所述特征聚类结果中确定出目标说话人对应的特征向量,并基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码,根据掩码结果获得所述目标说话人的音频帧向量。2.根据权利要求1所述的方法,其中,所述基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码,包括:将所述目标说话人对应的特征向量和所述多个音频帧向量输入掩码预测网络,获得所述掩码预测网络输出的、针对每个音频帧的掩码标签;根据所述掩码标签对所述多个音频帧向量进行掩码,获得掩码结果。3.根据权利要求2所述的方法,其中,所述掩码标签包括:用于指示每个音频帧对应的特征向量是否与所述目标说话人对应的特征向量匹配的掩码标签;或者,用于指示每个音频帧对应的特征向量与所述目标说话人对应的特征向量的匹配概率的掩码标签。4.根据权利要求1

3任一项所述的方法,其中,所述根据掩码结果获得所述目标说话人的音频帧向量,包括:对所述掩码结果进行权重平均池化,获得所述目标说话人的音频帧向量。5.根据权利要求1所述的方法,其中,所述从所述特征聚类结果中确定出目标说话人对应的特征向量,包括:从所述特征聚类结果中筛选出最大类别的特征聚类结果,将所述最大类别的特征聚类结果对应的特征向量确定为目标说话人对应的特征向量。6.根据权利要求5所述的方法,其中,所述将所述最大类别的特征聚类结果对应的特征向量确定为目标说话人对应的特征向量,包括:对所述最大类别的特征聚类结果对应的特征向量进行平均池化,根据平均池化结果获得目标说话人对应的特征向量。7.根据权利要求1、5或6所述的方法,其中,所述对所述多个音频帧向量进行聚类,获得特征聚类结果,包括:对所述多个音频帧向量进行两分类聚类,获得主说话人特征聚类结果和非主说话人特征聚类结果;所述从所述特征聚类结果中确定出目标说话人对应的特征向量,包括:将...

【专利技术属性】
技术研发人员:郑斯奇
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1