说话人检测方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:37179549 阅读:11 留言:0更新日期:2023-04-20 22:46
本申请提供了一种说话人检测方法、装置、设备及计算机可读存储介质,其中,该方法包括如下步骤:获取场景在目标时间段的视频数据和音频数据,其中,该场景包括至少一个人员;根据上述视频数据获得上述场景中人员的嘴部特征;根据上述音频数据获得上述场景中人员的音频特征;根据上述嘴部特征和上述音频特征,确定在目标时间段内上述场景中的说话人。利用该方法能够提高场景中的说话人检测的准确率。法能够提高场景中的说话人检测的准确率。法能够提高场景中的说话人检测的准确率。

【技术实现步骤摘要】
说话人检测方法、装置、设备及计算机可读存储介质


[0001]本申请涉及人工智能(artificial intelligence,AI)领域,尤其涉及一种说话人检测方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]近年来,AI技术发展迅速,使得人与机器之间的交互也越来越多。其中,说话人检测作为人机交互过程中的一个重要环节,能够让机器检测出当前场景中正在说话的人。但目前,说话人检测的准确率并不高,因此,如何提高说话人检测的准确率是亟需解决的问题。

技术实现思路

[0003]本申请提供了一种说话人检测方法、装置、设备及计算机可读存储介质,能够提高说话人检测的准确率。
[0004]第一方面,本申请提供了一种说话人检测方法,该方法包括以下步骤:
[0005]获取场景在目标时间段的视频数据和音频数据,其中,该场景包括至少一个人员;
[0006]根据上述视频数据获得上述场景中人员的嘴部特征;
[0007]根据上述音频数据获得上述场景中人员的音频特征;
[0008]根据上述嘴部特征和上述音频特征,确定在目标时间段内上述场景中的说话人。
[0009]由于人在说话时不仅会发出声音,而且人的嘴巴也会发生相应的变化,因此,实施第一方面所描述的方法,即根据场景中人员的嘴部特征以及场景中人员的音频特征,确定在目标时间段内场景中的说话人,可以提高说话人检测的准确率。
[0010]在第一方面的一种可能的实现方式中,上述根据上述嘴部特征和上述音频特征,确定在目标时间段内上述场景中的说话人,包括:将上述嘴部特征与上述音频特征进行匹配,确定与上述音频特征匹配的嘴部特征对应的人员。当人员的嘴部特征与说话人的音频特征匹配时,说明该人员的嘴部变化与说话人发出的声音是一致的,那么可以认为该人员是说话人。相反的,当人员的嘴部特征与说话人的音频特征不匹配时,说明该人员的嘴部变化与说话人发出的声音不一致,那么可以认为该人员不是说话人。因此,实施上述实现方式可以确定场景中的说话人。在第一方面的一种可能的实现方式中,上述将上述嘴部特征与上述音频特征进行匹配,确定与上述音频特征匹配的嘴部特征对应的人员,包括:将上述嘴部特征与上述音频特征进行融合,得到多个第一融合特征;对每个第一融合特征进行分类处理,确定与上述音频特征匹配的嘴部特征,从而确定与上述音频特征匹配的嘴部特征对应的人员。上述实现方式中,通过第一融合特征的分类结果可以快速且准确地判断人员的嘴部特征与人员的音频特征是否匹配。
[0011]在第一方面的一种可能的实现方式中,上述方法还包括:根据上述视频数据获取上述场景中人员的人脸特征;上述根据上述嘴部特征和上述音频特征,确定在目标时间段内上述场景中的说话人,包括:根据上述嘴部特征、上述音频特征以及上述人脸特征,确定
在目标时间段内上述场景中的说话人。由于人的人脸特征(例如,年龄、性别等信息)与这个人的音频特征有关,例如,老年人的声音一般比小孩子的声音更低沉,男性的声音一般比女性的声音更低沉。因此,实施上述实现方式可以提高说话人检测的准确率。
[0012]在第一方面的一种可能的实现方式中,上述根据上述嘴部特征、上述音频特征以及上述人脸特征,确定在目标时间段内上述场景中的说话人,包括:将对应人员的人脸特征、嘴部特征以及上述音频特征进行融合,得到多个第二融合特征;根据上述多个第二融合特征确定在目标时间内上述场景中的说话人。上述实现方式中,通过第二融合特征的分类结果可以快速且准确地判断对应人员的人脸特征、嘴部特征与音频特征是否匹配。
[0013]在第一方面的一种可能的实现方式中,上述根据上述视频数据获取上述场景中人员的嘴部特征,包括:根据上述视频数据获得上述场景中人员的人脸图像;根据上述场景中人员的人脸图像获得上述场景中人员的嘴部图像;根据上述场景中人员的嘴部图像获得上述场景中人员的嘴部特征。由于嘴部图像为人脸图像的一部分,相较于直接对视频帧进行嘴部检测,对人脸图像进行嘴部检测得到的嘴部图像更加准确。因此,通过上述实现方式能够提高对嘴部图像的检测以及嘴部特征的提取的准确率,从而提高说话人检测的准确率。
[0014]第二方面,本申请提供了一种说话人检测装置,该装置包括:
[0015]获取单元,用于获取场景在目标时间段的视频数据和音频数据,其中,该场景包括至少一个人员;
[0016]嘴部特征提取单元,用于根据上述视频数据获得上述场景中人员的嘴部特征;
[0017]音频特征提取单元,用于根据上述音频数据获得上述场景中人员的音频特征;
[0018]说话人确定单元,用于根据上述嘴部特征和上述音频特征,确定在目标时间段内上述场景中的说话人。
[0019]在第二方面的一种可能的实现方式中,上述说话人确定单元具体用于:将上述嘴部特征与上述音频特征进行匹配,确定与上述音频特征匹配的嘴部特征对应的人员。
[0020]在第二方面的一种可能的实现方式中,上述说话人确定单元具体用于:将上述嘴部特征与上述音频特征进行融合,得到多个第一融合特征;对每个第一融合特征进行分类处理,确定与上述音频特征匹配的嘴部特征,从而确定与上述音频特征匹配的嘴部特征对应的人员。
[0021]在第二方面的一种可能的实现方式中,上述说话人检测装置还包括人脸检测单元,人脸检测单元用于根据上述视频数据获取上述场景中人员的人脸特征;上述说话人确定单元具体用于根据上述嘴部特征、上述音频特征以及上述人脸特征,确定在目标时间段内上述场景中的说话人。
[0022]在第二方面的一种可能的实现方式中,上述说话人确定单元具体用于:将对应人员的人脸特征、嘴部特征以及上述音频特征进行融合,得到多个第二融合特征;根据上述多个第二融合特征确定在目标时间内上述场景中的说话人。
[0023]在第二方面的一种可能的实现方式中,上述嘴部特征提取单元具体用于:根据上述视频数据获得上述场景中人员的人脸图像;根据上述场景中人员的人脸图像获得上述场景中人员的嘴部图像;根据上述场景中人员的嘴部图像获得上述场景中人员的嘴部特征。
[0024]第三方面,本申请提供了一种计算设备,该计算设备包括处理器和存储器,存储器存储计算机指令,处理器执行计算机指令,以使计算设备执行前述第一方面或第一方面的
任意一种可能的实现方式中的方法。
[0025]第四方面,本申请提供了一种计算设备系统,该计算设备系统包括多个计算设备,每个计算设备包括处理器和存储器,存储器存储计算机指令,处理器执行计算机指令,多个计算设备协同地执行前述第一方面或第一方面的任意一种可能的实现方式中的方法。
[0026]第五方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序代码,当计算机程序代码被计算设备执行时,计算设备执行前述第一方面或第一方面的任意一种可能的实现方式中的方法。
[0027]第六方面,本申请提供了一种说话人检测系统,该说话人检测系统包括摄像设备、麦克风以及说话人检测装置,其中,说话人本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种说话人检测方法,其特征在于,包括:获取场景在目标时间段的视频数据和音频数据,其中,所述场景包括至少一个人员;根据所述视频数据获得所述场景中人员的嘴部特征;根据所述音频数据获得所述场景中人员的音频特征;根据所述嘴部特征和所述音频特征,确定在所述目标时间段内所述场景中的说话人。2.根据权利要求1所述的方法,其特征在于,所述根据所述嘴部特征和所述音频特征,确定在所述目标时间段内所述场景中的说话人,包括:将所述嘴部特征与所述音频特征进行匹配,确定与所述音频特征匹配的嘴部特征对应的人员。3.根据权利要求2所述的方法,其特征在于,所述将所述嘴部特征与所述音频特征进行匹配,确定与所述音频特征匹配的嘴部特征对应的人员,包括:将所述嘴部特征与所述音频特征进行融合,得到多个第一融合特征;对每个第一融合特征进行分类处理,确定与所述音频特征匹配的嘴部特征,从而确定与所述音频特征匹配的嘴部特征对应的人员。4.根据权利要求1

3任一项所述的方法,其特征在于,所述方法还包括:根据所述视频数据获取所述场景中人员的人脸特征;所述根据所述嘴部特征和所述音频特征,确定在所述目标时间段内所述场景中的说话人,包括:根据所述嘴部特征、所述音频特征以及所述人脸特征,确定在所述目标时间段内所述场景中的说话人。5.根据权利要求4所述的方法,其特征在于,所述根据所述嘴部特征、所述音频特征以及所述人脸特征,确定在所述目标时间段内所述场景中的说话人,包括:将对应人员的人脸特征、嘴部特征以及所述音频特征进行融合,得到多个第二融合特征;根据所述多个第二融合特征确定在所述目标时间内所述场景中的说话人。6.根据权利要求1

5任一项所述的方法,其特征在于,所述根据所述视频数据获取所述场景中人员的嘴部特征,包括:根据所述视频数据获得所述场景中人员的人脸图像;根据所述场景中人员的人脸图像获得所述场景中人员的嘴部图像;根据所述场景中人员的嘴部图像获得所述场景中人员的嘴部特征。7.一种说话人检测装置,其特征在于,包括:获取单元,用于获取场景在目标时间段的视频数据和音频数据,其中,所述场景包括...

【专利技术属性】
技术研发人员:吴益灵李明磊李太松
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1