说话人检测方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：37179549 阅读：11 留言：0更新日期：2023-04-20 22:46

本申请提供了一种说话人检测方法、装置、设备及计算机可读存储介质，其中，该方法包括如下步骤：获取场景在目标时间段的视频数据和音频数据，其中，该场景包括至少一个人员；根据上述视频数据获得上述场景中人员的嘴部特征；根据上述音频数据获得上述场景中人员的音频特征；根据上述嘴部特征和上述音频特征，确定在目标时间段内上述场景中的说话人。利用该方法能够提高场景中的说话人检测的准确率。法能够提高场景中的说话人检测的准确率。法能够提高场景中的说话人检测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
说话人检测方法、装置、设备及计算机可读存储介质

[0001]本申请涉及人工智能(artificial intelligence,AI)领域，尤其涉及一种说话人检测方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]近年来，AI技术发展迅速，使得人与机器之间的交互也越来越多。其中，说话人检测作为人机交互过程中的一个重要环节，能够让机器检测出当前场景中正在说话的人。但目前，说话人检测的准确率并不高，因此，如何提高说话人检测的准确率是亟需解决的问题。

技术实现思路

[0003]本申请提供了一种说话人检测方法、装置、设备及计算机可读存储介质，能够提高说话人检测的准确率。
[0004]第一方面，本申请提供了一种说话人检测方法，该方法包括以下步骤：
[0005]获取场景在目标时间段的视频数据和音频数据，其中，该场景包括至少一个人员；
[0006]根据上述视频数据获得上述场景中人员的嘴部特征；
[0007]根据上述音频数据获得上述场景中人员的音频特征；
[0008]根据上述嘴部特征和上述音频特征，确定在目标时间段内上述场景中的说话人。
[0009]由于人在说话时不仅会发出声音，而且人的嘴巴也会发生相应的变化，因此，实施第一方面所描述的方法，即根据场景中人员的嘴部特征以及场景中人员的音频特征，确定在目标时间段内场景中的说话人，可以提高说话人检测的准确率。
[0010]在第一方面的一种可能的实现方式中，上述根据上述嘴部特征和上述音频特征，确定在目标时间段...

【技术保护点】

【技术特征摘要】
1.一种说话人检测方法，其特征在于，包括：获取场景在目标时间段的视频数据和音频数据，其中，所述场景包括至少一个人员；根据所述视频数据获得所述场景中人员的嘴部特征；根据所述音频数据获得所述场景中人员的音频特征；根据所述嘴部特征和所述音频特征，确定在所述目标时间段内所述场景中的说话人。2.根据权利要求1所述的方法，其特征在于，所述根据所述嘴部特征和所述音频特征，确定在所述目标时间段内所述场景中的说话人，包括：将所述嘴部特征与所述音频特征进行匹配，确定与所述音频特征匹配的嘴部特征对应的人员。3.根据权利要求2所述的方法，其特征在于，所述将所述嘴部特征与所述音频特征进行匹配，确定与所述音频特征匹配的嘴部特征对应的人员，包括：将所述嘴部特征与所述音频特征进行融合，得到多个第一融合特征；对每个第一融合特征进行分类处理，确定与所述音频特征匹配的嘴部特征，从而确定与所述音频特征匹配的嘴部特征对应的人员。4.根据权利要求1
‑
3任一项所述的方法，其特征在于，所述方法还包括：根据所述视频数据获取所述场景中人员的人脸特征；所述根据所述嘴部特征和所述音频特征，确定在所述目标时间段内所述场景中的说话人，包括：根据所述嘴部特征、所述音频特征以及所述人脸特征，确定在所述目标时间段内所述场景中的说话人。5.根据权利要求4所述的方法，其特征在于，所述根据所述嘴部特征、所述音频特征以及所述人脸特征，确定在所述目标时间段内所述场景中的说话人，包括：将对应人员的人脸特征、嘴部特征以及所述音频特征进行融合，得到多个第二融合特征；根据所述多个第二融合特征确定在所述目标时间内所述场景中的说话人。6.根据权利要求1
‑
5任一项所述的方法，其特征在于，所述根据所述视频数据获取所述场景中人员的嘴部特征，包括：根据所述视频数据获得所述场景中人员的人脸图像；根据所述场景中人员的人脸图像获得所述场景中人员的嘴部图像；根据所述场景中人员的嘴部图像获得所述场景中人员的嘴部特征。7.一种说话人检测装置，其特征在于，包括：获取单元，用于获取场景在目标时间段的视频数据和音频数据，其中，所述场景包括...

【专利技术属性】
技术研发人员：吴益灵，李明磊，李太松，
申请(专利权)人：华为云计算技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人