说话对象检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号：44958865 阅读：5 留言：0更新日期：2025-04-12 01:28

本申请实施例提供了一种说话对象检测方法、装置、电子设备及存储介质，属于人工智能技术领域。其中方法包括：获取会话场景的视频数据和音频数据；根据视频数据获取人脸框序列，并在人脸框序列中提取唇部框序列；根据深度估计模型生成与人脸框序列对应的深度信息序列，并根据音频数据获取与人脸框序列对应的音频序列；根据音频序列和唇部框序列分别获取音频嵌入特征和视频嵌入特征；将深度信息序列分别与音频嵌入特征和视频嵌入特征进行加权融合，根据获得的深度融合音频特征和深度融合视频特征确定会话场景下的目标说话对象。通过所提供的方案，可自动定位会话视频中的说话对象，提高了工作效率，并减少了工作量。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种说话对象检测方法、装置、电子设备及存储介质。

技术介绍

1、目前，在视频后期编辑中，常常需要准确地找到视频中正在说话的人，以便进行字幕匹配、音频和视频内容对齐、音效优化等工作。特别是在多人对话或访谈场景中，人物会频繁交替发言，而现有技术是通过手动标记视频说话人，不仅工作量大，而且工作效率。

技术实现思路

1、为了解决上述技术问题，本申请实施例提供了一种说话对象检测方法、装置、电子设备及存储介质。

2、第一方面，本申请实施例提供了一种说话对象检测方法，所述方法包括：

3、获取会话场景的视频数据和音频数据；

4、根据所述视频数据获取人脸框序列，并在所述人脸框序列中提取唇部框序列；

5、根据深度估计模型生成与所述人脸框序列对应的深度信息序列，并根据所述音频数据获取与所述人脸框序列对应的音频序列；

6、根据所述音频序列和所述唇部框序列分别获取音频嵌入特征和视频嵌入特征；

7、将所述深度信息序列分别与所述音频嵌入特征和所述视频嵌入特征进行加权融合，分别获得深度融合音频特征和深度融合视频特征；

8、根据所述深度融合音频特征和所述深度融合视频特征确定所述会话场景下的目标说话对象。

9、在一实施方式中，根据人脸检测算法获取所述视频数据中的人脸框序列和脸部关键点坐标；

10、根据所述人脸框序列和所述脸部关键点坐标确定唇部区域关键点；

11、根据所述唇

12、在一实施方式中，通过所述人脸检测算法按照视频帧依次获取所述视频数据中的多张人脸，并输出各所述人脸对应的人脸边界框坐标；

13、根据跟踪算法获取各所述视频帧下的同一人脸的多个所述人脸边界框坐标，将各所述人脸边界框坐标进行关联，并根据关联后的所述人脸边界框坐标生成所述人脸框序列。

14、在一实施方式中，通过音频时序编码器对所述音频序列进行编码，将编码后的所述音频序列作为所述音频嵌入特征；

15、通过视觉时序编码器对所述唇部框序列进行编码，将编码后的所述唇部框序列作为所述视频嵌入特征。

16、在一实施方式中，根据第一加权公式将所述深度信息序列与所述音频嵌入特征进行加权融合，获得所述深度融合音频特征；

17、根据第二加权公式将所述深度信息序列与所述视频嵌入特征进行加权融合，获得所述深度融合视频特征。

18、在一实施方式中，通过交叉注意力模块将所述深度融合视频特征和所述深度信息序列进行关联；

19、根据关联结果确定所述会话场景下的目标说话对象。

20、在一实施方式中，通过所述关联结果确定所述会话场景下的各说话对象的检测分数；

21、在各所述检测分数中获取大于预设分数阈值的目标检测分数；

22、将所述目标检测分数对应的说话对象作为所述目标说话对象。

23、第二方面，本申请实施例提供了一种说话对象检测装置，所述说话对象检测装置包括：

24、判断模块，用于获取会话场景的视频数据和音频数据；

25、连接模块，用于根据所述视频数据获取人脸框序列，并在所述人脸框序列中提取唇部框序列；

26、第一传输模块，用于根据深度估计模型生成与所述人脸框序列对应的深度信息序列，并根据所述音频数据获取与所述人脸框序列对应的音频序列；

27、选择模块，用于根据所述音频序列和所述唇部框序列分别获取音频嵌入特征和视频嵌入特征；

28、第二传输模块，用于将所述深度信息序列分别与所述音频嵌入特征和所述视频嵌入特征进行加权融合，分别获得深度融合音频特征和深度融合视频特征；

29、获取模块，用于根据所述深度融合音频特征和所述深度融合视频特征确定所述会话场景下的目标说话对象。

30、第三方面，本申请实施例提供了一种电子设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述计算机程序在所述处理器运行时执行第一方面提供的说话对象检测方法。

31、第四方面，本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行第一方面提供的说话对象检测方法。

32、上述本申请提供的说话对象检测方法，获取会话场景的视频数据和音频数据；根据所述视频数据获取人脸框序列，并在所述人脸框序列中提取唇部框序列；根据深度估计模型生成与所述人脸框序列对应的深度信息序列，并根据所述音频数据获取与所述人脸框序列对应的音频序列；根据所述音频序列和所述唇部框序列分别获取音频嵌入特征和视频嵌入特征；将所述深度信息序列分别与所述音频嵌入特征和所述视频嵌入特征进行加权融合，分别获得深度融合音频特征和深度融合视频特征；根据所述深度融合音频特征和所述深度融合视频特征确定所述会话场景下的目标说话对象。本申请通过获取人脸框序列对应的深度信息序列、音频嵌入特征和视频嵌入特征，并将音频嵌入特征和视频嵌入特征与深度信息序列进行加权融合，获取会话场景下的目标说话对象，以此提高了对说话对象的判断精度，降低了误判改了，通过自动识别说话对象，进一步提高了工作效率。

本文档来自技高网...

【技术保护点】

1.一种说话对象检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的说话对象检测方法，其特征在于，所述根据所述视频数据获取人脸框序列，并在所述人脸框序列中提取唇部框序列，包括：

3.根据权利要求2所述的说话对象检测方法，其特征在于，所述根据人脸检测算法获取所述视频数据中的人脸框序列，包括：

4.根据权利要求1所述的说话对象检测方法，其特征在于，所述根据所述音频序列和所述唇部框序列分别获取音频嵌入特征和视频嵌入特征，包括：

5.根据权利要求1所述的说话对象检测方法，其特征在于，所述将所述深度信息序列分别与所述音频嵌入特征和所述视频嵌入特征进行加权融合，分别获得深度融合音频特征和深度融合视频特征，包括：

6.根据权利要求1所述的说话对象检测方法，其特征在于，所述根据所述深度融合音频特征和所述深度融合视频特征确定所述会话场景下的目标说话对象，包括：

7.根据权利要求6所述的说话对象检测方法，其特征在于，所述根据关联结果确定所述会话场景下的目标说话对象，包括：

8.一种说话对象检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器运行时执行权利要求1至7中任一项所述的说话对象检测方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至7中任一项所述的说话对象检测方法。

...

【技术特征摘要】

1.一种说话对象检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的说话对象检测方法，其特征在于，所述根据所述视频数据获取人脸框序列，并在所述人脸框序列中提取唇部框序列，包括：

3.根据权利要求2所述的说话对象检测方法，其特征在于，所述根据人脸检测算法获取所述视频数据中的人脸框序列，包括：

4.根据权利要求1所述的说话对象检测方法，其特征在于，所述根据所述音频序列和所述唇部框序列分别获取音频嵌入特征和视频嵌入特征，包括：

...

【专利技术属性】
技术研发人员：易斌，
申请(专利权)人：马栏山音视频实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人