一种音视频切分方法、装置、电子设备和存储介质制造方法及图纸

技术编号：43998415 阅读：15 留言：0更新日期：2025-01-10 20:16

本申请公开了一种音视频切分方法、装置、电子设备和存储介质，该方法包括：获取目标视频和目标音频，其中，目标视频和目标音频是对目标场景进行采集得到的；利用目标视频，对目标对象进行追踪，得到追踪数据；利用追踪数据，从目标音频和目标视频中，切分出属于目标对象的对象音频和对象视频。通过上述方式，本申请能够对音视频的切分准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音视频，特别是涉及一种音视频切分方法、装置、电子设备和存储介质。

技术介绍

1、在一些目标场景下(如，政务大厅、营业厅、银行大厅、高铁安检处、飞机安检处等)，视频采集装置(如，摄像头)持续性地对工作人员和乘客进行视频采集，音频采集装置(如，麦克风)持续性地对工作人员和乘客进行音频采集。后续需要逐一对各乘客进行分析，那么就需要从持续性采集的视频和音频中准确地确定出各乘客对应的音频和视频，这样才能准确地对乘客进行分析。

技术实现思路

1、本申请主要解决的技术问题是提供一种音视频切分方法、装置、电子设备和存储介质，能够提高对音视频的切分准确性。

2、为解决上述技术问题，本申请采用的一个技术方案是：提供一种音视频切分方法，该方法包括：获取目标视频和目标音频，其中，目标视频和目标音频是对目标场景进行采集得到的；利用目标视频，对目标对象进行追踪，得到追踪数据；利用追踪数据，从目标音频和目标视频中，切分出属于目标对象的对象音频和对象视频。

3、其中，追踪数据包括追踪结束时刻；追踪结束确定步骤，包括：响应于对目标对象的追踪失效，确定对目标对象的追踪结束。

4、其中，对目标对象的追踪失效，包括：响应于对目标对象的追踪丢失，获取追踪丢失后的至少两个目标视频帧；对于各目标视频帧，获取目标视频帧与追踪丢失前的任一历史视频帧之间的相似度；基于各目标视频帧对应的相似度，确定对目标对象的追踪失效。

5、其中，获取追踪丢失后的至少两个目标视频帧，包括：获取

6、其中，基于各目标视频帧对应的相似度，确定对目标对象的追踪失效，包括：对于各目标视频帧，对目标视频帧对应的相似度进行转化，得到结果表征值；综合各目标视频帧对应的结果表征值，确定对目标对象的追踪失效。

7、其中，对目标视频帧对应的相似度进行转化，得到结果表征值，包括：响应于目标视频帧对应的相似度大于或等于相似度阈值，将目标视频帧对应的相似度，转化为第一结果表征值；响应于目标视频帧对应的相似度小于相似度阈值，将目标视频帧对应的相似度，转化为第二结果表征值。

8、其中，第一结果表征值和第二结果表征值的正负相反且数值相等，目标视频帧为奇数个；综合各目标视频帧对应的结果表征值，确定对目标对象的追踪失效，包括：对各目标视频帧对应的结果表征值求和；响应于和小于预设值，确定对目标对象的追踪失效。

9、其中，音视频切分方法还包括：响应于和大于预设值，确定对目标对象的追踪继续。

10、其中，追踪数据包括追踪时刻，追踪时刻包括追踪开始时刻、追踪中间时刻和追踪结束时刻，追踪中间时刻包括对目标对象追踪丢失的时刻和对目标对象追踪继续的时刻；利用追踪数据，从目标音频和目标视频中，切分出属于目标对象的对象音频和对象视频，包括：响应于获取到任一非开始时刻的追踪时刻，作为第一目标时刻；利用目标时间区间，对目标音频和目标视频进行切分，得到目标音频片段和目标视频片段；其中，目标时间区间包括第二目标时刻、第一目标时刻以及第一目标时刻和第二目标时刻之间的时刻，第二目标时刻为位于第一目标时刻之前的追踪时刻；视频切分方法还包括：响应于对目标对象的追踪结束，对属于目标对象的各目标音频片段进行合并，得到对应目标对象的对象音频；以及，对属于目标对象的各目标视频片段进行合并，得到对应目标对象的对象视频。

11、其中，目标视频是利用视频采集装置采集的，目标对象为目标场景中，与视频采集装置之间的距离满足距离预设要求的对象；和/或，目标对象包括人脸。

12、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种音视频切分装置，该音视频切分装置包括获取模块、追踪模块和切分模块；获取模块用于获取目标视频和目标音频，其中，目标视频和目标音频是对目标场景进行采集得到的；追踪模块用于利用目标视频，对目标对象进行追踪，得到追踪数据；切分模块用于利用追踪数据，从目标音频和目标视频中，切分出属于目标对象的对象音频和对象视频。

13、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，该电子设备包括存储器和处理器，存储器存储有程序指令，程序指令能够被执行以实现上述的方法。

14、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储有程序指令，程序指令能够被执行以实现上述的方法。

15、上述技术方案，在能够追踪到目标对象的情况下，表明目标对象正在目标场景中完成待办任务，视频采集装置对应采集的视频为关于目标对象的视频，音频采集装置采集的音频为关于目标对象的音频。所以，通过对目标对象进行追踪得到的追踪数据，能够辅助从对目标场景进行采集得到的目标音频和目标视频中，切分出属于目标对象的音频和视频，提高了音视频切分的便利性和准确性。

本文档来自技高网...

【技术保护点】

1.一种音视频切分方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述追踪数据包括追踪结束时刻；所述追踪结束确定步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标对象的追踪失效，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述追踪丢失后的至少两个目标视频帧，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于各所述目标视频帧对应的相似度，确定对所述目标对象的追踪失效，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述目标视频帧对应的相似度进行转化，得到结果表征值，包括：

7.根据权利要求6所述的方法，其特征在于，所述第一结果表征值和所述第二结果表征值的正负相反且数值相等，所述目标视频帧为奇数个；所述综合各所述目标视频帧对应的结果表征值，确定对所述目标对象的追踪失效，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述追踪数据包括追踪时刻，所述追踪时

10.根据权利要求1所述的方法，其特征在于，

11.一种音视频切分装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有程序指令，所述程序指令能够被执行以实现如权利要求1-10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储有程序指令，所述程序指令能够被执行以实现如权利要求1-10任一项所述的方法。

...

【技术特征摘要】

1.一种音视频切分方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述追踪数据包括追踪结束时刻；所述追踪结束确定步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标对象的追踪失效，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述追踪丢失后的至少两个目标视频帧，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于各所述目标视频帧对应的相似度，确定对所述目标对象的追踪失效，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述目标视频帧对应的相似度进行转化，得到结果表征值，包括：

<...

【专利技术属性】
技术研发人员：汪敏，黄玉龙，郭浒生，查飞，倪修峰，倪东，张友国，
申请(专利权)人：讯飞智元信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人