视频处理方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号：26308164 阅读：25 留言：0更新日期：2020-11-10 20:10

本发明专利技术实施例提供了一种视频处理方法、装置、电子设备和可读存储介质，涉及计算机技术领域，所述方法包括：获取至少一个目标视频；提取所述目标视频中的至少一个发音片段，并记录每个发音片段的声音数据；确定每个发音片段在所述目标视频中对应的图像信息；根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分，以确定多个待合并片段；以及合并所述多个待合并片段，确定合并视频。由此，可以节省制作集锦视频时的人力，并且还可以保证每个集锦视频在质量上的统一。

全部详细技术资料下载

【技术实现步骤摘要】
视频处理方法、装置、电子设备和可读存储介质
本专利技术涉及计算机
，特别是涉及一种视频处理方法、装置、电子设备和可读存储介质。
技术介绍
目前，随着人们生活质量的提高，许多人会将学习、工作或者出游的多段视频剪辑为一个集锦视频。在集锦视频制作的过程中，需要人工选取适合的视频片段，并人工进行剪辑合成，会消耗大量人力，而且，当需要制作大量集锦视频时，还会由于每个制作人员的制作水平，导致集锦视频的质量参差不齐。
技术实现思路
有鉴于此，本专利技术实施例提供一种视频处理方法、装置、电子设备和可读存储介质，可以节省制作集锦视频时的人力，并且还可以保证每个集锦视频在质量上的统一。第一方面，提供了一种视频处理方法，所述方法应用于电子设备，所述方法包括：获取至少一个目标视频；提取所述目标视频中的至少一个发音片段，并记录每个发音片段的声音数据；确定每个发音片段在所述目标视频中对应的图像信息；根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分，以确定多个待合并片段；以及合并所述多个待合并片段，确定合并视频。可选的，所述根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分，以确定多个待合并片段，包括：基于每个发音片段的声音数据和每个发音片段的图像信息，对各发音片段进行筛选，确定多个待评分片段；基于每个发音片段的声音数据和每个待评分片段的图像信息，确定每个待评分片段的分值；...

【技术保护点】
1.一种视频处理方法，其特征在于，所述方法包括：/n获取至少一个目标视频；/n提取所述目标视频中的至少一个发音片段，并记录每个发音片段的声音数据；/n确定每个发音片段在所述目标视频中对应的图像信息；/n根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分，以确定多个待合并片段；以及/n合并所述多个待合并片段，确定合并视频。/n

【技术特征摘要】
1.一种视频处理方法，其特征在于，所述方法包括：
获取至少一个目标视频；
提取所述目标视频中的至少一个发音片段，并记录每个发音片段的声音数据；
确定每个发音片段在所述目标视频中对应的图像信息；
根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分，以确定多个待合并片段；以及
合并所述多个待合并片段，确定合并视频。

2.根据权利要求1所述的方法，其特征在于，所述根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分，以确定多个待合并片段，包括：
基于每个发音片段的声音数据和每个发音片段的图像信息，对各发音片段进行筛选，确定多个待评分片段；
基于每个发音片段的声音数据和每个待评分片段的图像信息，确定每个待评分片段的分值；以及
根据每个待评分片段的分值，确定第一预设数量的待评分片段为待合并片段。

3.根据权利要求2所述的方法，其特征在于，
所述基于每个发音片段的声音数据和每个发音片段的图像信息，对各发音片段进行筛选，包括如下操作中的至少一项：
针对每个发音片段，响应于所述发音片段的图像信息中的人脸出框率大于预设的人脸出框率阈值，丢弃所述发音片段；
针对每个发音片段，响应于所述发音片段的声音数据的声音持续时长大于第一预设时长阈值，丢弃所述发音片段；
针对每个发音片段，响应于所述发音片段的声音数据的声音持续时长小于第二预设时长阈值，丢弃所述发音片段；
针对每个发音片段，响应于所述发音片段的图像信息中存在画面卡顿，丢弃所述发音片段；以及
针对属于同一目标视频的相邻两个发音片段，响应于所述相邻两个发音片段之间的时长间隔小于预设时长间隔阈值，合并所述相邻两个发音片段。

4.根据权利要求2所述的方法，其特征在于，所述待评分片段包括：目标人物的声音数据和所述目标人物的图像信息；
所述基于每个发音片段的声音数据和每个待评分片段的图像信息，确定每个待评分片段的分值，包括：
针对每个待评分片段，确定所述待评分片段的属性值，其中，所述待评分片段的属性值包括：包括目标人物的正脸的图像帧数量、包括目标人物的正脸的图像帧数量/待评分片段的总图像帧数量、包括目标人物的笑脸的图像帧数量、包括目标人物的笑脸的图像帧数量/待评分片段的总图像帧数量、所述待评分片段时长和目标人物的发音时长/所述待评分片段时长；以及
将所述待评分片段的属性值输入预设的评分模型，获取所述评分模型输出的所述待评分片段的分值。

5.根据权利要求2所述的方法，其特征在于，所述获取至少一个目标视频，包括：
获取多个待选取视频；
将所述多个待选取视频按拍摄时间的顺序进行分组，确定多个视频组；以...

【专利技术属性】
技术研发人员：谢文珍，周佳，包英泽，
申请(专利权)人：北京大米科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人