视频处理方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:26308164 阅读:25 留言:0更新日期:2020-11-10 20:10
本发明专利技术实施例提供了一种视频处理方法、装置、电子设备和可读存储介质,涉及计算机技术领域,所述方法包括:获取至少一个目标视频;提取所述目标视频中的至少一个发音片段,并记录每个发音片段的声音数据;确定每个发音片段在所述目标视频中对应的图像信息;根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分,以确定多个待合并片段;以及合并所述多个待合并片段,确定合并视频。由此,可以节省制作集锦视频时的人力,并且还可以保证每个集锦视频在质量上的统一。

【技术实现步骤摘要】
视频处理方法、装置、电子设备和可读存储介质
本专利技术涉及计算机
,特别是涉及一种视频处理方法、装置、电子设备和可读存储介质。
技术介绍
目前,随着人们生活质量的提高,许多人会将学习、工作或者出游的多段视频剪辑为一个集锦视频。在集锦视频制作的过程中,需要人工选取适合的视频片段,并人工进行剪辑合成,会消耗大量人力,而且,当需要制作大量集锦视频时,还会由于每个制作人员的制作水平,导致集锦视频的质量参差不齐。
技术实现思路
有鉴于此,本专利技术实施例提供一种视频处理方法、装置、电子设备和可读存储介质,可以节省制作集锦视频时的人力,并且还可以保证每个集锦视频在质量上的统一。第一方面,提供了一种视频处理方法,所述方法应用于电子设备,所述方法包括:获取至少一个目标视频;提取所述目标视频中的至少一个发音片段,并记录每个发音片段的声音数据;确定每个发音片段在所述目标视频中对应的图像信息;根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分,以确定多个待合并片段;以及合并所述多个待合并片段,确定合并视频。可选的,所述根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分,以确定多个待合并片段,包括:基于每个发音片段的声音数据和每个发音片段的图像信息,对各发音片段进行筛选,确定多个待评分片段;基于每个发音片段的声音数据和每个待评分片段的图像信息,确定每个待评分片段的分值;以及根据每个待评分片段的分值,确定第一预设数量的待评分片段为待合并片段。可选的,所述基于每个发音片段的声音数据和每个发音片段的图像信息,对各发音片段进行筛选,包括如下操作中的至少一项:针对每个发音片段,响应于所述发音片段的图像信息中的人脸出框率大于预设的人脸出框率阈值,丢弃所述发音片段;针对每个发音片段,响应于所述发音片段的声音数据的声音持续时长大于第一预设时长阈值,丢弃所述发音片段;针对每个发音片段,响应于所述发音片段的声音数据的声音持续时长小于第二预设时长阈值,丢弃所述发音片段;针对每个发音片段,响应于所述发音片段的图像信息中存在画面卡顿,丢弃所述发音片段;以及针对属于同一目标视频的相邻两个发音片段,响应于所述相邻两个发音片段之间的时长间隔小于预设时长间隔阈值,合并所述相邻两个发音片段。可选的,所述待评分片段包括:目标人物的声音数据和所述目标人物的图像信息;所述基于每个发音片段的声音数据和每个待评分片段的图像信息,确定每个待评分片段的分值,包括:针对每个待评分片段,确定所述待评分片段的属性值,其中,所述待评分片段的属性值包括:包括目标人物的正脸的图像帧数量、包括目标人物的正脸的图像帧数量/待评分片段的总图像帧数量、包括目标人物的笑脸的图像帧数量、包括目标人物的笑脸的图像帧数量/待评分片段的总图像帧数量、所述待评分片段时长和目标人物的发音时长/所述待评分片段时长;以及将所述待评分片段的属性值输入预设的评分模型,获取所述评分模型输出的所述待评分片段的分值。可选的,所述获取至少一个目标视频,包括:获取多个待选取视频;将所述多个待选取视频按拍摄时间的顺序进行分组,确定多个视频组;以及分别针对各视频组,确定每个视频组中的多个待选取视频为目标视频。可选的,所述确定每个视频组中的多个待选取视频为目标视频,包括:根据预设的采样规则,从每个视频组中提取多个目标视频。可选的,所述确定每个视频组中的多个待选取视频为目标视频,包括:在视频组中随机选取第二预设数量的待选取视频作为目标视频。可选的,所述视频组包括前期视频组、中期视频组和后期视频组;所述根据每个待评分片段的分值,确定第一预设数量的待评分片段为待合并片段,包括:针对所述前期视频组,确定所述前期视频组中,评分处于中位的第三预设数量的待评分片段为待合并片段;针对所述中期视频组,确定所述中期视频组中,评分最高的第四预设数量的待评分片段为待合并片段;以及针对所述后期视频组,确定所述后期视频组中,评分最高的第五预设数量的待评分片段为待合并片段;其中,所述第三预设数量、所述第四预设数量和所述第五预设数量的和等于所述第一预设数量。可选的,所述提取所述目标视频中的至少一个发音片段,包括:基于语音激活检测VoiceActivityDetection,对所述目标视频进行端点检测并提取所述目标视频中的至少一个发音片段。可选的,所述确定每个发音片段在所述目标视频中对应的图像信息,包括:确定各发音片段在目标视频中对应的视频片段;以及基于人脸识别神经网络模型,将各视频片段的人脸数据作为图像信息。第二方面,提供了一种视频处理装置,所述装置应用于电子设备,所述装置包括:获取模块,用于获取至少一个目标视频;提取模块,用于提取所述目标视频中的至少一个发音片段;记录模块,用于记录每个发音片段的声音数据;第一确定模块,用于确定每个发音片段在所述目标视频中对应的图像信息;第二确定模块,用于根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分,以确定多个待合并片段;以及合并模块,用于合并所述多个待合并片段,确定合并视频。可选的,所述第二确定模块,具体用于:基于每个发音片段的声音数据和每个发音片段的图像信息,对各发音片段进行筛选,确定多个待评分片段;基于每个发音片段的声音数据和每个待评分片段的图像信息,确定每个待评分片段的分值;以及根据每个待评分片段的分值,确定第一预设数量的待评分片段为待合并片段。可选的,所述第二确定模块,具体用于执行如下操作中的至少一项:针对每个发音片段,响应于所述发音片段的图像信息中的人脸出框率大于预设的人脸出框率阈值,丢弃所述发音片段;针对每个发音片段,响应于所述发音片段的声音数据的声音持续时长大于第一预设时长阈值,丢弃所述发音片段;针对每个发音片段,响应于所述发音片段的声音数据的声音持续时长小于第二预设时长阈值,丢弃所述发音片段;针对每个发音片段,响应于所述发音片段的图像信息中存在画面卡顿,丢弃所述发音片段;以及针对属于同一目标视频的相邻两个发音片段,响应于所述相邻两个发音片段之间的时长间隔小于预设时长间隔阈值,合并所述相邻两个发音片段。可选的,所述待评分片段包括:目标人物的声音数据和所述目标人物的图像信息;所述第二确定模块,具体用于:针对每个待评分片段,确定所述待评分片段的属性值,其中,所述待评分片段的属性值包括:包括目标人物的正脸的图像帧数量、包括目标人物的正脸的图像帧数量/待评分片段的总图像帧数量、包括目标人物的笑脸的图像帧数量、包括目标人物的笑脸的图像帧数量/待评分片段的总图像本文档来自技高网...

【技术保护点】
1.一种视频处理方法,其特征在于,所述方法包括:/n获取至少一个目标视频;/n提取所述目标视频中的至少一个发音片段,并记录每个发音片段的声音数据;/n确定每个发音片段在所述目标视频中对应的图像信息;/n根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分,以确定多个待合并片段;以及/n合并所述多个待合并片段,确定合并视频。/n

【技术特征摘要】
1.一种视频处理方法,其特征在于,所述方法包括:
获取至少一个目标视频;
提取所述目标视频中的至少一个发音片段,并记录每个发音片段的声音数据;
确定每个发音片段在所述目标视频中对应的图像信息;
根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分,以确定多个待合并片段;以及
合并所述多个待合并片段,确定合并视频。


2.根据权利要求1所述的方法,其特征在于,所述根据每个发音片段的声音数据以及每个发音片段的图像信息对目标视频中的各视频片段进行评分,以确定多个待合并片段,包括:
基于每个发音片段的声音数据和每个发音片段的图像信息,对各发音片段进行筛选,确定多个待评分片段;
基于每个发音片段的声音数据和每个待评分片段的图像信息,确定每个待评分片段的分值;以及
根据每个待评分片段的分值,确定第一预设数量的待评分片段为待合并片段。


3.根据权利要求2所述的方法,其特征在于,
所述基于每个发音片段的声音数据和每个发音片段的图像信息,对各发音片段进行筛选,包括如下操作中的至少一项:
针对每个发音片段,响应于所述发音片段的图像信息中的人脸出框率大于预设的人脸出框率阈值,丢弃所述发音片段;
针对每个发音片段,响应于所述发音片段的声音数据的声音持续时长大于第一预设时长阈值,丢弃所述发音片段;
针对每个发音片段,响应于所述发音片段的声音数据的声音持续时长小于第二预设时长阈值,丢弃所述发音片段;
针对每个发音片段,响应于所述发音片段的图像信息中存在画面卡顿,丢弃所述发音片段;以及
针对属于同一目标视频的相邻两个发音片段,响应于所述相邻两个发音片段之间的时长间隔小于预设时长间隔阈值,合并所述相邻两个发音片段。


4.根据权利要求2所述的方法,其特征在于,所述待评分片段包括:目标人物的声音数据和所述目标人物的图像信息;
所述基于每个发音片段的声音数据和每个待评分片段的图像信息,确定每个待评分片段的分值,包括:
针对每个待评分片段,确定所述待评分片段的属性值,其中,所述待评分片段的属性值包括:包括目标人物的正脸的图像帧数量、包括目标人物的正脸的图像帧数量/待评分片段的总图像帧数量、包括目标人物的笑脸的图像帧数量、包括目标人物的笑脸的图像帧数量/待评分片段的总图像帧数量、所述待评分片段时长和目标人物的发音时长/所述待评分片段时长;以及
将所述待评分片段的属性值输入预设的评分模型,获取所述评分模型输出的所述待评分片段的分值。


5.根据权利要求2所述的方法,其特征在于,所述获取至少一个目标视频,包括:
获取多个待选取视频;
将所述多个待选取视频按拍摄时间的顺序进行分组,确定多个视频组;以...

【专利技术属性】
技术研发人员:谢文珍周佳包英泽
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1