视频处理方法、装置、设备、存储介质及计算机程序产品制造方法及图纸

技术编号:39296790 阅读:7 留言:0更新日期:2023-11-07 11:04
本申请公开一种视频处理方法、装置、设备、存储介质及计算机程序产品,其相关实施例可应用于人工智能等场景中。该方法包括:获取多个视频帧;多个视频帧是通过对目标视频进行抽帧处理得到的;提取多个视频帧中各个视频帧的图文特征,并将多个视频帧中任一视频帧添加至关键帧检索库中;遍历多个视频帧,若基于当前遍历的目标视频帧的图文特征以及关键帧检索库中各个视频帧的图文特征,确定关键帧检索库中不存在与目标视频帧相似的视频帧,则将目标视频帧添加至关键帧检索库中;在遍历多个视频帧结束之后,将关键帧检索库中包括的视频帧作为目标视频的关键帧。可降低从视频中抽取得到的关键帧的冗余度,提高关键帧抽取的准确性。提高关键帧抽取的准确性。提高关键帧抽取的准确性。

【技术实现步骤摘要】
视频处理方法、装置、设备、存储介质及计算机程序产品


[0001]本申请涉及人工智能领域,尤其涉及一种视频处理方法、装置、设备、存储介质及计算机程序产品。

技术介绍

[0002]在与视频处理相关的场景中,例如各种基于视频帧的视频理解场景、直播流的应用场景,通常需要从视频中抽取关键帧,并基于抽取得到的关键帧对视频进行分析等处理;在现有的视频关键帧抽取方法中,主要通过对比相邻视频帧之间的相似性,来判断相应视频帧是否为关键帧;现有的视频关键帧抽取方法在抽取关键帧时,只考虑了相邻视频帧之间的相似性,在诸如视频发生转场后,又转回来的情况下,基于现有的视频关键帧抽取方法抽取得到的关键帧存在冗余,导致关键帧抽取的准确性低。

技术实现思路

[0003]本申请实施例提供一种视频处理方法、装置、设备、存储介质及计算机程序产品,可降低从视频中抽取得到的关键帧的冗余度,提高关键帧抽取的准确性。
[0004]一方面,本申请实施例提供了一种视频处理方法,包括:
[0005]获取多个视频帧;所述多个视频帧是通过对目标视频进行抽帧处理得到的;
[0006]提取所述多个视频帧中各个视频帧的图文特征,并将所述多个视频帧中任一视频帧添加至关键帧检索库中;任一视频帧的图文特征包括图像特征以及文本特征;
[0007]遍历所述多个视频帧,若基于当前遍历的目标视频帧的图文特征以及所述关键帧检索库中各个视频帧的图文特征,确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧,则将所述目标视频帧添加至所述关键帧检索库中
[0008]在遍历所述多个视频帧结束之后,将所述关键帧检索库中包括的视频帧作为所述目标视频的关键帧。
[0009]一方面,本申请实施例提供了一种视频处理装置,包括:
[0010]获取单元,用于获取多个视频帧;所述多个视频帧是通过对目标视频进行抽帧处理得到的;
[0011]处理单元,用于提取所述多个视频帧中各个视频帧的图文特征,并将所述多个视频帧中任一视频帧添加至关键帧检索库中;任一视频帧的图文特征包括图像特征以及文本特征;
[0012]所述处理单元,还用于遍历所述多个视频帧,若基于当前遍历的目标视频帧的图文特征以及所述关键帧检索库中各个视频帧的图文特征,确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧,则将所述目标视频帧添加至所述关键帧检索库中;
[0013]所述处理单元,还用于在遍历所述多个视频帧结束之后,将所述关键帧检索库中包括的视频帧作为所述目标视频的关键帧。
[0014]一方面,本申请实施例提供了一种视频处理设备,其特征在于,所述视频处理设备
包括输入接口和输出接口,还包括:
[0015]处理器,适于实现一条或多条指令;以及,
[0016]计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述视频处理方法。
[0017]一方面,本申请实施例提供了一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行上述视频处理方法。
[0018]一方面,本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序,该计算机程序存储在计算机存储介质中;视频处理设备的处理器从计算机存储介质中读取该计算机程序,处理器执行该计算机程序,使得视频处理设备执行上述视频处理方法。
[0019]本申请实施例中,在获取从目标视频中抽帧得到的多个视频帧之后,可以提取多个视频帧中各个视频帧的图文特征,并将任一视频帧添加至关键帧检索库中;进而可以遍历多个视频帧,若基于当前遍历的目标视频帧的图文特征以及关键帧检索库中各个视频帧的图文特征,确定关键帧检索库中不存在与目标视频帧相似的视频帧,则将目标视频帧添加至关键帧检索库中;在遍历多个视频帧结束之后,将关键帧检索库中包括的视频帧作为目标视频的关键帧。由于对于目标视频抽帧得到的每个视频帧,均需要在与关键帧检索库中各个视频帧均不相似的情况下,才会将相应视频帧添加至视频帧检索库中,因此在遍历多个视频帧结束之后,关键帧检索库中所包含的各个视频帧应该是互不相似的,并且可以充分表达目标视频的视频信息,综上所述,可以降低从视频中抽取得到的关键帧的冗余度,提高关键帧抽取的准确性。
附图说明
[0020]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本申请实施例提供的一种通过训练后的神经网络模型提取目标视频帧的图文特征的示意图;
[0022]图2是本申请实施例提供的一种视频处理方法的流程示意图;
[0023]图3是本申请实施例提供的另一种视频处理方法的流程示意图;
[0024]图4是本申请实施例提供的一种神经网络模型的结构示意图;
[0025]图5是本申请实施例提供的另一种视频处理方法的流程示意图;
[0026]图6是本申请实施例提供的一种通过训练后的神经网络模型提取目标视频帧的多模态融合特征的示意图;
[0027]图7是本申请实施例提供的另一种神经网络模型的结构示意图;
[0028]图8是本申请实施例提供的另一种神经网络模型的结构示意图;
[0029]图9是本申请实施例提供的视频处理装置的结构示意图;
[0030]图10是本申请实施例提供的视频处理设备的结构示意图。
具体实施方式
[0031]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0032]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0033]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术(Computer Vision,CV)、语音处理技术、自然语言处理技术以及机器学习(Machine Learning,ML)/深度学习(Deep本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:获取多个视频帧;所述多个视频帧是通过对目标视频进行抽帧处理得到的;提取所述多个视频帧中各个视频帧的图文特征,并将所述多个视频帧中任一视频帧添加至关键帧检索库中;任一视频帧的图文特征包括图像特征以及文本特征;遍历所述多个视频帧,若基于当前遍历的目标视频帧的图文特征以及所述关键帧检索库中各个视频帧的图文特征,确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧,则将所述目标视频帧添加至所述关键帧检索库中;在遍历所述多个视频帧结束之后,将所述关键帧检索库中包括的视频帧作为所述目标视频的关键帧。2.如权利要求1所述的方法,其特征在于,所述基于当前遍历的目标视频帧的图文特征以及所述关键帧检索库中各个视频帧的图文特征,确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧,包括:确定所述目标视频帧的图像特征与所述关键帧检索库中各个视频帧的图像特征之间的图像特征相似度;将所述关键帧检索库中,图像特征相似度大于图像特征相似度阈值的视频帧作为候选视频帧;确定所述目标视频帧的文本特征与各个候选视频帧的文本特征之间的文本特征相似度;在各个文本特征相似度均小于或等于文本特征相似度阈值的情况下,确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧。3.如权利要求1所述的方法,其特征在于,所述基于当前遍历的目标视频帧的图文特征以及所述关键帧检索库中各个视频帧的图文特征,确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧,包括:将所述目标视频帧的图像特征与所述目标视频帧的文本特征进行特征融合处理,得到所述目标视频帧的多模态融合特征;将所述关键帧检索库中各个视频帧的图像特征与相应视频帧的文本特征进行特征融合处理,得到所述关键帧检索库中各个视频帧的多模态融合特征;基于所述目标视频帧的多模态融合特征以及所述关键帧检索库中各个视频帧的多模态融合特征,确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧。4.如权利要求3所述的方法,其特征在于,所述基于所述目标视频帧的多模态融合特征以及所述关键帧检索库中各个视频帧的多模态融合特征,确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧,包括:确定所述目标视频帧的多模态融合特征与所述关键帧检索库中各个视频帧的多模态融合特征之间的融合特征相似度;在各个融合特征相似度均小于或等于融合特征相似度阈值的情况下,确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧。5.如权利要求3所述的方法,其特征在于,所述基于所述目标视频帧的多模态融合特征以及所述关键帧检索库中各个视频帧的多模态融合特征,确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧,包括:
对所述关键帧检索库中各个视频帧的多模态融合特征进行特征聚类处理,得到多个融合特征集合以及各个融合特征集合对应的聚类中心特征;根据所述目标视频帧的多模态融合特征与所述各个融合特征集合对应的聚类中心特征之间的相似度,从所述多个融合特征集合中确定出目标融合特征集合;所述目标融合特征集合对应的相似度大于其他融合特征集合对应的相似度;确定所述目标视频帧的多模态融合特征与所述目标融合特征集合中各个视频帧的多模态融合特征之间的融合特征相似度;在各个融合特征相似度均小于或等于融合特征相似度阈值的情况下,确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧。6.如权利要求1所述的方法,其特征在于,任一视频帧的图像特征以及文本特征是通过训练后的神经网络模型提取得到的,所述训练后的神经网络模型是通过对神经网络模型进行训练得到的;所述神经网络模型的训练方式包括:获取第一样本图像、第二样本图像、图像相似标签以及文本相似标签;所述图像相似标签用于指示:所述第一样本图像的图像特征与所述第二样本图像的图像特征是否相似,所述文本相似标签用于指示:所述第一样本图像的文本特征与所述第二样...

【专利技术属性】
技术研发人员:汪翔黄珊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1