视频处理方法、装置、设备、存储介质及计算机程序产品制造方法及图纸

技术编号：39296790 阅读：7 留言：0更新日期：2023-11-07 11:04

本申请公开一种视频处理方法、装置、设备、存储介质及计算机程序产品，其相关实施例可应用于人工智能等场景中。该方法包括：获取多个视频帧；多个视频帧是通过对目标视频进行抽帧处理得到的；提取多个视频帧中各个视频帧的图文特征，并将多个视频帧中任一视频帧添加至关键帧检索库中；遍历多个视频帧，若基于当前遍历的目标视频帧的图文特征以及关键帧检索库中各个视频帧的图文特征，确定关键帧检索库中不存在与目标视频帧相似的视频帧，则将目标视频帧添加至关键帧检索库中；在遍历多个视频帧结束之后，将关键帧检索库中包括的视频帧作为目标视频的关键帧。可降低从视频中抽取得到的关键帧的冗余度，提高关键帧抽取的准确性。提高关键帧抽取的准确性。提高关键帧抽取的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
视频处理方法、装置、设备、存储介质及计算机程序产品

[0001]本申请涉及人工智能领域，尤其涉及一种视频处理方法、装置、设备、存储介质及计算机程序产品。

技术介绍

[0002]在与视频处理相关的场景中，例如各种基于视频帧的视频理解场景、直播流的应用场景，通常需要从视频中抽取关键帧，并基于抽取得到的关键帧对视频进行分析等处理；在现有的视频关键帧抽取方法中，主要通过对比相邻视频帧之间的相似性，来判断相应视频帧是否为关键帧；现有的视频关键帧抽取方法在抽取关键帧时，只考虑了相邻视频帧之间的相似性，在诸如视频发生转场后，又转回来的情况下，基于现有的视频关键帧抽取方法抽取得到的关键帧存在冗余，导致关键帧抽取的准确性低。

技术实现思路

[0003]本申请实施例提供一种视频处理方法、装置、设备、存储介质及计算机程序产品，可降低从视频中抽取得到的关键帧的冗余度，提高关键帧抽取的准确性。
[0004]一方面，本申请实施例提供了一种视频处理方法，包括：
[0005]获取多个视频帧；所述多个视频帧是通过对目标视频进行抽帧处理得到的；
[0006]提取所述多个视频帧中各个视频帧的图文特征，并将所述多个视频帧中任一视频帧添加至关键帧检索库中；任一视频帧的图文特征包括图像特征以及文本特征；
[0007]遍历所述多个视频帧，若基于当前遍历的目标视频帧的图文特征以及所述关键帧检索库中各个视频帧的图文特征，确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧，则将所述目标视频帧添加至所述关键帧检索库中...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法，其特征在于，包括：获取多个视频帧；所述多个视频帧是通过对目标视频进行抽帧处理得到的；提取所述多个视频帧中各个视频帧的图文特征，并将所述多个视频帧中任一视频帧添加至关键帧检索库中；任一视频帧的图文特征包括图像特征以及文本特征；遍历所述多个视频帧，若基于当前遍历的目标视频帧的图文特征以及所述关键帧检索库中各个视频帧的图文特征，确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧，则将所述目标视频帧添加至所述关键帧检索库中；在遍历所述多个视频帧结束之后，将所述关键帧检索库中包括的视频帧作为所述目标视频的关键帧。2.如权利要求1所述的方法，其特征在于，所述基于当前遍历的目标视频帧的图文特征以及所述关键帧检索库中各个视频帧的图文特征，确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧，包括：确定所述目标视频帧的图像特征与所述关键帧检索库中各个视频帧的图像特征之间的图像特征相似度；将所述关键帧检索库中，图像特征相似度大于图像特征相似度阈值的视频帧作为候选视频帧；确定所述目标视频帧的文本特征与各个候选视频帧的文本特征之间的文本特征相似度；在各个文本特征相似度均小于或等于文本特征相似度阈值的情况下，确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧。3.如权利要求1所述的方法，其特征在于，所述基于当前遍历的目标视频帧的图文特征以及所述关键帧检索库中各个视频帧的图文特征，确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧，包括：将所述目标视频帧的图像特征与所述目标视频帧的文本特征进行特征融合处理，得到所述目标视频帧的多模态融合特征；将所述关键帧检索库中各个视频帧的图像特征与相应视频帧的文本特征进行特征融合处理，得到所述关键帧检索库中各个视频帧的多模态融合特征；基于所述目标视频帧的多模态融合特征以及所述关键帧检索库中各个视频帧的多模态融合特征，确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧。4.如权利要求3所述的方法，其特征在于，所述基于所述目标视频帧的多模态融合特征以及所述关键帧检索库中各个视频帧的多模态融合特征，确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧，包括：确定所述目标视频帧的多模态融合特征与所述关键帧检索库中各个视频帧的多模态融合特征之间的融合特征相似度；在各个融合特征相似度均小于或等于融合特征相似度阈值的情况下，确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧。5.如权利要求3所述的方法，其特征在于，所述基于所述目标视频帧的多模态融合特征以及所述关键帧检索库中各个视频帧的多模态融合特征，确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧，包括：
对所述关键帧检索库中各个视频帧的多模态融合特征进行特征聚类处理，得到多个融合特征集合以及各个融合特征集合对应的聚类中心特征；根据所述目标视频帧的多模态融合特征与所述各个融合特征集合对应的聚类中心特征之间的相似度，从所述多个融合特征集合中确定出目标融合特征集合；所述目标融合特征集合对应的相似度大于其他融合特征集合对应的相似度；确定所述目标视频帧的多模态融合特征与所述目标融合特征集合中各个视频帧的多模态融合特征之间的融合特征相似度；在各个融合特征相似度均小于或等于融合特征相似度阈值的情况下，确定所述关键帧检索库中不存在与所述目标视频帧相似的视频帧。6.如权利要求1所述的方法，其特征在于，任一视频帧的图像特征以及文本特征是通过训练后的神经网络模型提取得到的，所述训练后的神经网络模型是通过对神经网络模型进行训练得到的；所述神经网络模型的训练方式包括：获取第一样本图像、第二样本图像、图像相似标签以及文本相似标签；所述图像相似标签用于指示：所述第一样本图像的图像特征与所述第二样本图像的图像特征是否相似，所述文本相似标签用于指示：所述第一样本图像的文本特征与所述第二样...

【专利技术属性】
技术研发人员：汪翔，黄珊，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人