System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 视频数据处理方法、装置、电子设备及可读存储介质制造方法及图纸_技高网

视频数据处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:44969225 阅读:0 留言:0更新日期:2025-04-12 01:42
本发明专利技术实施例提供了一种视频数据处理方法、装置、电子设备及可读存储介质,包括:获取待检索视频的初始视频特征向量;将初始视频特征向量输入目标视频编码器,目标视频编码器包括卷积神经网络,循环神经网络和选择性序列模型;通过卷积神经网络获取初始视频特征向量的全局特征向量,通过循环神经网络获取初始视频特征向量的时序特征向量;将全局特征向量和时序特征向量融合后得到第一视频特征向量;通过选择性序列模型为不同的第一视频特征向量配置不同的权重,从而提升计算效率。

【技术实现步骤摘要】

本专利技术属于数据处理领域,特别是涉及一种视频数据处理方法、装置、电子设备及可读存储介质


技术介绍

1、随着在线上传视频的增加,视频文本检索成为人们高效查找相关视频的一个新兴需求,视频文本检索是多模态视觉和语言理解的一项基础研究任务。其中,视频不仅仅是一系列静态帧的简单集合,而是一个动态连续的信息流,是一种复杂的长序列信息。对于长序列建模的核心问题是如何同时实现有效性和高效性。有效性要求模型能够选择性记忆历史信息,解决长距离依赖问题;而高效性则要求计算过程高效。

2、当前的视频文本检索通过clip4clip模型实现,clip4clip模型通过像素级的方法对模型进行预训练,即使用预训练clip模型从原始视频中学习,将知识从图片文本预训练中迁移到视频文本检索任务中。与clipbert模型采用的稀疏采样策略不同,clip4clip模型采用平均采样从视频片段中提取较为连续的图片帧,然后通过视频编码器对其进行编码,以获得一系列特征。为了增强时间特征提取,模型在视频编码器中使用了3d线性投影,以三维卷积代替二维线性中的核。

3、然而,clip4clip模型的视频编码器主要采用transformer结构,具有处理任意长度输入和建立全局关系的优点,但其注意力机制在处理长序列时,因为需要创建权重矩阵来比较各token标记间的相关性,导致显存消耗大,计算序列的效率低。


技术实现思路

1、本专利技术提供一种视频数据处理方法、装置、电子设备及可读存储介质,以便解决当前的视频文本检索模型视频编码器采用transformer结构,在处理长序列时,因为需要创建权重矩阵来比较各token间的相关性,导致显存消耗大,计算序列的效率低的问题。

2、为了解决上述技术问题,本专利技术是这样实现的:

3、第一方面,本专利技术提供一种视频数据处理方法,所述方法包括:

4、获取待检索视频的初始视频特征向量;

5、将所述初始视频特征向量输入目标视频编码器,所述目标视频编码器包括卷积神经网络,循环神经网络和选择性序列模型;

6、通过所述卷积神经网络获取所述初始视频特征向量的全局特征向量,通过所述循环神经网络获取所述初始视频特征向量的时序特征向量;

7、将所述全局特征向量和所述时序特征向量融合后得到第一视频特征向量;

8、通过所述选择性序列模型为不同的所述第一视频特征向量配置不同的权重。

9、可选的,在所述获取待检索视频的初始视频特征向量之前,还包括:

10、获取待检索文本;

11、对所述待检索文本进行分词处理,得到目标分词;

12、根据预设的词汇表,获取所述目标分词对应的数字编码;

13、将所述数字编码输入文本编辑器,输出所述待检索文本的文本特征向量。

14、可选的,所述获取待检索视频的初始视频特征向量,包括:

15、获取待检索视频的视频帧;

16、按照预设间隔从所述视频帧中抽取目标视频帧;

17、将所述目标视频帧进行分块,获取图像块;

18、通过线性投影,将所述图像块转换为初始视频特征向量。

19、可选的,在所述通过所述选择性序列模型为不同的所述第一视频特征向量配置不同的权重之后,还包括:

20、将所述待检索文本的文本特征向量和所述待检索视频中携带权重的第一视频特征向量进行分块,得到向量块;

21、为所述向量块添加类别向量,所述类别向量包括文本类别向量和视频类别向量;

22、将添加类别向量的所述向量块输入解码器,输出所述待检索文本和所述待检索视频的相似度。

23、可选的,在所述将添加类别向量的所述向量块输入解码器,输出所述待检索文本和所述待检索视频的相似度之后,还包括:

24、获取若干已匹配的视频文本对和所述视频文本对的相似度得分;

25、根据所述相似度得分,生成相似度矩阵;

26、通过所述相似度矩阵,获取视频到文本的第一损失和文本到视频的第二损失。

27、可选的,在所述通过所述相似度矩阵,获取视频到文本的第一损失和文本到视频的第二损失之后,还包括:

28、获取所述第一损失和所述第二损失的损失和;

29、通过所述损失和调整所述选择性序列模型中的目标参数矩阵。

30、可选的,所述通过所述选择性序列模型为不同的所述第一视频特征向量配置不同的权重,包括:

31、预先为选择性序列模型设置目标参数矩阵,其中,所述目标参数矩阵根据输入参数进行调整,所述目标参数矩阵包括第一参数矩阵,第二参数矩阵和第三参数矩阵;

32、获取所述选择性序列模型中上一时间步的隐藏状态值;

33、通过所述上一时间步的隐藏状态值,所述第一视频特征向量,第一参数矩阵和第二参数矩阵,获取所述选择性序列模型中当前时间步的隐藏状态值;

34、通过所述当前时间步的隐藏状态值和第三参数矩阵,获取配置不同的权重的所述第一视频特征向量。

35、第二方面,本专利技术提供一种视频数据处理装置,所述装置包括:

36、第一获取模块,用于获取待检索视频的初始视频特征向量;

37、输入模块,用于将所述初始视频特征向量输入目标视频编码器,所述目标视频编码器包括卷积神经网络,循环神经网络和选择性序列模型;

38、第二获取模块,用于通过所述卷积神经网络获取所述初始视频特征向量的全局特征向量,通过所述循环神经网络获取所述初始视频特征向量的时序特征向量;

39、融合模块,用于将所述全局特征向量和所述时序特征向量融合后得到第一视频特征向量;

40、权重配置模块,用于通过所述选择性序列模型为不同的所述第一视频特征向量配置不同的权重。

41、第三方面,本专利技术提供一种电子设备,包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;

42、所述处理器,用于读取存储器中的程序实现执行上述任一所述的视频数据处理方法。

43、第四方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的视频数据处理方法。

44、在本专利技术实施例中,获取待检索视频的初始视频特征向量;将初始视频特征向量输入目标视频编码器,目标视频编码器包括卷积神经网络,循环神经网络和选择性序列模型;通过卷积神经网络获取初始视频特征向量的全局特征向量,通过循环神经网络获取初始视频特征向量的时序特征向量;将全局特征向量和时序特征向量融合后得到第一视频特征向量;通过选择性序列模型为不同的第一视频特征向量配置不同的权重,通过采用目标编码器的卷积神经网络和循环神经网络可以在不增加时间维度计算的情况下,有效地建立大规模视频数据中特征间的时间关系,极大地节约了计算资源,也可以更加高效和直接地提取视本文档来自技高网...

【技术保护点】

1.一种视频数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述方法,其特征在于,在所述获取待检索视频的初始视频特征向量之前,还包括:

3.根据权利要求1所述方法,其特征在于,所述获取待检索视频的初始视频特征向量,包括:

4.根据权利要求2所述方法,其特征在于,在所述通过所述选择性序列模型为不同的所述第一视频特征向量配置不同的权重之后,还包括:

5.根据权利要求4所述方法,其特征在于,在所述将添加类别向量的所述向量块输入解码器,输出所述待检索文本和所述待检索视频的相似度之后,还包括:

6.根据权利要求5所述方法,其特征在于,在所述通过所述相似度矩阵,获取视频到文本的第一损失和文本到视频的第二损失之后,还包括:

7.根据权利要求1所述方法,其特征在于,所述通过所述选择性序列模型为不同的所述第一视频特征向量配置不同的权重,包括:

8.一种视频数据处理装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括:收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;

10.一种可读存储介质,用于存储程序,其特征在于,所述存储程序被处理器执行时实现如权利要求1-7中任意一项所述视频数据处理方法中的步骤。

...

【技术特征摘要】

1.一种视频数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述方法,其特征在于,在所述获取待检索视频的初始视频特征向量之前,还包括:

3.根据权利要求1所述方法,其特征在于,所述获取待检索视频的初始视频特征向量,包括:

4.根据权利要求2所述方法,其特征在于,在所述通过所述选择性序列模型为不同的所述第一视频特征向量配置不同的权重之后,还包括:

5.根据权利要求4所述方法,其特征在于,在所述将添加类别向量的所述向量块输入解码器,输出所述待检索文本和所述待检索视频的相似度之后,还包括:

6.根据权利要求...

【专利技术属性】
技术研发人员:李思佳
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1