一种自进化视频对象信息驱动目标分割框架构建方法技术

技术编号：42782270 阅读：10 留言：0更新日期：2024-09-21 00:42

本发明专利技术公开了一种自进化视频对象信息驱动目标分割框架构建方法，首先提取视觉和语言特征，然后进行语言查询与动态核生成，接下来构建跨模态特征金字塔网络，最后进行实例序列分割处理。本发明专利技术通过整合先进的计算机视觉技术和自然语言处理技术，提供了一种从语言描述到视频对象分割的端到端解决方案，不仅提高了处理效率，还增强了分割精度，尤其适用于实时视频分析应用，如智能监控、交互式媒体编辑等。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机，具体涉及一种自进化视频对象信息驱动目标分割框架构建方法。

技术介绍

1、视频对象信息驱动目标分割任务是指通过解析自然语言描述来识别并分割视频中指定的目标对象。这一任务结合了计算机视觉和自然语言处理两个领域，旨在提高机器对视频内容的理解能力，使其能够在复杂的视觉场景中根据语言描述准确识别和定位动态对象。由于该技术在智能监控、交互式媒体编辑、目标跟踪、人员搜救等领域具有极高的应用价值，引发了工业界的广泛关注与研究。然而，一方面，这项任务需同时处理和理解视觉与语言两种不同模态的数据，这要求模型不仅要分析图像中的视觉信息，还要理解语言描述中的细节和上下文，另一方面，视频中的对象可能会随时间改变其位置、形态甚至遮挡状态，模型需要完全依赖语言描述来识别目标对象，这都给视频对象信息驱动目标分割带来了较大困难。

2、现有的视频对象信息驱动目标分割方法主要可以分为两大类：

3、自下而上方法：这类方法首先独立处理每一帧图像，提取视觉和语言特征，然后通过早期融合这些特征，使用全卷积网络(fcn)等解码器生成对象掩模。这种方法的主要缺点是它通常无法有效处理视频中的时序信息和动态变化，导致对象在连续帧中的识别和分割效果不稳定。

4、自上而下方法：此类方法采用两阶段策略，首先使用实例分割模型识别每一帧中的所有可能对象，然后根据语言描述选择与之最匹配的对象。虽然这种方法在性能上通常优于自下而上的方法，但其复杂的多阶段流程增加了计算负担，并可能因为各子任务优化不一致而导致次优的整体性能。

技术实现思路

1、为了克服现有技术的不足，本专利技术提供了一种自进化视频对象信息驱动目标分割框架构建方法，首先提取视觉和语言特征，然后进行语言查询与动态核生成，接下来构建跨模态特征金字塔网络(cross-modal feature pyramid network,cm-fpn)，最后进行实例序列分割处理。本专利技术通过整合先进的计算机视觉技术和自然语言处理技术，提供了一种从语言描述到视频对象分割的端到端解决方案，不仅提高了处理效率，还增强了分割精度，尤其适用于实时视频分析应用，如智能监控、交互式媒体编辑等。

2、本专利技术解决其技术问题所采用的技术方案如下：

3、步骤1：对于视频中的每一帧，使用预训练的卷积神经网络提取视觉特征其中表示第t帧的视觉特征；视觉特征的空间分辨率是h×w，d表示特征通道数，t表示视频帧数，it表示第t帧视频；

4、步骤2：对于文本描述使用语言模型处理每个词el，得到特征向量序列l表示文本句子长度，fi表示第i个词的语言特征；通过对所有词的语言特征进行池化，获得文本描述的语言特征c表示文本特征通道数；

5、步骤3：将视觉特征fv通过1×1卷积操作降维到和语言特征统一的通道数，将降维后的视觉特征与语言特征fe相乘，形成新的多尺度特征图其中f′t的计算公式为：

6、f′t＝conv1×1(ft)⊙fe (1)

7、其中，conv1表示1×1卷积操作，⊙表示乘法运算；

8、步骤4：用n表示待查询的实例个数，基于语言特征fe生成一组条件查询q，条件查询q用于识别和定位视频中被引用的对象，查询权重在视频帧之间共享，将语言特征fe重复n次以匹配查询数量；将q和视觉特征fv一起输入解码器，查询转化为动态核其中nq＝t×n表示总的查询数，用于从相应的特征图中通过动态卷积生成分割掩码，wi表示第i个动态核的权重；

9、步骤5：在解码器之上构建了三个轻量级头部，分别为类别头、掩码头和边框头；进一步转换嵌入实例，类别头用于确定每个实例是否由文本句子引用，掩码头用于生成与每个动态核相关的掩码参数，边框头用于预测每个引用对象的边界框位置；

10、步骤6：构建多层级特征金字塔来进行视频帧的视觉-语言特征融合，对于四层特征图，设置下采样因子为[8,4,2,1]；接下来，视觉特征与语言特征通过交叉注意力机制融合，在具有空间步幅为4的特征图上应用额外的3×3卷积层以获得最终的特征图其中表示第t帧图像的最终特征图，cd表示最终特征图的通道数；视觉特征与语言特征进行融合的公式如下表示：

11、

12、其中是可学习参数，表示视觉特征的第l层特征，hl表示第l层特征图高度，wl表示第l层特征图宽度，fe表示语言特征，c表示编码器的特征通道数，dhead表示编码器头的特征维度；

13、步骤7：动态卷积生成掩码；

14、对于每一帧中的每一个动态核wi和对应的特征图执行卷积操作并获得分割掩码用公式表示如下：

15、

16、其中表示第i个动态核的特征图；表示卷积操作；

17、步骤8：对于用n个条件查询，生成了包含nq＝t×n预测值的集合，将其视为在t帧上对n个实例的轨迹预测；使用实例匹配策略来监督整个序列中的实例顺序，将预测集表示为第i个实例的预测如下：

18、

19、其中对于第t次帧，是一个概率标量，用于指示实例是否与所指对象相对应且该对象在当前帧中可见；是归一化的向量，定义了预测框的中心坐标以及高度和宽度；是预测的二进制语义分割掩码；

20、步骤9：总损失函数和若干损失函数如下定义:

21、

22、

23、

24、

25、其中为匹配成本损失，为分类损失，为边界框损失，为掩码损失，λcls、λbox、λmask分别为分类损失、边界框损失、掩码损失所占的权重，y表示真实值，表示第i个实例在所有帧中的预测值，表示预测边界框与真实边界框b之间的绝对差异；giou、dice、focal的定义如下：

26、

27、其中b,是两个边界框，c是包含b,的最小闭合区域；

28、

29、其中s,分别是真实掩码和预测掩码；

30、

31、其中αt是平衡因子，γ是调制因子。

32、优选地，所述卷积神经网络为resnet或swin transformer。

33、优选地，所述语言模型为bert或roberta。

34、本专利技术的有益效果如下：

35、本专利技术的视频对象信息驱动目标分割框架通过整合先进的计算机视觉技术和自然语言处理技术，提供了一种从语言描述到视频对象分割的端到端解决方案。不仅提高了处理效率，还增强了分割精度，尤其适用于实时视频分析应用，如智能监控、交互式媒体编辑等。

本文档来自技高网...

【技术保护点】

1.一种自进化视频对象信息驱动目标分割框架构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种自进化视频对象信息驱动目标分割框架构建方法，其特征在于，所述卷积神经网络为ResNet或Swin Transformer。

3.根据权利要求1所述的一种自进化视频对象信息驱动目标分割框架构建方法，其特征在于，所述语言模型为BERT或RoBERTa。

【技术特征摘要】

1.一种自进化视频对象信息驱动目标分割框架构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种自进化视频对象信息驱动目标分割框架构建方法，其特征在于，所述卷积神经网...

【专利技术属性】
技术研发人员：王鹏，张艳宁，王佳宝，索伟，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人