System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于视频场景理解和内容分析领域,具体涉及一种联合区域感知语义对齐的开放词汇视频场景图生成方法。
技术介绍
1、视频场景图生成(vidsgg)任务的目的是检测和定位给定视频中不同实体轨迹之间的视觉关系,以<主语-关系-宾语>的形式构建这些关系为关系三元组。它在各种视觉理解任务中都承担了关键作用,通过提供结构化的知识来增强对视频的理解。
2、由于现有的视频场景图生成方法仍然局限于在闭集设置(closed-set)的场景中识别对象和预测视觉关系,这导致了它们无法被直接应用到现实场景中。因为现实场景往往包含了比模型训练数据集中更多的物体和关系类别。因此,探索开放词汇的视频场景图生成方法是有必要的。得益于流行的视觉语言模型(vlms)的百科全书式知识,如clip,现有的开放词汇场景图生成方法可以很容易地识别新的对象,并通过视觉对象和文本类别标签之间的对象级对齐来探索新的关系。然而,这些开放词汇场景图方法过度依赖于预先训练好的vlms提供的对齐的视觉和文本对象特征来进行模型学习,而忽略了视觉关系区域和关系谓词概念之间的对齐。视觉关系区域被表示为两个对象的联合区域,通常被认为是关系预测的一种辅助补充。事实上,大多数现有的方法只是将这种联合区域表示与对象特征融合,没有做进一步的探索。此外根据之前的研究所示,vlms(如clip)在执行组合场景理解时仍然面临挑战,如对象间的关系。这导致了对象对(主语-宾语)表示和关系谓词表示之间不完整和不可靠的对齐,并导致模糊的关系预测。
3、因此,为了构建一个开放词
技术实现思路
1、为解决上述技术问题,本专利技术提供一种联合区域感知语义对齐的开放词汇视频场景图生成方法,其为一种开放词汇的视频场景图生成算法,通过显式建模视觉联合区域和关系谓词之间的关联,以对视觉关系进行预测。此外,一个合适的蒸馏方法也需要考虑,以达到开放词汇的预测效果。
2、为了实现上述目的,本专利技术采用如下技术方案:
3、一种联合区域感知语义对齐的开放词汇视频场景图生成算法,包括以下步骤:
4、步骤s1:考虑视频的视觉信息和文本信息,对训练集中的视频进行视频语义学习,并进行开放词汇的物体轨迹分类;
5、步骤s2:通过蒸馏方式学习开放词汇知识;
6、步骤s3:构造物体视觉信息,物体运动信息以及物体的视觉联合区域,进行全面的上下文语义理解;
7、步骤s4:利用之前步骤得到的语义感知表征结合可学习的关系令牌来生成视觉关系表征并进行关系预测;
8、步骤s5:将步骤s1到步骤s4整合到一个统一框架,进行统一框架的模型的整体训练。
9、本专利技术的有益效果为:
10、本专利技术联合区域感知语义对齐网络,明确地探索了对象轨迹联合区域和关系谓词之间的对齐,从而进行更全面的关系预测。
本文档来自技高网...【技术保护点】
1.一种联合区域感知语义对齐的开放词汇视频场景图生成方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种联合区域感知语义对齐的开放词汇视频场景图生成方法,其特征在于,所述步骤S1包括:
3.根据权利要求1所述的一种联合区域感知语义对齐的开放词汇视频场景图生成方法,其特征在于,所述步骤S2包括:
4.根据权利要求1所述的一种联合区域感知语义对齐的开放词汇视频场景图生成方法,其特征在于,所述步骤S3包括:
5.根据权利要求1所述的一种联合区域感知语义对齐的开放词汇视频场景图生成方法,其特征在于,所述步骤S4包括以下步骤:
6.根据权利要求1所述的一种联合区域感知语义对齐的开放词汇视频场景图生成方法,其特征在于,所述步骤S5包括:
【技术特征摘要】
1.一种联合区域感知语义对齐的开放词汇视频场景图生成方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种联合区域感知语义对齐的开放词汇视频场景图生成方法,其特征在于,所述步骤s1包括:
3.根据权利要求1所述的一种联合区域感知语义对齐的开放词汇视频场景图生成方法,其特征在于,所述步骤s2包括:
4.根据权...
【专利技术属性】
技术研发人员:徐常胜,高君宇,吴子越,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。