System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于语义与显著性知识协同传播的弱监督时序动作定位方法和装置制造方法及图纸_技高网

基于语义与显著性知识协同传播的弱监督时序动作定位方法和装置制造方法及图纸

技术编号:44247894 阅读:8 留言:0更新日期:2025-02-11 13:44
基于语义与显著性知识协同传播的弱监督时序动作定位方法和装置,其方法包括:1)对未裁剪的视频进行时序特征和显著性前景特征提取;2)构建基本分支和显著性感知分支分别处理时序特征、显著性目标特征获得基础类激活序列,运动、外观表示分数以及显著性类激活序列,加权融合四个序列获得融合动作分数序列;3)利用分支蒸馏和分支动作一致性约束交互语义信息和显著性信息,完善融合动作分数序列;4)提取基本分支与显著性感知分支的关键片段与歧义片段,并利用分支间、分支内的关键片段与歧义片段进行对比学习改善特征表示,结合蒸馏结果完善融合动作分数序列并获取动作定位结果。本发明专利技术能够在未剪辑的视频中感知细微人体动作与精确的时间动作边界。

【技术实现步骤摘要】

本专利技术涉及计算机视频分析,尤其涉及弱监督视频时序动作定位方法和装置。


技术介绍

1、视频时序动作定位是计算机视觉领域的研究重点之一,旨在未裁剪的视频中定位出所属动作类别发生的起止时间。它在实际生活中具有重要的应用价值和意义,如视频检索、视频异常内容检测、智能监控、智慧交通等领域。目前,视频时序动作定位网络的训练方式可分为全监督训练和弱监督训练,全监督时序动作定位的训练不仅需要视频包含的动作类别标签,还需要逐帧人工标注,但是在实际应用场景下,视频数据往往缺少帧级标注,而人工对海量视频进行标注需要很大的代价,在现实场景应用下使用全监督训练方法费时费力。为了克服逐帧标记的全监督时序动作定位模型的局限性,高效的弱监督时序动作定位方法应运而生,其只需要视频级分类标签便可进行训练。

2、现有的弱监督时序动作定位方法可以分为三类:第一类方法聚焦分类和定位之间的模式差异,该方法专注于生成更精细的伪标签片段来减少分类和定位之间的差异。第二类方法集中在前景片段和背景片段分离问题上,主要手段是使用不同的注意力机制使得前景和背景能够准确判别;第三类方法是突出学习判别式行为特征或是模糊行为特征的方法,该方法通过度量、擦除或是对比等手段学习判别性行为特征,缓解模糊性行为特征。前两类方法往往会暴露出只关注于最具判别性的动作片段上,模糊性片段容易被忽略的问题漏检或误检问题。

3、以上三类方法均能通过学习有效的损失函数取得一定的定位效果,但是往往受制于外观和运动特征的有限表示使得模型难以区分部分前景外观融入背景之中、时序画面变化剧烈的行为片段,导致仍存在动作检测误检和漏检的问题。因此,深入探索语义和显著性知识之间的可协作关系,在前景背景难以分离的片段中感知细微动作信息来提取前景,对于提高模型的视频时序动作定位能力有着重要的积极意义。


技术实现思路

1、为了克服现有技术的不足之处,本专利技术提供基于语义与显著性知识协同传播的弱监督时序动作定位方法和装置。本专利技术从两个角度研究了视频中语义知识和显著性知识之间的传播方法:第一个是通过分支间的蒸馏实现语义和显著性知识中关键信息的互补,第二个是通过分支间与分支内部的特征表示聚类实现知识的内化。基于这样的思路来缓解模型对细粒度动作片段的误检或漏检的问题。

2、本专利技术解决其技术问题所采用的技术方案是:

3、本专利技术的第一个方面涉及一种基于语义与显著性知识协同传播的弱监督时序动作定位方法,所述方法内容包括以下步骤:

4、1)通过双流网络和显著性目标检测网络分别对未剪辑的视频进行时序特征和显著性前景特征提取,未剪辑的视频包含人体活动及其他背景的视频;

5、2)建立一个显著性感知分支,将提取到的显著性前景特征作为输入训练该分支来获得显著性类激活序列,将其作为该分支的代表性序列,并对其在通道维度上求和获得显著性动作表示分数,利用该分数与基本分支中获得的时间类激活序列、外观动作表示分数以及运动动作表示分数进行加权融合得到融合动作分数序列,将其作为基本分支的代表性序列用来表示语义和显著性知识的初步融合;

6、3)分别根据融合动作分数序列和显著性类激活序列与阈值的比较获得伪标签,通过蒸馏方法将本地伪标签中的知识传播到另一分支的代表性序列中,并利用预测类别维度下的动作一致性约束增强传播效果,最终实现语义信息和显著性信息的互补学习;

7、4)基于各分支伪标签挖掘出对应的关键片段和歧义片段,其中关键片段同时包含了关键语义和显著前景信息,而歧义片段中包含了矛盾的语义内容与前景显著性信息。基于上述片段,利用对比学习方法聚集关键片段的特征表示,并引导歧义片段特征在特征空间上靠近关键片段特征,获得更加准确的表示,最后结合融合动作序列的前k个高分动作的索引和时间类激活序列获得时序动作定位结果。

8、本专利技术的第二个方面涉及基于语义与显著性知识协同传播的弱监督时序动作定位装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现本专利技术的一种基于语义与显著性知识协同传播的弱监督时序动作定位方法。

9、计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本专利技术的一种基于语义与显著性知识协同传播的弱监督时序动作定位方法。

10、本专利技术的工作原理是(分析本专利技术优点产生的原因):针对包含人体动作行为的视频时序定位问题,提取出了视频中的显著性前景信息,并设计单独的分支与蒸馏方法、对比学习方法结合将显著性前景信息与时序特征信息相融合,从而提高对有效显著性前景信息的利用率。

11、本专利技术的优点是:针对包含人体动作行为的海量视频中,提出了一种识别与定位人体行为动作准确性较高的基于语义与显著性知识协同传播的弱监督时序动作定位方法,通过有效融合显著性前景信息与语义信息大大提高对人体显著动作区域的关注度,增强了视频人体动作的识别与定位能力。

本文档来自技高网...

【技术保护点】

1.基于语义与显著性知识协同传播的弱监督时序动作定位方法,其特征在于:包括以下步骤:

2.如权利要求1所述的基于语义与显著性知识协同传播弱监督时序动作定位方法,其特征在于:步骤2)具体包括:显著性感知分支建立后用于从显著性前景特征中获取视频的显著性知识,首先,对显著性前景特征进行预处理,得到如式(5)。

3.如权利要求1所述的基于语义与显著性知识协同传播弱监督时序动作定位方法,其特征在于:步骤3)具体包括:其中,蒸馏方法主要通过设计一个相对熵(也称信息散度)优化函数,缩小两个概率分布之间的信息熵差值,即缩小用一个分布来近似另一个分布时引入的信息损失或误差。此处利用蒸馏方法原理缩小分支代表性序列近似到伪标签序列时的相对熵。首先,为降低SSA和AScore中噪声的存在对关键知识传播的影响,生成三元伪标签作为知识交互和内化的媒介。其次,使用固定的系数α1和α2分别乘以AC和ASA的中位数来得到每个分支的高低阈值σh,σl(σh>σl),并利用阈值设置伪标签如式(7):

4.如权利要求1所述的基于语义与显著性知识协同传播弱监督时序动作定位方法,其特征在于:步骤4)具体包括:为了加深知识交互后每个分支对知识的理解和内化,基于每个伪标签之间的一致性和数值差异,为每个分支挖掘一致的关键片段和不一致的歧义片段。首先获取掩码以获取分支之间一致和不一致的信息。公式如下:

5.如权利要求4所述的基于语义与显著性知识协同传播弱监督时序动作定位方法,其特征在于:γ1,γ2,γ3,γ4取值分别为1.8、2.0、0.015、0.02。

6.如权利要求2所述的基于语义与显著性知识协同传播弱监督时序动作定位方法,其特征在于:步骤2)中,基本分支中的时间类激活序列、外观动作表示分数以及运动动作表示分数获得过程如下:首先将外观和光流特征在通道维度级联得到然后将其输入到由一维卷积和ReLU函数组成的特征提取器层f中,以获得嵌入特征如下式:

7.基于语义与显著性知识协同传播的弱监督时序动作定位装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-5中任一项所述的基于语义与显著性知识协同传播的弱监督时序动作定位方法。

8.计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-5中任一项所述的基于语义与显著性知识协同传播的弱监督时序动作定位方法。

...

【技术特征摘要】

1.基于语义与显著性知识协同传播的弱监督时序动作定位方法,其特征在于:包括以下步骤:

2.如权利要求1所述的基于语义与显著性知识协同传播弱监督时序动作定位方法,其特征在于:步骤2)具体包括:显著性感知分支建立后用于从显著性前景特征中获取视频的显著性知识,首先,对显著性前景特征进行预处理,得到如式(5)。

3.如权利要求1所述的基于语义与显著性知识协同传播弱监督时序动作定位方法,其特征在于:步骤3)具体包括:其中,蒸馏方法主要通过设计一个相对熵(也称信息散度)优化函数,缩小两个概率分布之间的信息熵差值,即缩小用一个分布来近似另一个分布时引入的信息损失或误差。此处利用蒸馏方法原理缩小分支代表性序列近似到伪标签序列时的相对熵。首先,为降低ssa和ascore中噪声的存在对关键知识传播的影响,生成三元伪标签作为知识交互和内化的媒介。其次,使用固定的系数α1和α2分别乘以ac和asa的中位数来得到每个分支的高低阈值σh,σl(σh>σl),并利用阈值设置伪标签如式(7):

4.如权利要求1所述的基于语义与显著性知识协同传播弱监督时序动作定位方法,其特征在于:步骤4)具体包括:为了加深知识交互后每个分支对知识的理解和内化,基于...

【专利技术属性】
技术研发人员:党源杰寿昊宇胡雨曈陈江昀张斌郑硕陈朋
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1