System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种半监督人与物体交互检测方法、装置及存储介质制造方法及图纸_技高网

一种半监督人与物体交互检测方法、装置及存储介质制造方法及图纸

技术编号:42163893 阅读:11 留言:0更新日期:2024-07-27 00:12
本发明专利技术涉及图像处理与识别技术领域,尤其涉及一种半监督人与物体交互检测方法、装置及存储介质,本发明专利技术的方法获取无标注和有标注的人与物体交互检测的数据集,并对所述数据集进行增强处理;分别构建Student网络和Teacher网络,并分别对所述Student网络和所述Teacher网络进行初始化操作;同时训练所述Teacher网络和所述Student网络,在训练中,利用预设的损失函数和利用所述Teacher网络输出的伪标签监督所述Student网络的输出,使用所述Student网络的参数更新所述Teacher网络的参数,获得参数更新后的所述Teacher网络;利用参数更新后的所述Teacher网络对人与物体关系进行检测,本发明专利技术能进一步提升当前人与物体交互检测算法的准确度。

【技术实现步骤摘要】

本专利技术涉及图像处理与识别,尤其涉及一种半监督人与物体交互检测方法、装置及存储介质


技术介绍

1、人与物体交互检测能够检测出一张图片中发生交互的人和物体的位置、物体的类别以及交互关系的类别。人与物体交互检测具有非常重要的意义,比如:在自动驾驶系统中,检测系统通过检测道路上行人和周围物体的关系判别周围道路的情况,从而做出安全的驾驶行为;在医院监护系统中,检测系统可以通过受监护人和周围物体的关系判断受监护人是否处于紧急情况中,从而保证受监护人的生命健康安全。

2、目前人与物体交互检测面临的主要问题是复杂的标注信息使得训练集难以扩展。由于transformer的训练需要大量的数据,当前主流基于transformer的人与物体交互检测模型的性能提升逐渐趋于瓶颈。在检测领域,已经有一些方法将半监督学习思想引入到目标检测任务当中取得了较好的效果。但是直接将目标检测半监督方法应用于人与物体交互检测会遇到无法提高人-物交互对边界框伪标签质量和动作类别过于长尾导致无法获取有效动作类别伪标签的问题,这大大限制了人与物体交互检测模型充分利用无标注数据学习到更好的交互对特征的能力。


技术实现思路

1、为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种半监督人与物体交互检测方法、装置及存储介质。

2、为实现上述目的,本专利技术提供以下技术方案:

3、第一方面,本专利技术提供了一种半监督人与物体交互检测方法,其特征在于,包括以下步骤:

4、获取无标注和有标注的人与物体交互检测的数据集,并对所述数据集进行增强处理;

5、分别构建student网络和teacher网络,并分别对所述student网络和所述teacher网络进行初始化操作;

6、同时训练所述teacher网络和所述student网络,在训练中,利用预设的损失函数和利用所述teacher网络输出的伪标签监督所述student网络的输出,使用所述student网络的参数更新所述teacher网络的参数,获得参数更新后的所述teacher网络;

7、利用参数更新后的所述teacher网络对人与物体关系进行检测。

8、第二方面,本专利技术还提供了一种电子装置,包括处理器以及存储器;

9、所述存储器用于存储程序;

10、所述处理器执行所述程序实现如前面所述的方法。

11、第三方面,本专利技术还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。

12、第四方面,本专利技术还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。

13、本专利技术与现有技术相比,其有益效果在于:本专利技术利用由粗到细的机制来提高无标注数据预测出的人-物交互对边界框伪标签的质量,并且通过clip模型生成稀有类别的动作分数分布来获取高质量的动作类别伪标签。从而解决了现有半监督方法应用在人与物体交互检测上无法获取高质量伪标签的问题,大大提升了人与物体交互检测模型充分利用无标注数据学习到更好的交互对特征的能力。在不需要人工标注的情况下利用了大量额外无标注数据,大大提升了人与物体交互检测性能。

本文档来自技高网
...

【技术保护点】

1.一种半监督人与物体交互检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的半监督人与物体交互检测方法,其特征在于,所述Student网络和所述Teacher网络均包括基于CNN的深度神经网络、Transformer编码器、Transformer解码器和人与物体交互检测网络。

3.根据权利要求2所述的半监督人与物体交互检测方法,其特征在于,所述Transformer编码器包括级联的自注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络和层归一化处理模块,所述自注意力模块的查询矩阵、键矩阵和值矩阵分别为F+PE,F+PE和F,所述Transformer编码器的输出为E;

4.根据权利要求2所述的半监督人与物体交互检测方法,其特征在于,所述人与物体交互检测网络包括四个前向反馈网络,所述四个前向反馈网络分别由三全连接层、三全连接层、一全连接层和一全连接层构成;所述四个前向反馈网络分别用于预测人的位置、物体位置、物体类别以及关系类别。

5.根据权利要求3所述的半监督人与物体交互检测方法,其特征在于,所述Student网络的Transformer解码器中的互注意力模块的查询矩阵Qgt根据以下预设公式进行构造:

6.根据权利要求3所述的半监督人与物体交互检测方法,其特征在于,在所述Student网络中,输入为有标注数据的强增强视图、有标注数据的弱增强视图和无标注数据的强增强视图;在所述Teacher网络中,输入为无标注数据的弱增强视图;在所述Student网络中,Transformer解码器的互注意力模块的查询矩阵通过有标注数据标注信息构造得到;在所述Teacher网络中,Transformer解码器的互注意力模块的查询矩阵通过可学习向量预测无标注数据交互对结果得到。

7.根据权利要求3所述的半监督人与物体交互检测方法,其特征在于,所述Teacher网络的Transformer解码器的互注意力模块的查询矩阵根据以下预设公式进行构造:

8.根据权利要求3所述的半监督人与物体交互检测方法,其特征在于,所述Teacher网络输出的伪标签,根据以下预设公式进行构造:

9.一种电子装置,其特征在于,所述电子装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序,所述至少一条指令、所述至少一段程序由所述处理器加载并执行,以实现如权利要求1至8任一所述的半监督人与物体交互检测方法。

10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序,所述至少一条指令、所述至少一段程序由处理器加载并执行以实现如权利要求1至8任一所述的半监督人与物体交互检测方法。

...

【技术特征摘要】

1.一种半监督人与物体交互检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的半监督人与物体交互检测方法,其特征在于,所述student网络和所述teacher网络均包括基于cnn的深度神经网络、transformer编码器、transformer解码器和人与物体交互检测网络。

3.根据权利要求2所述的半监督人与物体交互检测方法,其特征在于,所述transformer编码器包括级联的自注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络和层归一化处理模块,所述自注意力模块的查询矩阵、键矩阵和值矩阵分别为f+pe,f+pe和f,所述transformer编码器的输出为e;

4.根据权利要求2所述的半监督人与物体交互检测方法,其特征在于,所述人与物体交互检测网络包括四个前向反馈网络,所述四个前向反馈网络分别由三全连接层、三全连接层、一全连接层和一全连接层构成;所述四个前向反馈网络分别用于预测人的位置、物体位置、物体类别以及关系类别。

5.根据权利要求3所述的半监督人与物体交互检测方法,其特征在于,所述student网络的transformer解码器中的互注意力模块的查询矩阵qgt根据以下预设公式进行构造:

6.根据权利要求3所述的半监督人与物体交互检测方法,其特征在于,在所...

【专利技术属性】
技术研发人员:丁长兴李星奥
申请(专利权)人:人工智能与数字经济广东省实验室广州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1