System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及图像处理与识别,尤其涉及一种半监督人与物体交互检测方法、装置及存储介质。
技术介绍
1、人与物体交互检测能够检测出一张图片中发生交互的人和物体的位置、物体的类别以及交互关系的类别。人与物体交互检测具有非常重要的意义,比如:在自动驾驶系统中,检测系统通过检测道路上行人和周围物体的关系判别周围道路的情况,从而做出安全的驾驶行为;在医院监护系统中,检测系统可以通过受监护人和周围物体的关系判断受监护人是否处于紧急情况中,从而保证受监护人的生命健康安全。
2、目前人与物体交互检测面临的主要问题是复杂的标注信息使得训练集难以扩展。由于transformer的训练需要大量的数据,当前主流基于transformer的人与物体交互检测模型的性能提升逐渐趋于瓶颈。在检测领域,已经有一些方法将半监督学习思想引入到目标检测任务当中取得了较好的效果。但是直接将目标检测半监督方法应用于人与物体交互检测会遇到无法提高人-物交互对边界框伪标签质量和动作类别过于长尾导致无法获取有效动作类别伪标签的问题,这大大限制了人与物体交互检测模型充分利用无标注数据学习到更好的交互对特征的能力。
技术实现思路
1、为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种半监督人与物体交互检测方法、装置及存储介质。
2、为实现上述目的,本专利技术提供以下技术方案:
3、第一方面,本专利技术提供了一种半监督人与物体交互检测方法,其特征在于,包括以下步骤:
...【技术保护点】
1.一种半监督人与物体交互检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的半监督人与物体交互检测方法,其特征在于,所述Student网络和所述Teacher网络均包括基于CNN的深度神经网络、Transformer编码器、Transformer解码器和人与物体交互检测网络。
3.根据权利要求2所述的半监督人与物体交互检测方法,其特征在于,所述Transformer编码器包括级联的自注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络和层归一化处理模块,所述自注意力模块的查询矩阵、键矩阵和值矩阵分别为F+PE,F+PE和F,所述Transformer编码器的输出为E;
4.根据权利要求2所述的半监督人与物体交互检测方法,其特征在于,所述人与物体交互检测网络包括四个前向反馈网络,所述四个前向反馈网络分别由三全连接层、三全连接层、一全连接层和一全连接层构成;所述四个前向反馈网络分别用于预测人的位置、物体位置、物体类别以及关系类别。
5.根据权利要求3所述的半监督人与物体交互检测方法,其特征在于,所述Stud
6.根据权利要求3所述的半监督人与物体交互检测方法,其特征在于,在所述Student网络中,输入为有标注数据的强增强视图、有标注数据的弱增强视图和无标注数据的强增强视图;在所述Teacher网络中,输入为无标注数据的弱增强视图;在所述Student网络中,Transformer解码器的互注意力模块的查询矩阵通过有标注数据标注信息构造得到;在所述Teacher网络中,Transformer解码器的互注意力模块的查询矩阵通过可学习向量预测无标注数据交互对结果得到。
7.根据权利要求3所述的半监督人与物体交互检测方法,其特征在于,所述Teacher网络的Transformer解码器的互注意力模块的查询矩阵根据以下预设公式进行构造:
8.根据权利要求3所述的半监督人与物体交互检测方法,其特征在于,所述Teacher网络输出的伪标签,根据以下预设公式进行构造:
9.一种电子装置,其特征在于,所述电子装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序,所述至少一条指令、所述至少一段程序由所述处理器加载并执行,以实现如权利要求1至8任一所述的半监督人与物体交互检测方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序,所述至少一条指令、所述至少一段程序由处理器加载并执行以实现如权利要求1至8任一所述的半监督人与物体交互检测方法。
...【技术特征摘要】
1.一种半监督人与物体交互检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的半监督人与物体交互检测方法,其特征在于,所述student网络和所述teacher网络均包括基于cnn的深度神经网络、transformer编码器、transformer解码器和人与物体交互检测网络。
3.根据权利要求2所述的半监督人与物体交互检测方法,其特征在于,所述transformer编码器包括级联的自注意力模块、残差连接网络、层归一化处理模块、前向反馈网络、残差连接网络和层归一化处理模块,所述自注意力模块的查询矩阵、键矩阵和值矩阵分别为f+pe,f+pe和f,所述transformer编码器的输出为e;
4.根据权利要求2所述的半监督人与物体交互检测方法,其特征在于,所述人与物体交互检测网络包括四个前向反馈网络,所述四个前向反馈网络分别由三全连接层、三全连接层、一全连接层和一全连接层构成;所述四个前向反馈网络分别用于预测人的位置、物体位置、物体类别以及关系类别。
5.根据权利要求3所述的半监督人与物体交互检测方法,其特征在于,所述student网络的transformer解码器中的互注意力模块的查询矩阵qgt根据以下预设公式进行构造:
6.根据权利要求3所述的半监督人与物体交互检测方法,其特征在于,在所...
【专利技术属性】
技术研发人员:丁长兴,李星奥,
申请(专利权)人:人工智能与数字经济广东省实验室广州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。