当前位置: 首页 > 专利查询>延安大学专利>正文

基于多路径网络结构和多深监督机制的意图对象预测方法技术

技术编号:35165850 阅读:12 留言:0更新日期:2022-10-12 17:28
本发明专利技术公开了一种基于多路径网络结构和多深监督机制的意图对象预测方法,包括以下步骤:获取初始图像样本,根据初始图像样本通过人体注意力模块获取视觉注意概率图,根据初始图像样本对初始图像样本中手的关键点进行检测并进行高斯滤波获得手位置概率图,根据所述初始图像样本通过全局语义与局部轮廓模块提取物体轮廓信息;基于所述视觉注意概率图、所述手位置概率图和所述物体轮廓信息进行基于空间注意力的融合,再进行深监督处理获得所述初始图像样本的下一个短期活动对象的准确概率图,完成意图对象预测。本发明专利技术基于深监督机制整合了全局语义与局部轮廓信息,人体注意力和手部关键点的线索,预测以自我为中心的图像中的短期下一个活动对象。中的短期下一个活动对象。中的短期下一个活动对象。

【技术实现步骤摘要】
基于多路径网络结构和多深监督机制的意图对象预测方法


[0001]本专利技术属于意图对象预测
,尤其涉及一种基于多路径网络结构和多深监督机制的意图对象预测方法。

技术介绍

[0002]预测人类将要交互的物体,检测人类的意图对于智能系统来说是一项重要的任务,这对人机协同工作或者人机交互,有着重要意义。例如,当一个残疾人想要拿放在桌子上的书时,机器人检测到残疾人的意图,在其行动前予以回应,将书递过去,它可以帮助残疾人完成生活中一些日常行为活动。在过去,Bertasius等人提出了action

objects的概念,即捕捉人的有意识视觉或触觉交互的对象。他们将第一人称RGB和DHG图像作为网络的输入,分别对二维视觉外观和三维空间线索进行编码。然后,完全卷积RGB路径使用视觉外观线索,而完全卷积DHG路径利用3D空间信息检测动作对象。两条路径的信息通过联合路径进行组合,联合路径还实现了第一人称坐标嵌入,然后输出每像素动作对象概率图。
[0003]Furnari等人认为当用户执行特定任务时,他移动和与环境交互的方式受其目标和与对象的预期交互行为的影响。因此轨迹的形状以及它们在帧中出现的位置有助于预测下一个主动对象,将它们与那些将保持被动的对象区分开来。于是他们通过分析时间滑动窗口内固定长度的轨迹段来预测下一个活动对象。
[0004]Bertasius等人尝试了从第一人称视频中无监督学习重要对象。他们推测无监督情况下可以检测到重要对象,因为重要对象显示出共同的视觉语义和空间布局。他们提出了由空间和视觉路径组成的VSN(视觉空间网络),网络首先猜测重要对象在第一人称图像中的位置,并使用MCG投影方案提出重要对象分割mask,这些mask被用作监控信号来训练视觉通路,来自视觉通路的预测通过MCG投影并传输到空间通路。然后,空间路径学习第一人称图像中重要对象的“位置”。重复这种交替的跨通道监管方案来得到最终预测结果。
[0005]在第一视觉下的下一活动物体预测,视觉线索是不可或缺的一部分,人类在想要触碰或获取某个物体时,注意力会集中在该物体上,因此人类的注意力指示着下一个活动对象的可能位置。此外,人手的位置也直接关系着下一活动物体的所在之处,因为人类通过手去操纵物体。在观察过一些网络的结果后,我们发现有些网络输出的概率图的边缘比较粗糙,并不能很好的分割出下一活动物体的轮廓。提出了一个拥有多径网络结构和多深度监控机制的网络模型,该模型将以自我为中心的图像作为输入,输出结果为下一个活动对象位置的概率图。具体来说,模型拥有三条路径,其中一条路径生成人类注意力的概率图,一条路径生成手部关键点的概率图,还有一条路径提取全局语义以及局部轮廓信息,三条路径的输出概率图作为融合模块的输入被融合,并且网络中在人体注意力模块输出处与融合模块的空间注意力后加入了深监督分支对主干网络进行监督,最后融合模块输出下一活动物体的概率图。

技术实现思路

[0006]本专利技术的目的在于提出一种基于多路径网络结构和多深监督机制的意图对象预测方法,智能设备预测人类想要抓取或触碰的物体上,帮助残疾人或受伤者完成任务。
[0007]为实现上述目的,本专利技术提供了一种基于多路径网络结构和多深监督机制的意图对象预测方法,包括以下步骤:
[0008]获取初始图像样本,根据所述初始图像样本获得视觉注意概率图;
[0009]根据所述初始图像样本进行手部检测后通过高斯滤波获得手位置概率图;
[0010]根据所述初始图像样本通过全局语义与局部轮廓模块提取物体轮廓信息;
[0011]基于所述视觉注意概率图、所述手位置概率图和所述物体轮廓信息进行空间注意力融合,再进行深监督处理获得所述初始图像样本的下一个短期活动对象的准确概率图,完成意图对象预测。
[0012]可选的,根据所述初始图像样本获得视觉注意概率图的方法具体包括:
[0013]根据所述初始图像样本采用改进的骨干网络处理,将编码器网络中的层和改进的解码器网络中的层连接,获得解码后的所述视觉注意概率图;所述改进的骨干网络添加了若干跳层,所述改进的解码器网络添加了2D Dropblocks防止过拟合。
[0014]可选的,根据所述初始图像样本通过高斯滤波获得手位置概率图的方法具体包括:
[0015]检测所述初始图像样本中中指指尖点位置,对所述中指指尖点位置进行赋值并进行高斯滤波获得所述手位置概率图。
[0016]可选的,根据所述初始图像样本通过高斯滤波获得手位置概率图的方法还包括检测不到所述初始图像样本中中指指尖点位置,获得手位置概率图具体包括:通过两个实验数据集检测中指指尖点的统计平均值作为高斯核点,根据所述高斯核点定义高斯滤波器,结合所述赋值获得所述手位置概率图。
[0017]可选的,根据所述初始图像样本通过全局语义与局部轮廓提取物体轮廓信息的方法具体包括:通过detectron2网络将所述初始图像样本中每个物体进行分割,获取所述每个物体的轮廓信息,用来预测下一活动物体轮廓信息。
[0018]可选的,基于所述视觉注意概率图、所述手位置概率图和所述物体轮廓信息进行空间注意力融合的方法具体包括:
[0019]首先将人体注意力模块的输出F
v
,手部关键点的概率图F
h
,全局语义信息和局部轮廓信息F
s
通过三个独立的卷积层进行批量归一化,转化为相同维度的子空间,再将它们相加得到F
c
,随后输入空间注意力进行目标定位,并进行变换或者获取权重,找到所述目标中最重要的部分进行处理,然后再对空间注意力的输出F
a
进行细化,输出下一活动物体所在位置的概率图。
[0020]可选的,获得所述初始图像样本的下一个短期活动对象的准确概率图具体包括:基于深监督机制对所述空间注意力处理后的概率图进行迭代训练获取损失函数,根据所述损失函数再进行深监督机制处理获得所述初始图像样本的下一个短期活动对象的准确概率图。
[0021]可选的,所述损失函数计算包括:
[0022][0023]其中,y
n
是label,p
n
是下一活动对象预测的概率。
[0024]本专利技术技术效果:本专利技术公开了一种基于多路径网络结构和多深监督机制的意图对象预测方法,采用新的具有深监督机制的多径网络结构来预测下一个活动物体,将手部关键点作为高斯核中心,采用一种新的高斯滤波机制来生成手部关键点的位置概率图,对输入图像中的物体进行轮廓信息的提取来增加网络的精度,网络深监督模块的有效性,它提高网络中间部分的学习过程的直接性,网络得到了更加充分地训练,提高了训练速度和意图对象的预测精度。
附图说明
[0025]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0026]图1为本专利技术实施例基于多路径网络结构和多深监督机制本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多路径网络结构和多深监督机制的意图对象预测方法,包括以下步骤:获取初始图像样本,根据所述初始图像样本获得视觉注意概率图;根据所述初始图像样本通过高斯滤波获得手位置概率图;根据所述初始图像样本通过全局语义与局部轮廓提取物体轮廓信息;基于所述视觉注意概率图、所述手位置概率图和所述物体轮廓信息进行融合,再进行深监督处理获得所述初始图像样本的下一个短期活动对象的准确概率图,完成意图对象预测。2.如权利要求1所述的基于多路径网络结构和多深监督机制的意图对象预测方法,其特征在于,根据所述初始图像样本获得视觉注意概率图的方法具体包括:根据所述初始图像样本采用改进的骨干网络处理,将编码器网络中的层和改进的解码器网络中的层连接,获得解码后的所述视觉注意概率图;所述改进的骨干网络添加了若干跳层,所述改进的解码器网络添加了2D Dropblocks防止过拟合。3.如权利要求1所述的基于多路径网络结构和多深监督机制的意图对象预测方法,其特征在于,根据所述初始图像样本获得手位置概率图的方法具体包括:检测所述初始图像样本中中指指尖点位置,对所述中指指尖点位置进行赋值并进行高斯滤波获得所述手位置概率图。4.如权利要求3所述的基于多路径网络结构和多深监督机制的意图对象预测方法,其特征在于,根据所述初始图像样本通过高斯滤波获得手位置概率图的方法还包括检测不到所述初始图像样本中中指指尖点位置,获得手位置概率图具体包括:通过两个实验数据集检测中指指尖点的统计平均值作为高斯核点,根据所述高斯核点定义高斯滤波器,结合所述赋值获得所述手位置概率图。5.如权利要求1所述的基于多路径网络结构和多深监督机制的意图对象预测方法,...

【专利技术属性】
技术研发人员:马宗楠张富春南智雄
申请(专利权)人:延安大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1