基于多路径网络结构和多深监督机制的意图对象预测方法技术

技术编号：35165850 阅读：19 留言：0更新日期：2022-10-12 17:28

本发明专利技术公开了一种基于多路径网络结构和多深监督机制的意图对象预测方法,包括以下步骤：获取初始图像样本，根据初始图像样本通过人体注意力模块获取视觉注意概率图，根据初始图像样本对初始图像样本中手的关键点进行检测并进行高斯滤波获得手位置概率图，根据所述初始图像样本通过全局语义与局部轮廓模块提取物体轮廓信息；基于所述视觉注意概率图、所述手位置概率图和所述物体轮廓信息进行基于空间注意力的融合，再进行深监督处理获得所述初始图像样本的下一个短期活动对象的准确概率图，完成意图对象预测。本发明专利技术基于深监督机制整合了全局语义与局部轮廓信息，人体注意力和手部关键点的线索，预测以自我为中心的图像中的短期下一个活动对象。中的短期下一个活动对象。中的短期下一个活动对象。

全部详细技术资料下载

【技术实现步骤摘要】
基于多路径网络结构和多深监督机制的意图对象预测方法

[0001]本专利技术属于意图对象预测
，尤其涉及一种基于多路径网络结构和多深监督机制的意图对象预测方法。

技术介绍

[0002]预测人类将要交互的物体，检测人类的意图对于智能系统来说是一项重要的任务，这对人机协同工作或者人机交互,有着重要意义。例如，当一个残疾人想要拿放在桌子上的书时，机器人检测到残疾人的意图，在其行动前予以回应，将书递过去，它可以帮助残疾人完成生活中一些日常行为活动。在过去，Bertasius等人提出了action
‑
objects的概念，即捕捉人的有意识视觉或触觉交互的对象。他们将第一人称RGB和DHG图像作为网络的输入，分别对二维视觉外观和三维空间线索进行编码。然后，完全卷积RGB路径使用视觉外观线索，而完全卷积DHG路径利用3D空间信息检测动作对象。两条路径的信息通过联合路径进行组合，联合路径还实现了第一人称坐标嵌入，然后输出每像素动作对象概率图。
[0003]Furnari等人认为当用户执行特定任务时，他移动和与环境交互的方式受其目标和与对象的预期交互行为的影响。因此轨迹的形状以及它们在帧中出现的位置有助于预测下一个主动对象，将它们与那些将保持被动的对象区分开来。于是他们通过分析时间滑动窗口内固定长度的轨迹段来预测下一个活动对象。
[0004]Bertasius等人尝试了从第一人称视频中无监督学习重要对象。他们推测无监督情况下可以检测到重要对象，因为重要对象显示出共同的视觉语义和空间布局。他们提出了...

【技术保护点】

【技术特征摘要】
1.一种基于多路径网络结构和多深监督机制的意图对象预测方法，包括以下步骤：获取初始图像样本，根据所述初始图像样本获得视觉注意概率图；根据所述初始图像样本通过高斯滤波获得手位置概率图；根据所述初始图像样本通过全局语义与局部轮廓提取物体轮廓信息；基于所述视觉注意概率图、所述手位置概率图和所述物体轮廓信息进行融合，再进行深监督处理获得所述初始图像样本的下一个短期活动对象的准确概率图，完成意图对象预测。2.如权利要求1所述的基于多路径网络结构和多深监督机制的意图对象预测方法，其特征在于，根据所述初始图像样本获得视觉注意概率图的方法具体包括：根据所述初始图像样本采用改进的骨干网络处理，将编码器网络中的层和改进的解码器网络中的层连接，获得解码后的所述视觉注意概率图；所述改进的骨干网络添加了若干跳层，所述改进的解码器网络添加了2D Dropblocks防止过拟合。3.如权利要求1所述的基于多路径网络结构和多深监督机制的意图对象预测方法，其特征在于，根据所述初始图像样本获得手位置概率图的方法具体包括：检测所述初始图像样本中中指指尖点位置，对所述中指指尖点位置进行赋值并进行高斯滤波获得所述手位置概率图。4.如权利要求3所述的基于多路径网络结构和多深监督机制的意图对象预测方法，其特征在于，根据所述初始图像样本通过高斯滤波获得手位置概率图的方法还包括检测不到所述初始图像样本中中指指尖点位置，获得手位置概率图具体包括：通过两个实验数据集检测中指指尖点的统计平均值作为高斯核点，根据所述高斯核点定义高斯滤波器，结合所述赋值获得所述手位置概率图。5.如权利要求1所述的基于多路径网络结构和多深监督机制的意图对象预测方法，...

【专利技术属性】
技术研发人员：马宗楠，张富春，南智雄，
申请(专利权)人：延安大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人