一种用于Affordance推理的深度网络构建方法技术

技术编号:25757241 阅读:27 留言:0更新日期:2020-09-25 21:06
公开一种用于Affordance推理的深度网络构建方法,其能够描述物体间影响的不对称性,考虑不同邻居节点的差异性影响的问题,更好地刻画场景上下文中物体之间的关系。该方法包括两个部分:视觉特征提取部分和Affordance推理部分;Affordance推理部分采用门控图注意力网络(Gated Graph Attention Neural Network,GGANN),以图结构作为上下文的载体,基于对象级别的上下文信息构建双向图,对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示,图节点之间建立双向边,并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响。

【技术实现步骤摘要】
一种用于Affordance推理的深度网络构建方法
本专利技术涉及计算机视觉和模式识别的
,尤其涉及一种用于Affordance推理的深度网络构建方法。
技术介绍
Affordance描述在具体环境中允许代理(agent)与该环境中的物体进行的交互,或交互过程中体现出的物体在该环境中具有的功能。交互动作的发出者称为主体,动作的承接者称为客体,通常代理是主体,环境中的物体是客体。具体的Affordance推理包括两个角度:主体的角度,即代理的角度推理该环境允许代理进行哪些动作交互;客体的角度,即环境中物体的角度推理物体在该环境中能够完成哪些任务。从代理的角度研究具体的Affordance需要考虑场景上下文。例如考虑椅子的Affordance“是否允许坐”,即代理是否可以坐在环境中的某个椅子上?如果该椅子已经有人坐在上面或者椅子上放有物体(例如背包)时,则不能坐在该椅子上,即代理是否被允许与场景中的物体—椅子交互需要考虑场景中其他物体(例如人、背包等)与椅子的关系。其他物体与当前待交互物体的关系对当前的交互影响不同:当背包A放在椅子上时,因为椅子被背包A占用,所以背包A与椅子的关系对当前交互有影响,导致该椅子不能被坐;当背包B放在椅子旁边时,因为椅子没有被背包B占用,背包B与椅子的关系对当前交互没有影响,该椅子是否能被坐需要进一步考虑其他因素。从客体的角度研究Affordance时,同样需要考虑场景上下文。例如从场景中选择一个杯子盛酒,而这个场景中恰好只有茶杯而没有酒杯。由于当前场景中没有最恰当的可以完成任务的物体—酒杯,那么就需要考虑场景中功能与酒杯类似的其他物体,茶杯的功能是盛茶水,这与酒杯盛酒的功能最相似,所以可以选择用茶杯来盛酒。此外,上下文中一对物体间的相互影响是不对称的,例如第一个例子中“背包A放在椅子上”的背包和椅子,背包A对椅子的影响和椅子对背包A的影响是不同的。椅子不能被坐的原因是背包A在椅子上,所以背包A对椅子的Affordance“是否允许坐”有影响;但同一场景下椅子对背包A的Affordance“是否允许提”没有影响。目前基于计算机视觉研究Affordance推理的方法通常使用深度网络对环境中的物体提取视觉特征,然后通过门控图网络(GatedGraphNeuralNetwork,GGNN)模型对环境内物体进行空间上下文建模。具体地,利用图节点表示环境中的物体,利用节点之间的边表示物体之间的关系。已有的基于门控图网络进行Affordance推理的研究工作对于空间上下文中物体之间的相互影响考虑不足,表现为使用单向边连接图节点,没有考虑到物体间影响的不对称性;邻居节点信息聚合的过程中平等对待各邻居节点,没有考虑不同邻居节点的差异性影响。
技术实现思路
为克服现有技术的缺陷,本专利技术要解决的技术问题是提供了一种用于Affordance推理的深度网络构建方法,其能够描述物体间影响的不对称性,考虑不同邻居节点的差异性影响的问题,更好地刻画场景上下文中物体之间的关系。本专利技术的技术方案是:这种用于Affordance推理的深度网络构建方法,包括两个部分:视觉特征提取部分和Affordance推理部分;Affordance推理部分采用门控图注意力网络结构,以图结构作为上下文的载体,基于对象级别的上下文信息构建双向图,对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示,图节点之间建立双向边,并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响。本专利技术的Affordance推理部分采用门控图注意力网络结构,环境上下文建模采用双向图,其中的双向边用于描述物体之间的不对称影响,引入图注意力机制更新图中边的权值以描述不同邻居节点间的差异性影响,因此能够描述物体间影响的不对称性,考虑不同邻居节点的差异性影响的问题,更好地刻画场景上下文中物体之间的关系。附图说明图1是根据本专利技术的用于Affordance推理的深度网络构建方法的一个具体实施例的流程图。图2是根据本专利技术的用于Affordance推理的深度网络构建方法视觉特征提取部分用到的卷积核示意图。图3是根据本专利技术的用于Affordance推理的深度网络构建方法的图注意力系数计算示意图。具体实施方式本专利技术提出的用于Affordance推理的深度网络构建方法建立在以下理论基础之上:代理在具体环境中执行某项动作或者使用该环境下的物体去完成某项任务时,需要考虑物体的状态以及环境中各物体之间的影响,这些信息被称作上下文信息。这种用于Affordance推理的深度网络构建方法包括两个部分:视觉特征提取部分和Affordance推理部分;Affordance推理部分采用门控图注意力网络结构,以图结构作为上下文的载体,基于对象级别的上下文信息构建双向图,对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示,图节点之间建立双向边,并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响。本专利技术的Affordance推理部分采用门控图注意力网络结构,环境上下文建模采用双向图,其中的双向边用于描述物体之间的不对称影响,引入图注意力机制更新图中边的权值以描述不同邻居节点间的差异性影响,因此能够描述物体间影响的不对称性,考虑不同邻居节点的差异性影响的问题,更好地刻画场景上下文中物体之间的关系。更进一步地,基于图注意力机制更新边的权值使得节点有偏重地获取邻居节点的信息。已有的对环境中的物体提取视觉特征的深度网络通常采用标准卷积核,计算量和参数量过大,影响推理效率。优选地,视觉特征提取部分采用HetConv-ResNet结构,其中卷积计算使用异构卷积核,以解决网络计算量和参数量大的问题。针对传统模型计算量和参数量大的问题,本专利技术在提取视觉特征的深度网络模块采用异构卷积核以减少计算量和参数量,在保证Affordance推理准确率的前提下,减小模型对于计算能力和存储空间的需求。优选地,Affordance推理部分为GGANN,在COCO-Tasks和ADE-Affordance数据集上对深度网络进行训练和测试。COCO-Tasks数据集标注了物体允许的交互(物体的功能,例如舒服地乘坐),可用于测试从物体角度推理Affordance的任务。COCO-Tasks数据集基于COCO数据集定义了14个常见的任务,包含40000张标注的图像,其中30229张图像用于训练,9495张图像用于测试。ADE-Affordance数据集标注了代理与环境交互的可行性(物体的功能是否被允许使用,例如“坐”这个动作在该环境下能否能够执行),可用于测试从代理角度推理Affordance的任务。ADE-Affordance数据集是在ADE20k数据集(包括候机室、银行大厅、卧室等场景)的基础上标注物体相关的交互“坐”、“跑”、“抓握”三个动作能否被执行,具体标注是“被允许的”、“被禁止的”、“异常的”。数据集中8000张图像用于训练,1000张本文档来自技高网
...

【技术保护点】
1.一种用于Affordance推理的深度网络构建方法,其特征在于:该方法包括两个部分:视觉特征提取部分和Affordance推理部分;Affordance推理部分采用门控图注意力网络结构,以图结构作为上下文的载体,基于对象级别的上下文信息构建双向图,对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示,图节点之间建立双向边,并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响。/n

【技术特征摘要】
1.一种用于Affordance推理的深度网络构建方法,其特征在于:该方法包括两个部分:视觉特征提取部分和Affordance推理部分;Affordance推理部分采用门控图注意力网络结构,以图结构作为上下文的载体,基于对象级别的上下文信息构建双向图,对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示,图节点之间建立双向边,并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响。


2.根据权利要求1所述的用于Affordance推理的深度网络构建方法,其特征在于:节点间通过双向边连接,且基于图注意力机制更新边的权值使得节点能够有偏重地获取邻居节点的信息。


3.根据权利要求2所述的用于Affordance推理的深度网络构建方法,其特征在于:视觉特征提取部分采用异构残差网络(HeterogeneousConvolutionResidualNetwork,HetConv-ResNet)结构,其中使用异构卷积核,以解决网络计算量和参数量大的问题。


4.根据权利要求3所述的用于Affordance推理的深度网络构建方法,其特征在于:在COCO-Tasks和ADE-Affordance数据集上对深度网络进行训练和测试。


5.根据权利要求4所述的用于Affordance推理的深度网络构建方法,其特征在于:对于给定一张包含Q个物体的图像,该构建方法包括以下步骤:
(1)物体特征提取,通过HetConv-ResNet对图像中标注的Q个包围框分别提取各个物体的视觉特征;
(2)上下文特征聚合,将针对第i个物体提取的视觉特征φ(oi)和该物体所属类别进行特征融合作为门控图注意力网络GGANN节点i的初始向量表示i∈S,其中S表示图节点的集合;GGANN用双向图对全局上下文信息进行建模,通过图注意力机制学习边的权重αij,其中i∈S,j∈S;经过T轮迭代获得节点i的向量表示
(3)Affordance分类,将和进行连接后输入两个连续的全连接层,预测第i个物体的Affordance。


6.根据权利要求5所述的用于Affordance推理的深度网络构建方法,其特征在于:所述步骤(1)中,利用异构卷积核代替残差网络中标准的3×3大小的卷积核,每个卷积层接受M个特征图作为输入,共输出N个特征图,其中每个卷积模板的大小为K×K;假设输入和输出的每个特征图的大小分别为Din×Din和Dout×Dout,则每个卷积层计算的次数为:Dout×Dout×M×N×K×K;设P表示异构卷积核的参数,则每个异构卷积核有个卷积模板的大小保持K×K,剩余的个卷积模板的大小为1×1,则使用异构卷积核时每个卷积层的计算量为:异构卷...

【专利技术属性】
技术研发人员:王立春信建佳王少帆李敬华孔德慧尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1