一种基于图神经网络的分层融合式预测方法技术

技术编号:35907595 阅读:16 留言:0更新日期:2022-12-10 10:46
本发明专利技术公开了一种基于图神经网络的分层融合式预测模型,包括:上层图神经网络:用于学习多个行人之间的空间交互;中层图神经网络:用于学习行人自身的终点意图;下层图神经网络:将上层图神经网络获得的行人之间的空间交互、中层图神经网络获得的行人自身的终点意图和行人的历史轨迹相结合,通过时间卷积网络TCN预测未来轨迹。本发明专利技术还公开了一种基于图神经网络的分层融合式预测方法。本发明专利技术充分考虑了内在因素和外在因素对行人未来轨迹的影响,用于在每个时间步模拟整个行人场景之间的空间和时间交互,并预测多个未来轨迹,通过这种方法使得轨迹预测精度得到提高。种方法使得轨迹预测精度得到提高。种方法使得轨迹预测精度得到提高。

【技术实现步骤摘要】
一种基于图神经网络的分层融合式预测方法


[0001]本专利技术涉及一种基于图神经网络的分层融合式预测方法,属于计算机视觉与自动驾驶中行人轨迹预测


技术介绍

[0002]人们生活中出现了越来越多的智能自主系统,这些系统感知、理解和预测人类行为的能力变得越来越重要。具体来说,预测智能体(agent)的未来位置并根据这些预测进行规划是自动驾驶车辆、服务机器人和高级监控系统(包括智能交通或者智能城市)的关键任务。理解人体运动是智能系统与人类共存和互动的一项关键技能,其涉及表征、感知和运动分析等方面。而预测在人体运动分析中起着重要的作用,随着时间的推移,模型可对涉及多个智能体的场景进行预测,并以主动的方式对这些场景信息进行整合,即增强主动感知、预测性规划、模型预测性控制或人机交互的效果。因此,近年来行人轨迹预测在多个领域中受到越来越多的关注,例如自动驾驶汽车、服务机器人、智能交通、智慧城市等领域。
[0003]在道路上驾驶时,吸引驾驶员注意力的可以是任何交通参与者。行人作为交通参与者的一个典型代表,将与主要代理(代理主要指交通中的参与者,包括行人、车辆等等;用代理这个词来泛指)交互并相互影响,例如人

人交互和人

车交互。由于行人运动模式的不确定性,在动态交互环境中预测社会可接受的轨迹一直都是一个难题。行人习惯于依赖从互动过程中获得的经验来影响其他行人可能的后续轨迹。当有人在人群中行走时,不可避免地会受到邻居或其他人的影响。据调查,70%的人倾向于在路上成群行走。在这种情况下,行人之间的相互作用是不可避免的。一方面,这种互动是由于行人的内在因素产生的,如个人习惯和偏好。另一方面,它与外部因素有关,如邻居的影响和环境约束。不同的社会行为使预测变得复杂,例如行人从不同方向合并以及如何避免碰撞。
[0004]行人运动的复杂性促使研究人员专注于基于深度学习的行人交互建模方法。Social

LSTM通过新的架构创新性地将对应于相邻轨迹序列的LSTM链接起来,并提供了一个社交池层,该层允许来自空间近端序列的LSTM共享其隐藏状态。该思想体现了在早期阶段集成周围节点的交互信息的特点。Social

LSTM假设行人轨迹遵循双变量高斯分布,预测的轨迹不是一个确定的值,而是以高斯分布随机产生多个样本,以此来模拟行人轨迹的不确定性。该工作将行人轨迹预测看成是时序问题,并且使用神经网络进行模型训练的开山之作。另一种用于行人轨迹预测的经典模型是生成对抗网络(GAN)。Social

GAN首先引入了对抗策略,以生成社会可接受的轨迹,并提出了多样性损失,以探究未来轨迹的分布。为了理解行人之间的全局交互,在生成器和鉴别器之间设计了池化模块。池化机制关注局部邻域,以探索基于占据栅格地图的交互影响。
[0005]但是,上述方法也存在不足之处,如果不考虑外部交互对行人自身意图的影响,就无法完全理解交互。然而,当研究人员将大部分注意力集中在解决轨迹预测的交互上时,行人的意图对轨迹的影响很容易被忽略。目的地是行人意图的表征之一,可以用作网络的辅助输入,帮助分离和编码当前和过去的信息,以产生更独特的表示,从而隐式模拟行人的意
图。

技术实现思路

[0006]本专利技术的目的在于解决现有技术的问题和不足,提供了一种基于图神经网络的分层融合式预测方法。充分考虑了内在因素和外在因素对行人未来轨迹的影响,采用图神经网络在每个时间步模拟整个行人场景之间的空间和时间交互,并预测多个未来轨迹,探究轨迹分布从而寻找一条更符合真值的轨迹,通过这种方法使得轨迹预测精度得到提高。
[0007]同时,本专利技术提供一种基于图神经网络的分层融合式预测模型。
[0008]为解决上述技术问题,本专利技术采用的技术方案为:一种基于图神经网络的分层融合式预测模型,包括:上层图神经网络:用于学习多个行人之间的空间交互;中层图神经网络:用于学习行人自身的终点意图;下层图神经网络:将上层图神经网络获得的行人之间的空间交互、中层图神经网络获得的行人自身的终点意图和行人的历史轨迹相结合,通过时间卷积网络TCN预测未来轨迹。
[0009]一种基于图神经网络的分层融合式预测模型的预测方法,包括以下步骤:S01,基于在不同场景下由固定相机采集到的视频,将其划分为若干帧图片,选取一定数量的帧图片作为一组,识别每一帧图片里的行人位置并将其从图像坐标系转化为世界坐标系;获取每一组中的行人轨迹,即每个时刻下行人的世界坐标(x,y);S02,划分行人的历史轨迹和未来预测轨迹,对于行人i来说,其历史轨迹表示为,t
obs
表示为历史轨迹的时间步长;行人i的未来预测轨迹表示为,t
pred
表示为未来预测轨迹的时间步长;假设一个场景下有个行人,则该场景下所有行人的历史轨迹表示为,该场景下所有行人的未来预测轨迹表示为;S03,上层图神经网络中,为了更加方便的学习行人之间的空间交互信息,行人轨迹用图的构造来表示;创建一组反映行人相对位置的空间图G
t
,定义为;其中,,V
t
是空间图G
t
的顶点集合,顶点集合中的集合元素的属性是行人在每个时刻下的历史轨迹坐标点;行人被视为空间图中的节点,顶点即为节点;,E
t
所代表的是空间图的边集合,边集合中的集合元素的取值是0或者1,关系到顶点和顶点是否相连,1表示连接,0表示不连接。
[0010]S01中,将视频划分为若干帧的方法为:以25Hz的采样频率将视频划分为若干帧;一定数量的帧图片为20帧。
[0011]S03中,加权邻接矩阵A
Rel
用于描述节点和节点之间的逆欧几里德距离,欧几里德距离越近,说明相邻节点之间互相影响的程度越大,相邻节点之间容易影响其行人轨迹;其中,A
Rel (i,j)=0表示相邻节点不连接,距离更远的行人不会影响行人轨迹。
[0012]S03中,上层图神经网络采用GAT模块;GAT模块的输入是将节点按照时间t编码的特征向量集;其中,N代表节点数目,行人数目与节点数目相同;F表示特征向量的维度;所有节点的特征通过线性变换转换为各种中间表示;表示W输出的维度;表示编码节点生成的特征向量;然后将图注意力机制GAT应用于这些节点,并使用以下公式计算一对相邻节点(i,j)之间的关联系数:其中,代表在时间步长t处节点j附近对节点i的影响权重;是连接节点i和节点j的权重矩阵W的连接函数;,是可学习权重向量;T代表转换此可学习权重向量;LR表示一种激活函数,全称是LeakyReLU;exp是分子和分母都以e为底的指数运算;在获得节点之间的影响权重后,聚合相邻节点的特征,节点i在时间步长t处的聚合特征描述如下:其中,是聚合的隐藏状态,包括来自其他节点的空间影响;所有构成了交互特征向量集合;
使用交叉熵损失函数使每个节点的权重向量接近一个one

hot向量,从而更容易在行人轨迹连续的空本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的分层融合式预测模型,其特征在于,包括:上层图神经网络:用于学习多个行人之间的空间交互;中层图神经网络:用于学习行人自身的终点意图;下层图神经网络:将上层图神经网络获得的行人之间的空间交互、中层图神经网络获得的行人自身的终点意图和行人的历史轨迹相结合,通过时间卷积网络TCN预测未来轨迹。2.根据权利要求1所述的一种基于图神经网络的分层融合式预测模型的预测方法,其特征在于,包括以下步骤:S01,基于在不同场景下由固定相机采集到的视频,将其划分为若干帧图片,选取一定数量的帧图片作为一组,识别每一帧图片里的行人位置并将其从图像坐标系转化为世界坐标系;获取每一组中的行人轨迹,即每个时刻下行人的世界坐标(x,y);S02,划分行人的历史轨迹和未来预测轨迹,对于行人i来说,其历史轨迹表示为,t
obs
表示为历史轨迹的时间步长;行人i的未来预测轨迹表示为,t
pred
表示为未来预测轨迹的时间步长;假设一个场景下有个行人,则该场景下所有行人的历史轨迹表示为,该场景下所有行人的未来预测轨迹表示为;S03,上层图神经网络中,为了更加方便的学习行人之间的空间交互信息,行人轨迹用图的构造来表示;创建一组反映行人相对位置的空间图G
t
,定义为;其中,,V
t
是空间图G
t
的顶点集合,顶点集合中的集合元素的属性是行人在每个时刻下的历史轨迹坐标点;行人被视为空间图中的节点,顶点即为节点;,E
t
所代表的是空间图的边集合,边集合中的集合元素的取值是0或者1,关系到顶点和顶点是否相连,1表示连接,0表示不连接。3.根据权利要求2所述的预测方法,其特征在于,S01中,将视频划分为若干帧的方法为:以25Hz的采样频率将视频划分为若干帧;一定数量的帧图片为20帧。4.根据权利要求2所述的预测方法,其特征在于,S03中,加权邻接矩阵A
Rel
用于描述节点和节点之间的逆欧几里德距离,欧几里德距离越近,说明相邻节点之间互相影响的程度越大,相邻节点之间容易影响其行人轨迹;其中,A
Rel (i,j)=0表示相邻节点不连接,距离更远的行人不会影响行人轨迹。
5.根据权利要求2所述的预测方法,其特征在于,S03中,上层图神经网络采用GAT模块;GAT模块的输入是将节点按照时间t编码的特征向量集;其中,N代表节点数目,行人数目与节点数目相同;F表示特征向量的维度;所有节点的特征通过线性变换转换为各种中间表示;表示W输出的维度;表示编码节点生成的特征向量;然后将图注意力机制GAT应用于这些节点,并使用以下公式计算一对相邻节点(i,j)之间的关联系数:其中,代表在时间步长t处节点j附近对节点i的影响权重;是连接节点i和节点j的权重矩阵W的连接函数;,是可学习权重向量;T代表转换此可学习权重向量;LR表示一种激活函数,全称是LeakyReLU;exp是分子和分母都以e为底的指数运算;在获得节点之间的影响权重后,聚合相邻节点的特征,节点i在时间步长t处的聚合特征描述如下:其中,是聚合的隐藏状态,包括来自其他节点的空间影响;所有构成了交互特征向量集合;使用交叉熵损失函数使每个节点的权重向量接近一个one

hot向量,从而更容易在行人轨迹连续的...

【专利技术属性】
技术研发人员:朱文俊刘洋宏易阳张梦怡
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1