一种通过注意场景和状态的多模态轨迹预测方法技术

技术编号:34031299 阅读:33 留言:0更新日期:2022-07-06 11:11
本发明专利技术公开了一种通过注意场景和状态的多模态轨迹预测方法,包括以下步骤:全卷积神经网络提取场景信息并利用仿射变换关注目标智能体;利用Transformer对智能体历史状态进行编码;特征融合和解码。本发明专利技术综合考虑智能体的历史状态信息和周围环境信息,并结合三种注意力机制提取和融合这两种信息,即Transformer的自注意力机制捕捉历史状态之间的潜在关系;仿射变换从特征图中裁剪关键位置即硬注意力机制来关注特定的智能体;多头注意机制可以有效地捕捉状态与场景的交互信息。最终,产生多条社会可接受的轨迹及其相关概率的通过注意场景和状态的多模态轨迹预测方法。通过注意场景和状态的多模态轨迹预测方法。通过注意场景和状态的多模态轨迹预测方法。

A multimodal trajectory prediction method by paying attention to scenes and states

【技术实现步骤摘要】
一种通过注意场景和状态的多模态轨迹预测方法


[0001]本专利技术属于自动驾驶领域,尤其涉及一种智能体多模态轨迹预测的方法。

技术介绍

[0002]近年来,人工智能(AI)取得了前所未有的发展,自动驾驶技术现已成为人工智能领域中最具潜力的应用之一,相信它对人类社会生产生活方式的影响将不亚于百年前汽车的诞生。目前,自动驾驶技术尚不成熟,智能车辆需要与人类司机共享相同的交通场景。为了安全高效的行驶,智能车辆不仅要知道周围存在哪些物体,更要预测周围的智能体(车辆、骑行者和行人等)接下来会有怎样的轨迹,这就是自动驾驶领域中的轨迹预测问题。
[0003]轨迹预测作为自动驾驶环境感知和决策规划的中间环节,在动态的、交互的、不确定的场景中准确预测智能体的未来轨迹,对于自动驾驶汽车深度理解周围环境并做出决策、保障车辆行驶的稳定性以及安全性和经济性都有重要的意义。然而,由于智能体运动的随机性、交互的复杂性以及未来轨迹分布的多模态性,使得轨迹预测是一项非常具有挑战性的任务。为了解决轨迹预测问题,基于动力学和运动学的方法被率先提出,但这些方法的准确性和泛化能力很差,因此仅适用于简单驾驶场景中短暂的轨迹预测。近些年,基于深度学习的轨迹预测方法开始变得流行。在它们当中,有仅根据智能体的历史轨迹并通过设计各种交互机制来捕获智能体之间交互信息的方法,但它们忽略了其他影响智能体运动的重要因素,例如环境条件和交通规则,这可能导致在复杂交通场景下的预测结果变得无法接受,且大部分方法只产生一条预测轨迹,这并不符合未来运动具有多模态的本质;也有仅仅利用卷积神经网络(CNN)从序列图像中提取智能体的状态信息和场景信息的端到端的方式,尽管CNN擅长处理空间依赖关系,但它缺乏建模序列数据的机制,而在轨迹预测中需要建模智能体的状态随时间变化的依赖性;还有同时利用历史轨迹和场景信息进行轨迹预测的,但它们没有使用任何注意力机制,使得模型无法准确理解哪些是影响未来运动的最重要因素,通常造成数据冗余和模型空间度复杂,最终预测结果不准确、社会可接受程度差。

技术实现思路

[0004]为解决现有技术存在的上述问题,本专利技术要提出一种能够产生多条社会可接受的轨迹及其相关概率的通过注意场景和状态的多模态轨迹预测方法。
[0005]为了实现上述目的,本专利技术的具体技术方案如下:一种通过注意场景和状态的多模态轨迹预测方法,包括以下步骤:
[0006]A、全卷积神经网络提取场景信息并利用仿射变换关注目标智能体
[0007]A1、构建复合栅格地图。首先将环境信息渲染在鸟瞰视角下的高清地图上,以保留智能体的大小和位置以及道路几何特征,并忽略它们的纹理。为了体现智能体之间以及智能体与环境的动态交互,同时为了避免语义注释遮挡和数据冗余的问题,将连续的多张原始栅格化的高精地图进行拆分和重组以获得复合栅格地图H是复合栅格图的长度,W是复合栅格图的宽度,C是通道数。
[0008]A2、全卷积神经网络提取场景信息和交互信息。利用全卷积神经网络即FCN从步骤A1获得的复合栅格地图中学习具有代表性的拓扑信息、语义信息和交互信息,利用FCN提取信息的公式如下:
[0009][0010]式中,FCN(
·
)为全卷积神经网络,是复合栅格地图,W
s
是全卷积神经网络的权重。
[0011]为了减少模型参数,FCN内部的卷积神经网络即CNN选择使用MobileNetV2。利用FCN不仅能获得场景和交互信息,而且使输入的图像与输出的特征图的大小保持一致,这样根据目标智能体的初始位置来关注它。
[0012]A3、关注目标智能体。智能体通常更关注那些与自己距离更近、交互性更强的对象,所以在步骤A2获得特征图后,根据目标智能体的位置裁剪一个小的特征图来关注它。在获得小特征图后根据智能体的朝向利用仿射变换旋转一定角度,以正规化智能体的朝向,仿射变换和仿射矩阵的公式如式(2)和(3)所示:
[0013][0014][0015]式中,Affine(
·
)是仿射变换函数,θ是仿射矩阵,h是智能体的朝向。
[0016]B、利用Transformer对智能体历史状态进行编码
[0017]在利用Transformer对历史状态信息进行编码之前,首先将状态信息连接在一起,然后应用多层感知器即MLP将状态信息嵌入到高维空间中得到f
t
以固定大小,最后f
t
被嵌入更高维的空间得到F
a
,利用MLP将状态信息嵌入高维空间和利用嵌入矩阵嵌入到更高维空间的公式如下:
[0018]f
t
=MPL(concat(x
t
,y
t
,v
t
,sin(h),cos(h))
ꢀꢀꢀꢀꢀꢀ
(4)
[0019]F
a
=f
t
·
W
f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0020]式中,(x
t
,y
t
)是智能体的位置坐标,v
t
是智能体的速度,h是智能体的朝向,concat(
·
)是连接函数,MPL(
·
)是多层感知器,W
f
是嵌入矩阵,t是时间戳。所述历史状态信息包括位置、速度和朝向。
[0021]利用Transformer的“位置编码”对每个过去时间瞬间t进行时间编码,位置编码的公式如下:
[0022][0023][0024]I
a
=F
a
+P
a
ꢀꢀꢀꢀꢀꢀꢀ
(8)
[0025]式中,d是数据维度,D是模型嵌入维度。
[0026]为了捕获智能体的历史状态之间的内在潜在依赖关系,先对I
a
执行三次线性投影变换得到三个矩阵,即Q
a
=W
q
I
a
,K
a
=W
k
I
a
和V
a
=W
v
I
a
,其中W
q
是Q
a
的投影矩阵,W
k
是K
a
的投影矩阵,W
v
是V
a
的投影矩阵。然后,利用自注意力机制获得智能体历史状态之间的内在关系。最后,利用前馈网络得到智能体历史状态的最终表示E
a
。自注意力机制公式(9)和前馈网络公式(10)如下:
[0027][0028]E
a
=FFN(Att(Q
a
,K
a
,V
a
))
ꢀꢀꢀꢀꢀ
(10)
[0029]式中,softmax(
·...

【技术保护点】

【技术特征摘要】
1.一种通过注意场景和状态的多模态轨迹预测方法,其特征在于:包括以下步骤:A、全卷积神经网络提取场景信息并利用仿射变换关注目标智能体A1、构建复合栅格地图;首先将环境信息渲染在鸟瞰视角下的高清地图上,以保留智能体的大小和位置以及道路几何特征,并忽略它们的纹理;为了体现智能体之间以及智能体与环境的动态交互,同时为了避免语义注释遮挡和数据冗余的问题,将连续的多张原始栅格化的高精地图进行拆分和重组以获得复合栅格地图H是复合栅格图的长度,W是复合栅格图的宽度,C是通道数;A2、全卷积神经网络提取场景信息和交互信息;利用全卷积神经网络即FCN从步骤A1获得的复合栅格地图中学习具有代表性的拓扑信息、语义信息和交互信息,利用FCN提取信息的公式如下:式中,FCN(
·
)为全卷积神经网络,是复合栅格地图,W
s
是全卷积神经网络的权重;为了减少模型参数,FCN内部的卷积神经网络即CNN选择使用MobileNetV2;利用FCN不仅能获得场景和交互信息,而且使输入的图像与输出的特征图的大小保持一致,这样根据目标智能体的初始位置来关注它;A3、关注目标智能体;智能体通常更关注那些与自己距离更近、交互性更强的对象,所以在步骤A2获得特征图后,根据目标智能体的位置裁剪一个小的特征图来关注它;在获得小特征图后根据智能体的朝向利用仿射变换旋转一定角度,以正规化智能体的朝向,仿射变换和仿射矩阵的公式如式(2)和(3)所示:向,仿射变换和仿射矩阵的公式如式(2)和(3)所示:式中,Affine(
·
)是仿射变换函数,θ是仿射矩阵,h是智能体的朝向;B、利用Transformer对智能体历史状态进行编码在利用Transformer对历史状态信息进行编码之前,首先将状态信息连接在一起,然后应用多层感知器即MLP将状态信息嵌入到高维空间中得到f
t
以固定大小,最后f
t
被嵌入更高维的空间得到F
a
,利用MLP将状态信息嵌入高维空间和利用嵌入矩阵嵌入到更高维空间的公式如下:f
t
=MPL(concat(x
t
,y
t
,v
t
,sin(h),cos(h))
ꢀꢀꢀꢀ
(4)F
a
=f
t
·
W
f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)式中,(x
t
,y
t
)是智能体的位置坐标,v
t
是智能体的速度,h是智能体的朝向,concat(
·
)是连接函数,MPL(
·
)是多层感知器,W
f
是嵌入矩阵,t是时间戳;所述历史状态信息包括位置、速度和朝向;利用Transformer的“位置编码”对每个过去时间瞬间t进行时间编码,位置编码的公式如下:
I
a
=F
a
+P
a
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)式中,d是数据维度,D是模型嵌入维度;为了捕获智能体的历史状态之间的内在潜在依赖关系,先对I
a
执行三次线性投影变换得到三个矩阵,即Q
a
=W
q
I
a
,K
...

【专利技术属性】
技术研发人员:李琳辉王雪成连静丁荣琪
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1