一种基于图注意力网络的多任务场景理解方法技术

技术编号：43136464 阅读：2 留言：0更新日期：2024-10-29 17:41

本发明专利技术提供了一种基于图注意力网络的多任务场景理解方法。包括以下步骤：采集数据并进行标注记录，得到多模态数据集；基于多模态数据集，得到所有物体的类别信息；再寻找每个物体的相对位置信息并转换为全局位置信息，同时添加当前时间的环境信息生成综合数据表示；设计预设规则，生成场景模型；利用损失函数和图注意神经网络进行场景模型的迭代训练，得到训练好的场景模型并进行多种场景分析任务，通过场景分析结果推理场景的整体情况。本发明专利技术能够提升多模态数据融合效率、简化数据对齐和同步处理过程、全面集成与分析环境信息、增强全局场景理解能力、同时进行多种场景理解任务，实现对复杂场景的全面感知和智能推理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及环境感知和场景理解，特别是涉及一种基于图注意力网络的多任务场景理解方法。

技术介绍

1、在当前的技术背景下，智能移动设备(如自动导引车agv)在工业和商业环境中的应用越来越广泛。目前，agv通常搭载多种传感器进行数据采集，以实现具有自主避障和导航功能的巡检工作。典型的agv系统包括激光雷达(lidar)、相机、gps传感器等几类传感器。尽管这些传感器能够提供丰富的场景信息，但现有技术主要集中在对传感器数据的处理和应用上，缺乏对多传感器数据进行综合分析和全局理解的能力。例如，agv可以识别出前方有障碍物，但无法从整体上评估环境的拥挤程度、危险级别或其他特殊情况。且现有的技术方案很少涉及对感知到的环境进行整体理解的内容，只停留在机器对环境的感知和理解层面，人类很难对机器感知到的场景进行整体把握。

2、目前，场景理解技术在智能移动设备中的应用较少，主要局限于基本的环境感知和导航任务。部分技术开始尝试使用transformer结构进行场景理解任务，但仍存在计算复杂度高、多模态数据融合效果有限、环境变化适应能力不足、全局场景理解能力有限等不足之处。因此，本专利技术提出一种基于图注意力网络的多任务场景理解方法，以解决上述问题。

技术实现思路

1、为了克服现有技术的不足，本专利技术的目的是提供一种基于图注意力网络的多任务场景理解方法，能够提升多模态数据融合效率、简化数据对齐和同步处理过程、全面集成与分析环境信息、增强全局场景理解能力、同时进行多种场景理解任务，使本专利技

2、为实现上述目的，本专利技术提供了如下方案：一种基于图注意力网络的多任务场景理解方法，包括以下步骤：

3、设定统一的采集间隔，利用自动导引车在应用场景内进行数据的同步采集，对采集数据进行标注，再按时间序列记录采集数据，得到多模态数据集；

4、基于所述多模态数据集，利用多模态数据融合方法提取物体特征，以实现应用场景内的物体检测训练，得到应用场景内所有物体的类别信息；

5、基于检测到的所有物体的类别信息，按照时间序列寻找每个物体的相对位置信息，并将相对位置信息转换为全局位置信息，同时在全局位置中添加当前时间的环境信息以生成每个物体的综合数据表示；

6、设计预设规则，基于预设规则和场景内所有物体的综合数据表示进行场景建模，生成场景模型；

7、利用损失函数和图注意神经网络进行场景模型的迭代训练，得到训练好的场景模型；所述训练好的场景模型用于建立物体之间的关系、物体与环境之间的关系、场景综合信息以及不同场景间的联系；

8、基于训练好的场景模型进行多种场景分析任务，并通过场景分析结果推理场景的整体情况。

9、可选的，多模态数据集的生成过程为：

10、在所述自动导引车上搭载激光雷达、相机、环境信息传感器、gps传感器和imu传感器，并按照设定的采集间隔进行数据同步采集，得到原始数据集；

11、对所述原始数据集中的图像数据进行2d标注，得到物体的2d边界框，对所述原始数据集中的点云数据进行3d标注，得到物体的3d边界框以及物体与所述自动导引车的相对位置，再按时间序列记录gps数据、imu数据和环境传感器数据，得到所述多模态数据集。

12、可选的，利用多模态数据融合方法提取物体特征的过程为：

13、利用深度神经网络分别对采集到的图像数据和点云数据进行特征提取，再利用第一广义特征值分解理论和主成分分析技术，对提取的特征进行降维处理，得到图像数据特征和点云数据特征；

14、利用多模态数据融合策略对所述图像数据特征和所述点云数据特征进行融合，以保留原始数据的信息量；其中，在特征融合过程中，针对不同数据选用不同的主干网络，计算注意力权重，再根据注意力权重分别更新主特征向量。

15、可选的，所述综合数据表示的数据处理过程为：

16、基于检测到的所有物体的类别信息，利用探测时间对齐方案对场景中的每一个实体进行探测，生成场景探测数据，再基于所述场景探测数据进行one-hot编码和全局坐标转换，同时添加当前时间的环境信息以生成每个物体的综合数据表示；其中，所述one-hot编码通过确定物体类别数量，针对每个物体类别构建独热编码向量，以学习每个物体类别的特征；所述全局坐标转换通过结合gps数据和所述自动导引车的姿态信息，应用坐标转换方法将各物体的局部3d位置转换为全局坐标系位置，以实现目标物体的定位。

17、可选的，场景建模的过程为：

18、利用gnn网络模型，将场景中的物体设置为节点；所述节点间的关系设置为邻接矩阵；

19、通过节点特征向量的方式，将所述节点、所述邻接矩阵和环境特征信息输入所述gnn网络模型模型中进行训练，并在训练过程中利用注意力机制进行动态调整，以综合处理多模态数据，得到所述场景模型。

20、可选的，所述图注意神经网络包括：

21、输入层，用于输入节点特征矩阵和邻接矩阵；

22、图注意力层，用于提取节点特征和关系，并通过多头注意力机制来增强所述场景模型表达能力；

23、特征聚合，用于通过多个注意力头的结果进行特征聚合，将多个注意力头的输出进行拼接或平均；

24、针对不同任务设置的不同的任务头；所述任务头用于输出标签类信息和程度类信息。

25、可选的，利用损失函数和图注意神经网络进行模型训练以生成场景描述和场景理解的过程为：

26、利用注意力机制，根据节点间的特征相似性在所述图注意力层中动态调整权重；

27、在所述场景模型中输入场景中物体的各种信息、环境传感器数据和不同场景的真实标签，并利用所述图注意神经网络，使所述场景模型学习输入信息和场景情况之间的联系，并对相似场景做出预测和推断，实现多任务学习；

28、在所述多任务学习中，根据不同的任务设计不同的损失函数，再基于所述权重将各个损失函数进行加权求和，得到总损失函数，以进行模型训练；

29、利用训练好的所述场景模型生成场景描述和场景理解。

30、可选的，多任务包括标签类任务和程度类任务：

31、所述标签类任务设置为二分类任务，表示场景的类别，所述场景的类别包括是否为有人场景、是否为施工场景、是否为拥挤场景、是否为紧急情况和是否为高风险区域；所述程度类任务设置为回归任务，表示某种情况的程度，所述情况的程度包括危险程度、拥挤程度、噪音水平、环境异常程度和空气质量指数。

32、可选的，场景分析与推理的过程为：

33、获取所述任务头输出的标签类信息和程度类信息，并将所述标签类信息和所述程度类信息进行融合，得到融合信息；所述融合信息用于进行场景分析与推理；

34、分别分析所述标签类信息和所述程度类信息，得到场景分析结果；所述场景分析结果包括本文档来自技高网...

【技术保护点】

1.一种基于图注意力网络的多任务场景理解方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于图注意力网络的多任务场景理解方法，其特征在于，多模态数据集的生成过程为：

3.根据权利要求2所述的一种基于图注意力网络的多任务场景理解方法，其特征在于，利用多模态数据融合方法提取物体特征的过程为：

4.根据权利要求3所述的一种基于图注意力网络的多任务场景理解方法，其特征在于，所述综合数据表示的数据处理过程为：

5.根据权利要求4所述的一种基于图注意力网络的多任务场景理解方法，其特征在于，场景建模的过程为：

6.根据权利要求5所述的一种基于图注意力网络的多任务场景理解方法，其特征在于，所述图注意神经网络包括：

7.根据权利要求6所述的一种基于图注意力网络的多任务场景理解方法，其特征在于，利用损失函数和图注意神经网络进行模型训练以生成场景描述和场景理解的过程为：

8.根据权利要求7所述的一种基于图注意力网络的多任务场景理解方法，其特征在于，多任务包括标签类任务和程度类任务：

9.根据权

...

【技术特征摘要】

1.一种基于图注意力网络的多任务场景理解方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于图注意力网络的多任务场景理解方法，其特征在于，多模态数据集的生成过程为：

3.根据权利要求2所述的一种基于图注意力网络的多任务场景理解方法，其特征在于，利用多模态数据融合方法提取物体特征的过程为：

4.根据权利要求3所述的一种基于图注意力网络的多任务场景理解方法，其特征在于，所述综合数据表示的数据处理过程为：

5.根据权利要求4所述的一种基于图注意力网络的多任务场景理解方法，其特征在于，...

【专利技术属性】
技术研发人员：张晓平，李乔辰，王晶，王力，邢睿尧，周萌，刘世达，杜涛，段志杰，
申请(专利权)人：北方工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人