用于自动驾驶的对象识别方法、电子设备及存储介质技术

技术编号：44123930 阅读：10 留言：0更新日期：2025-01-24 22:44

本申请提供了用于自动驾驶的对象识别方法，该方法包括：从图像样本中获取图像特征，并将图像特征和文本特征拼接为多模态特征；以多模态特征为卷积核，与多视角图像的视觉特征进行互相关操作，获得相关性特征；根据相关性特征预测实体对象在3D空间中的目标初始位置特征，结合目标初始位置特征对图像特征和相关性特征进行特征交互，获得实体对象对应的对象特征；根据多个图像样本中识别出的不同实体对象对应的对象特征进行对象识别模型的训练。依据本申请实施例，增强了与目标相关的特征，同时减少无关背景的响应，从而提升遮挡目标的感知精度并保证了模型的高效性，解决了现有3D目标检测方案过于追求综合检测性能而忽略遮挡情况下鲁棒感知的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自动驾驶，尤其涉及一种用于自动驾驶的对象识别方法和装置、电子设备及存储介质。

技术介绍

1、随着人工智能技术以及现代制造业的发展，自动驾驶技术已经逐渐走进人们的日常生活，潜移默化的改变着人们的出行方式。自动驾驶技术在军用及民用上均具有巨大的应用前景。军用上，它不仅能够作为无人运输平台，还能用作无人爆破车、无人作战平台、无人巡逻与监视车辆等，民用中，除了为人类生活带来便捷之外，还能够降低交通事故发生率与提高道路通行效率，但也使得能源消耗剧增，交通事故频发。而自动驾驶技术的更新迭代，正是解决上述问题的关键。因此，自动驾驶技术已经成为汽车工业领域和学术界的关注焦点。

2、在自动驾驶的算法系统中，感知3d空间中物体的位置、大小、方向等信息为下游的预测、规控提供了基本的信息输入，对于汽车、机器人的智能化至关重要。考虑到硬件构建成本较高的雷达传感器，更为经济的环视视觉3d目标检测被广泛应用于自动驾驶、辅助驾驶和机器人等技术产品的感知模块中。经过多次技术迭代，目前的视觉3d检测感知精度不断提高，能为下游任务提供较为准确的周围目标空间位置信息。

3、然而，实际场景中存在多种干扰信息，可能产生对于自动驾驶安全十分关键但难以精准检测的极端案例，例如遮挡目标。由于缺少目标的部分区域信息，现有的3d目标检测方法难以感知到此类目标，进而影响下游的预测与规划方案，最终导致安全问题。因此，需要设计一种增强遮挡目标检测的感知框架，减少遮挡目标带来的安全隐患。

4、遮挡目标检测的关键在于遮挡导致的目标信息损失，所以如

技术实现思路

1、本申请实施例提供一种用于自动驾驶的对象识别方法、装置、电子设备及存储介质，以部分或全部解决上述技术问题。

2、第一方面，本申请实施例提供了一种用于自动驾驶的对象识别方法，包括：

3、从图像样本中裁剪出实体对象对应的图像区域，并将所述图像区域对应的图像特征和实体对象的对象类别的文本特征拼接为图像样本对应的多模态特征；

4、以所获取的图像样本的多模态特征为卷积核，与自动驾驶中感知到的多视角图像的视觉特征进行互相关操作，获得目标感知加强的相关性特征；

5、根据所述相关性特征预测实体对象在3d空间中的目标初始位置特征，结合所述目标初始位置特征对图像区域对应的图像特征和相关性特征进行特征交互，获得所述实体对象对应的对象特征；

6、根据多个图像样本中识别出的不同实体对象对应的对象特征进行对象识别模型的训练。

7、第二方面，一种用于自动驾驶的对象识别装置，包括：

8、多模态特征拼接模块，用于从图像样本中裁剪出实体对象对应的图像区域，并将所述图像区域对应的图像特征和实体对象的对象类别的文本特征拼接为图像样本对应的多模态特征；

9、相关性特征获取模块，用于以所获取的图像样本的多模态特征为卷积核，与自动驾驶中感知到的多视角图像的视觉特征进行互相关操作，获得目标感知加强的相关性特征；

10、对象特征获取模块，用于根据所述相关性特征预测实体对象在3d空间中的目标初始位置特征，结合所述目标初始位置特征对图像区域对应的图像特征和相关性特征进行特征交互，获得所述实体对象对应的对象特征；

11、训练模块，用于根据多个图像样本中识别出的不同实体对象对应的对象特征进行对象识别模型的训练。

12、第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的方法。

13、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

14、与现有技术相比，本申请具有如下优点：

15、依据本实施例，先从图像样本中裁剪出实体对象对应的图像区域，后将该图像区域对应的图像特征和实体对象的对象类别的文本特征拼接为图像样本对应的多模态特征，再以该多模态特征为卷积核，与自动驾驶中感知到的多视角图像的视觉特征进行互相关操作，获得目标感知加强的相关性特征，之后，根据该相关性特征预测预测实体对象在3d空间中的目标初始位置特征，结合目标初始位置特征对图像区别对应的图像特征和相关性特征进行特征交互，获得该实体对象对应的对象特征，最后根据多个图像样本中识别出的不同实体对象对应的对象特征进行对象识别模型的训练。采用上述方案不仅可以引入辅助的视觉和语言多模态大模型，为遮挡目标的感知提供更多先验信息，解决检测遮挡物体时缺乏充足的上下文线索从而无法准确的辨别目标的问题，还引入了相关学习增强特征，解决了3d目标检测方案过于追求综合检测性能而忽略遮挡情况下鲁棒感知的问题，保证了模型的高效性，增强目标(尤其是被部分遮挡的物体)的特征表示，增强遮挡目标的检测性能。此外，还进一步增强了未遮挡目标的表征质量，提升了整体感知的准确率与鲁棒性。

16、其中，多模态大模型中的图像编码器提取各图像区域对应的图像特征以补充和增强后续检测被遮挡物体的视觉特征，多模态大模型的文本编码器提取不同的可见度区间的图像样本的对象类别的文本特征，提供人类对于不同类别目标的先验知识从另一个维度补充遮挡物体的信息，以辨别目标，通过对图像和文本两种维度的一种先验知识层面的补充，相当于补充了被遮挡物体的上下文线索，不仅可以增强因遮挡而缺失的目标相关特征，还可以进一步增强未遮挡目标的表征质量。

17、另外，在构建多模态特征后，本方法使用了计算效率更高的互相关操作将多模态特征的先验知识融入已学习的多视角特征，通过互相关操作，模型利用多模态特征的先验知识，可以增强与目标相关的特征，同时减少无关背景的响应，从而提升遮挡目标的感知精度并保证了模型的高效性。

18、最后，本方法使用了一种伪遮挡的处理方法，通过从图像样本裁剪的图像区域中选取可见度超出设定阈值的实体对象，对可见度超出设定阈值的实体对象进行遮挡处理，增加了遮挡目标的训练数量，平衡了训练数据物体的可见度分局，解决了场景中遮挡目标较少、难以充分训练模型针对此种情况的问题，增强了对遮挡目标的感知能力，使本模型鲁棒感知能力更强。

19、上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，可依照说明书的内容予以实施，并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种用于自动驾驶的对象识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述图像区域对应的图像特征和实体对象的对象类别的文本特征拼接为图像样本对应的多模态特征包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述相关性特征预测实体对象在3D空间中的目标初始位置特征包括：

4.根据权利要求1所述的方法，其特征在于，所述结合所述目标初始位置特征对图像区域对应的图像特征和相关性特征进行特征交互，获得所述实体对象对应的对象特征包括：

5.根据权利要求4所述的方法，其特征在于，所述对将实体对象在3D空间中的目标初始位置特征投影到所述图像区域对应的图像特征对应的特征维度和相关性特征对应的特征维度上得到的投影位置进行采样还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据多个图像样本中识别出的不同实体对象对应的对象特征进行对象识别模型的训练包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种用于自动驾驶的对象识别装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种用于自动驾驶的对象识别方法，其特征在于，所述方法包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述相关性特征预测实体对象在3d空间中的目标初始位置特征包括：

5.根据权利要求4所述的方法，其特征在于，所述对将实体对象在3d空间中的目标初始位置特征投影到所述图像区域对应的图像特征对应的特...

【专利技术属性】
技术研发人员：张志鹏，何园，王珂，
申请(专利权)人：鄂尔多斯市卡尔动力技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人