基于大语言模型驱动的三维语义占用预测方法及装置制造方法及图纸

技术编号：41737572 阅读：19 留言：0更新日期：2024-06-19 12:56

本申请提供基于大语言模型驱动的三维语义占用预测方法及装置，其中的方法包括：获取当前时刻的车辆周围的全景点云数据和全景RGB图像；对点云数据进行处理得到点云体素特征；对RGB图像进行处理得到图像体素特征；对点云体素特征和图像体素特征进行融合处理得到融合体素特征；利用语义占用检测头对融合体素特征进行处理，得到三维语义占用预测结果，三维语义占用预测结果包括多个分割框的类别和语义占用率；当存在目标分割框的类别为未知时，利用缓存模型对目标分割框进行处理，得到目标分割框的类别。本申请通过缓存模型实现快速知识导入，实现对新类别目标的认知，提高三维语义占用预测精度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自动驾驶，尤其是涉及基于大语言模型驱动的三维语义占用预测方法及装置。

技术介绍

1、传统智能驾驶系统受到其感知模型认知域有限的局限，缺乏对未知类别目标进行自主认知学习的能力。这些系统通常依赖于预先定义的模型和规则集，其泛化能力受到限制，并且对于新的、未知的情况缺乏适应性。此外，传统方法的改进通常需要通过重新设计和更新模型来实现，这种过程不仅繁琐耗时，还可能引入新的不确定性和风险。

2、针对以上问题，近年来，研究人员开始探索利用增量学习技术来实现智能驾驶系统的自主学习能力。增量学习是一种持续学习的方法，可以在系统运行时不断地接受新的数据和知识，并将其整合到现有的模型中，以提高系统的性能和适应性。然而，传统的增量学习方法往往存在灾难性遗忘的问题，即随着新知识的输入，系统可能会逐渐丧失对旧知识的记忆和理解，从而影响其整体稳定性和性能表现。

3、另一方面，提示交互学习作为一种有效的学习范式，可以帮助系统在面对未知情况时做出更准确和可靠的决策。通过引入外部提示或指导，系统可以更快地学习和适应新的环境或任务，从而提高其应对复杂驾驶场景的能力。然而，现有的提示交互学习方法在长期知识保留方面存在局限性，难以确保系统能够持续地从过去的经验中学习和积累知识，特别是在面对大量数据和复杂环境时。

技术实现思路

1、有鉴于此，本申请提供了基于大语言模型驱动的三维语义占用预测方法及装置，以解决上述技术问题。

2、第一方面，本申请实施例提供一种基于大语言模型驱动的三维语义占用预测方法，包括：

3、获取当前时刻的车辆周围的全景点云数据和全景rgb图像；

4、对所述点云数据进行处理得到点云体素特征；对所述rgb图像进行处理得到图像体素特征；对所述点云体素特征和图像体素特征进行融合处理得到融合体素特征；

5、利用语义占用检测头对所述融合体素特征进行处理，得到三维语义占用预测结果，所述三维语义占用预测结果包括多个分割框的类别和语义占用率；

6、当存在目标分割框的类别为未知时，利用缓存模型对所述目标分割框进行处理，得到所述目标分割框的类别。

7、进一步的，在利用缓存模型对所述目标分割框进行处理，得到所述目标分割框的类别之前，所述方法还包括：

8、利用特征提取器对所述目标分割框图像进行处理，得到目标分割框图像的视觉特征；所述视觉特征包括：形状、颜色和纹理；

9、按照预设格式对所述目标分割框图像的视觉特征进行编码，得到目标分割框图像的特征值；

10、计算目标分割框图像的特征值与缓存模型中的所有的特征值的相似度；

11、当所有的相似度均小于预设阈值，将目标分割框图像作为缓存模型的训练样本。

12、进一步的，利用缓存模型对所述目标分割框进行处理，得到所述目标分割框的类别，包括：

13、利用缓存模型对所述目标分割框图像的特征值进行处理，得到目标分割框的类别的独热编码；

14、对目标分割框的类别的独热编码进行转换，得到目标分割框的类别。

15、进一步的，所述缓存模型为多层感知器；当所有的相似度均小于预设阈值，将目标分割框图像的特征值作为缓存模型的训练样本之后，所述方法还包括：

16、利用大语言模型对当前时刻的rgb图像进行处理，得到环境信息；所述环境信息包括光线、天气和道路类型；

17、利用大语言模型对所述目标分割框图像进行处理，得到所述目标分割框图像的关键特征，所述关键特征包括：形状、颜色和纹理；

18、利用大语言模型以自然语言的形式表达所述关键特征，得到所述目标分割框图像的提示；

19、利用大语言模型对所述目标分割框图像的提示进行思维链推理，得到所述目标分割框图像的类别标签；

20、将所述目标分割框图像的类别标签转换为独热编码；

21、根据目标分割框图像的特征值与独热编码设置缓存模型的权重。

22、第二方面，本申请实施例提供一种基于大语言模型驱动的三维语义占用预测装置，包括：

23、获取单元，用于获取当前时刻的车辆周围的全景点云数据和全景rgb图像；

24、处理单元，用于对所述点云数据进行处理得到点云体素特征；对所述rgb图像进行处理得到图像体素特征；对所述点云体素特征和图像体素特征进行融合处理得到融合体素特征；

25、第一预测单元，用于利用语义占用检测头对所述融合体素特征进行处理，得到三维语义占用预测结果，所述三维语义占用预测结果包括多个分割框的类别和语义占用率；

26、第二预测单元，用于当存在目标分割框的类别为未知时，利用缓存模型对所述目标分割框进行处理，得到所述目标分割框的类别。

27、第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例的方法。

28、第四方面，本申请实施例一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现本申请实施例的方法。

29、本申请通过缓存模型实现快速知识导入，实现对新类别目标的认知，拓展感知系统的认知域，提高三维语义占用预测精度。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型驱动的三维语义占用预测方法，其特征在于，包括：

2.根据权利要求1所述的基于大语言模型驱动的三维语义占用预测方法，其特征在于，在利用缓存模型对所述目标分割框进行处理，得到所述目标分割框的类别之前，所述方法还包括：

3.根据权利要求2所述的基于大语言模型驱动的三维语义占用预测方法，其特征在于，利用缓存模型对所述目标分割框进行处理，得到所述目标分割框的类别，包括：

4.根据权利要求2所述的基于大语言模型驱动的三维语义占用预测方法，其特征在于，所述缓存模型为多层感知器；当所有的相似度均小于预设阈值，将目标分割框图像的特征值作为缓存模型的训练样本之后，所述方法还包括：

5.一种基于大语言模型驱动的三维语义占用预测装置，其特征在于，包括：

6.一种电子设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计

...

【技术特征摘要】

1.一种基于大语言模型驱动的三维语义占用预测方法，其特征在于，包括：

4.根据权利要求2所述的基于大语言模型驱动的三维语义占用预测方法，其特征在于，所述缓存模型为多层感知器；当...

【专利技术属性】
技术研发人员：李伟婷，管建和，朱典琪，李志伟，张智禹，刘世豪，张博臻，李一楚，王紫懿，梁姝凝，刘凯旋，
申请(专利权)人：中国地质大学北京，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人