一种基于多模态大模型的点云全景分割方法、系统及设备技术方案

技术编号：42303397 阅读：27 留言：0更新日期：2024-08-14 15:50

本发明专利技术涉及点云全景分割领域，提供了一种基于多模态大模型的点云全景分割方法、系统及设备。该方法包括获取点云数据和描述点云场景的文本；基于文本数据，采用文本编码器，得到文本嵌入特征；基于描述点云场景的文本，采用点云编码器，得到点云嵌入特征；将文本嵌入特征和点云嵌入特征输入至多模态理解适配器中，得到文本特征和点云特征；将文本特征和点云特征融合，得到融合特征；在多模态大模型中每间隔设定个的隐藏层引入融合特征进行多模态融合，得到全景特征；将全景特征输入至解码器中，得到全景分割结果。本发明专利技术结合图像、文本等模态的信息可以帮助算法更准确地识别点云中的不同全景，并减少误分割和漏分割的情况。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及点云全景分割领域，尤其涉及一种基于多模态大模型的点云全景分割方法、系统及设备。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、点云全景分割是在点云数据上进行的一种高级处理任务，它旨在将点云数据中的每个独立对象（或全景）区分开来，并赋予其独特的标签。与点云语义分割不同，语义分割只区分对象的类别，而全景分割则进一步区分同一类别中的不同个体，包括背景。例如，在城市高速公路的场景中，点云全景分割能够将每个路灯都作为一个独立的实例进行标注，而不仅仅是将它们都归类为“路灯”这一类别。点云数据的复杂性、多样性和噪声等问题，使得特征提取和分割算法的设计与实现具有较大难度。点云数据中的每个点都包含三维坐标和可能的其他属性（如颜色、反射率等），如何有效地从这些点中提取出有意义的特征，并基于这些特征进行准确的分割，是点云全景分割算法需要解决的关键问题。

3、现阶段大部分的3d lidar点云分割的方法都是将3d的点云投影到2d空间上，再使用2d卷积神经网络进行分割处理。然而，这种从3d到2d的投影过程会不可避免地丢失准确的3d几何信息，从而影响最终的分割精度。另外，如果直接使用3d划分和3d cnn，虽然可以保留更多的3d信息，但算法的性能提升可能十分有限。

技术实现思路

1、为了解决上述
技术介绍
中存在的技术问题，本专利技术提供一种基于多模态大模型的点云全景分割方法、系统及设备，本专利技术基于面向3d点云数据的大规模

2、为了实现上述目的，本专利技术采用如下技术方案：

3、本专利技术的第一个方面提供一种基于多模态大模型的点云全景分割方法。

4、一种基于多模态大模型的点云全景分割方法，包括：

5、获取点云数据和描述点云场景的文本；

6、基于文本数据，采用文本编码器，得到文本嵌入特征；基于描述点云场景的文本，采用点云编码器，得到点云嵌入特征；

7、将文本嵌入特征和点云嵌入特征输入至多模态理解适配器中，得到文本特征和点云特征；将文本特征和点云特征融合，得到融合特征；

8、在多模态大模型中每间隔设定个的隐藏层引入融合特征进行多模态融合，得到全景特征；

9、将全景特征输入至解码器中，得到全景分割结果；

10、其中，所述多模态理解适配器包括嵌入记忆池、查询记忆池、交互层和线性层；所述嵌入记忆池用于存储文本嵌入特征和点云嵌入特征；所述查询记忆池用于与嵌入记忆池相对应的查询嵌入；所述查询嵌入为当前时间步的输入或其它上下文信息；所述交互层用于根据查询记忆池和嵌入记忆池，融合历史信息，得到融合历史信息的特征；所述线性层用于对融合历史信息的特征进行线性处理，得到文本特征和点云特征。

11、进一步地，采用记忆池压缩算法更新嵌入记忆池或查询记忆池，具体过程包括：

12、初始化嵌入记忆池或查询记忆池为空列表，或包含初始的视频帧特征；

13、当一个新帧到达时，检查当前嵌入记忆池或查询记忆池的长度；

14、如果新帧嵌入后，当前嵌入记忆池或查询记忆池的长度超过预设嵌入记忆池或查询记忆池的阈值，则进行压缩操作；

15、对于嵌入记忆池或查询记忆池中的每个空间位置，计算整个嵌入记忆池或查询记忆池中所有空间位置之间的相似度，得出相似度矩阵；

16、基于相似度矩阵，使用聚类算法识别嵌入记忆池或查询记忆池中的冗余区域，所述冗余区域为相似度高于设定阈值的嵌入；

17、对于每个识别出的冗余区域，选择一个或多个代表性特征来代表整个冗余区域；

18、移除冗余区域中除代表性特征外的所有其他特征，只保留代表性特征；

19、将新的代表性特征添加到嵌入记忆池或查询记忆池的适当位置，确保记忆池的长度不超过预设嵌入记忆池或查询记忆池的阈值；如果嵌入记忆池或查询记忆池已满，则进行进一步压缩或移除部分旧的代表性特征；

20、如果嵌入记忆池或查询记忆池还有空间，将新帧添加到记忆池的末尾。

21、进一步地，所述交互层用于根据查询记忆池和嵌入记忆池，融合历史信息，得到融合历史信息的特征的过程包括：给定当前时间步的查询嵌入，根据查询记忆池计算query,key和value的矩阵；根据query和key的矩阵，采用softmax函数，计算第一注意力权重；根据第一注意力权重与嵌入记忆池的采用softmax函数，计算第二注意力权重；基于第二注意力权重与嵌入记忆池的的乘积，得到融合历史信息的特征。

22、进一步地，所述在多模态大模型中每间隔设定个的隐藏层引入融合特征进行多模态融合，得到全景特征的过程包括：将融合特征导入到从顶层开始计数的第l层、第2l层和第3l层，允许多模态大模型在不同的抽象层次上逐步融入上下文信息，得到全景特征；其中，l为设定个的隐藏层。

23、进一步地，在训练过程中，采用损失函数优化解码器的参数。

24、本专利技术的第二个方面提供一种基于多模态大模型的点云全景分割系统。

25、一种基于多模态大模型的点云全景分割系统，包括：

26、数据获取模块，其被配置为：获取点云数据和描述点云场景的文本；

27、编码器模块，其被配置为：基于文本数据，采用文本编码器，得到文本嵌入特征；基于描述点云场景的文本，采用点云编码器，得到点云嵌入特征；

28、多模态理解适配器模块，其被配置为：将文本嵌入特征和点云嵌入特征输入至多模态理解适配器中，得到文本特征和点云特征；将文本特征和点云特征融合，得到融合特征；

29、多模态大模型模块，其被配置为：在多模态大模型中每间隔设定个的隐藏层引入融合特征进行多模态融合，得到全景特征；

30、解码器模块，其被配置为：将全景特征输入至解码器中，得到全景分割结果；

31、其中，所述多模态理解适配器包括嵌入记忆池、查询记忆池、交互层和线性层；多模态理解适配器，还被配置为：所述嵌入记忆池用于存储文本嵌入特征和点云嵌入特征；所述查询记忆池用于与嵌入记忆池相对应的查询嵌入；所述查询嵌入为当前时间步的输入或其它上下文信息；所述交互层用于根据查询记忆池和嵌入记忆池，融合历史信息，得到融合历史信息的特征；所述线性层用于对融合历史信息的特征进行线性处理，得到文本特征和点云特征。

32、进一步地，所述多模态理解适配器，还被配置为：采用记忆池压缩算法更新嵌入记忆池或查询记忆池，具体过程包括：初始化嵌入记忆池或查询记忆池为空列表，或包含初始的视频帧特征；当一个新帧到达时，检查当前嵌入记忆池或查询记忆池的长度；如果新帧嵌入后，当前嵌入记忆池或查询记忆池的长度超过预设嵌入记忆池或查询记忆池的阈值，则进行压缩操作；对于嵌入记忆池或查询记忆池中的每个空间位置，计算整个嵌入记忆池或查询记忆池中所有空间位置之间的相似度，得出相似度矩阵；基于本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型的点云全景分割方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态大模型的点云全景分割方法，其特征在于，采用记忆池压缩算法更新嵌入记忆池或查询记忆池，具体过程包括：

3.根据权利要求1所述的基于多模态大模型的点云全景分割方法，其特征在于，所述交互层用于根据查询记忆池和嵌入记忆池，融合历史信息，得到融合历史信息的特征的过程包括：给定当前时间步的查询嵌入，根据查询记忆池计算query、key和value的矩阵；根据query和key的矩阵，采用softmax函数，计算第一注意力权重；根据第一注意力权重与嵌入记忆池的softmax函数，计算第二注意力权重；基于第二注意力权重与嵌入记忆池的的乘积，得到融合历史信息的特征。

4.根据权利要求1所述的基于多模态大模型的点云全景分割方法，其特征在于，所述在多模态大模型中每间隔设定个的隐藏层引入融合特征进行多模态融合，得到全景特征的过程包括：将融合特征导入到从顶层开始计数的第L层、第2L层和第3L层，允许多模态大模型在不同的抽象层次上逐步融入上下文信息，得到全景特征；其中，L为设定个的隐藏层。

5.根据权利要求1所述的基于多模态大模型的点云全景分割方法，其特征在于，在训练过程中，采用损失函数优化解码器的参数。

6.一种基于多模态大模型的点云全景分割系统，其特征在于，包括：

7.根据权利要求6所述的基于多模态大模型的点云全景分割系统，其特征在于，所述多模态理解适配器，还被配置为：采用记忆池压缩算法更新嵌入记忆池或查询记忆池，具体过程包括：初始化嵌入记忆池或查询记忆池为空列表，或包含初始的视频帧特征；当一个新帧到达时，检查当前嵌入记忆池或查询记忆池的长度；如果新帧嵌入后，当前嵌入记忆池或查询记忆池的长度超过预设嵌入记忆池或查询记忆池的阈值，则进行压缩操作；对于嵌入记忆池或查询记忆池中的每个空间位置，计算整个嵌入记忆池或查询记忆池中所有空间位置之间的相似度，得出相似度矩阵；基于相似度矩阵，使用聚类算法识别嵌入记忆池或查询记忆池中的冗余区域，所述冗余区域为相似度高于设定阈值的嵌入；对于每个识别出的冗余区域，选择一个或多个代表性特征来代表整个冗余区域；移除冗余区域中除代表性特征外的所有其他特征，只保留代表性特征；将新的代表性特征添加到嵌入记忆池或查询记忆池的适当位置，确保记忆池的长度不超过预设嵌入记忆池或查询记忆池的阈值；如果嵌入记忆池或查询记忆池已满，则进行进一步压缩或移除部分旧的代表性特征；如果嵌入记忆池或查询记忆池还有空间，将新帧添加到记忆池的末尾。

8.根据权利要求6所述的基于多模态大模型的点云全景分割系统，其特征在于，所述多模态理解适配器，还被配置为：给定当前时间步的查询嵌入，根据查询记忆池计算query,key和value的矩阵；根据query和key的矩阵，采用softmax函数，计算第一注意力权重；根据第一注意力权重与嵌入记忆池的softmax函数，计算第二注意力权重；基于第二注意力权重与嵌入记忆池的的乘积，得到融合历史信息的特征。

9.根据权利要求6所述的基于多模态大模型的点云全景分割系统，其特征在于，所述多模态大模型模块，还被配置为：将融合特征导入到从顶层开始计数的第L层、第2L层和第3L层，允许多模态大模型在不同的抽象层次上逐步融入上下文信息，得到全景特征；其中，L为设定个的隐藏层。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的基于多模态大模型的点云全景分割方法中的步骤。

...

【技术特征摘要】

1.一种基于多模态大模型的点云全景分割方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态大模型的点云全景分割方法，其特征在于，采用记忆池压缩算法更新嵌入记忆池或查询记忆池，具体过程包括：

4.根据权利要求1所述的基于多模态大模型的点云全景分割方法，其特征在于，所述在多模态大模型中每间隔设定个的隐藏层引入融合特征进行多模态融合，得到全景特征的过程包括：将融合特征导入到从顶层开始计数的第l层、第2l层和第3l层，允许多模态大模型在不同的抽象层次上逐步融入上下文信息，得到全景特征；其中，l为设定个的隐藏层。

5.根据权利要求1所述的基于多模态大模型的点云全景分割方法，其特征在于，在训练过程中，采用损失函数优化解码器的参数。

6.一种基于多模态大模型的点云全景分割系统，其特征在于，包括：

【专利技术属性】
技术研发人员：王呈周，薛垂帅，杨继欣，毕研磊，陈秀西，于强，
申请(专利权)人：山东省凯麟环保设备股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人