基于双模态交互的开放词汇三维场景理解方法技术

技术编号：42692150 阅读：9 留言：0更新日期：2024-09-10 12:41

本发明专利技术涉及涉及图像处理和计算机视觉技术领域，公开基于双模态交互的开放词汇三维场景理解方法，包括以下步骤：将原始点云数据输入三维场景理解模型，得到三维场景理解特征，所述三维场景理解特征同时具有文本信息描述和点云特征向量；所述三维场景理解模型包括点云特征提取网络、预训练图像语义提案网络、预训练图像生成文本网络、预训练文本编码网络、自适应语言文本编码器；构建损失函数对所述三维场景理解模型进行训练，所述损失函数包括实例预测损失函数、分类损失函数、图文匹配损失函数、关联损失函数。本发明专利技术结合点云、图像和语言类的模型，通过开放词汇和未见类别提高对三维场景的理解。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理和计算机视觉，特别涉及一种基于双模态交互的开放词汇三维场景理解方法。

技术介绍

1、三维场景理解是计算机视觉领域中的核心任务之一，主要目标是将三维空间中的点云数据准确划分为不同的实例对象。随着传感器技术的进步和三维数据在自动驾驶、机器人导航、智能监控等领域的广泛应用，有效的三维场景理解技术对于提高这些应用的准确性和可靠性至关重要。

2、近年来，深度学习技术的引入为三维场景理解带来了巨大的进步，通过深度神经网络可以学习到更加复杂和抽象的特征表示，显著提升分割的准确度和鲁棒性。然而，尽管这些方法在特征学习方面取得了进展，但在处理开放词汇和未见类别的能力上仍然存在限制。现有的深度学习模型通常依赖于大量标注数据，并且在训练过程中仅学习到有限的类别信息，这限制了模型在未知环境中的应用灵活性和效果。尽管深度学习在闭环系统内表现出色，但其在处理未见类别或开放词汇方面的能力十分有限。

技术实现思路

1、本专利技术的目的在于结合点云、图像和语言类的模型，通过开放词汇和未见类别提高对三维场景的理解，提供一种基于双模态交互的开放词汇三维场景理解方法。

2、为了实现上述专利技术目的，本专利技术提供了以下技术方案：

3、基于双模态交互的开放词汇三维场景理解方法，包括以下步骤：

4、步骤1，将原始点云数据输入三维场景理解模型，得到三维场景理解特征，所述三维场景理解特征同时具有文本信息描述和点云特征向量；所述三维场景理解模型包括点云特征提取网

5、所述步骤1具体包括以下步骤：

6、步骤1-1，使用点云特征提取网络对原始点云数据进行学习，得到第一点云特征；

7、步骤1-2，从原始点云数据中生成二维图像数据，使用预训练图像语义提案网络预测二维图像数据中的图像实例提案，并将二维图像数据携带的深度图像信息与图像实例提案进行三维投影，得到第二点云特征；

8、步骤1-3，将第一点云特征和第二点云特征输入自适应语言文本编码器，得到可匹配文本信息描述特征的点云特征向量；

9、步骤1-4，使用预训练图像生成文本网络提取二维图像数据中的文本信息，并将文本信息输入预训练文本编码网络后得到文本信息描述特征；

10、步骤1-5，将点云特征向量和文本信息描述特征进行匹配，得到三维场景理解特征；

11、步骤2，构建损失函数对所述三维场景理解模型进行训练，所述损失函数包括实例预测损失函数、分类损失函数、图文匹配损失函数、关联损失函数。

12、与现有技术相比，本专利技术的有益效果：本专利技术通过预训练图像生成文本网络获取文本信息描述特征，形成开放词汇，再通过无标注的点云特征提取网络获取点云特征向量，将文本信息描述特征和点云特征向量匹配后得到三维场景理解特征，实现双模态交互，由于点云特征提取网络是无标注的，所以三维场景理解模型能够针对未见类别进行学习，提升了三维场景理解模型在未知环境中的应用灵活性和效果。

本文档来自技高网...

【技术保护点】

1.基于双模态交互的开放词汇三维场景理解方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于双模态交互的开放词汇三维场景理解方法，其特征在于：所述步骤1-1具体包括以下步骤：

3.根据权利要求1所述的基于双模态交互的开放词汇三维场景理解方法，其特征在于：所述实例预测损失函数为：

4.根据权利要求1所述的基于双模态交互的开放词汇三维场景理解方法，其特征在于：所述分类损失函数为：

5.根据权利要求1所述的基于双模态交互的开放词汇三维场景理解方法，其特征在于：所述图文匹配损失函数为：

6.根据权利要求1所述的基于双模态交互的开放词汇三维场景理解方法，其特征在于：所述关联损失函数为：

【技术特征摘要】

1.基于双模态交互的开放词汇三维场景理解方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于双模态交互的开放词汇三维场景理解方法，其特征在于：所述步骤1-1具体包括以下步骤：

3.根据权利要求1所述的基于双模态交互的开放词汇三维场景理解方法，其特征在于：所述实例预测损失函数为：

...

【专利技术属性】
技术研发人员：潘磊，栾五洋，李俊辉，郑远，王艾，傅强，王梦琪，卢志鹏，秦晨晨，
申请(专利权)人：中国民用航空飞行学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人