三维场景描述方法、装置、电子设备和存储介质制造方法及图纸

技术编号：28839946 阅读：26 留言：0更新日期：2021-06-11 23:38

本发明专利技术提供一种三维场景描述方法、装置、电子设备和存储介质，其中方法包括：确定待描述场景的三维点云数据；基于已训练的三维场景描述模型，对所述三维点云数据进行特征提取，得到所述三维点云数据的点云特征，并基于所述点云特征，生成所述待描述场景的描述文本；其中，所述三维场景描述模型是基于样本场景的样本三维点云数据及其样本描述文本训练得到的。本发明专利技术提供的三维场景描述方法、装置、电子设备和存储介质，基于已训练的三维场景描述模型，对三维点云数据进行特征提取，得到三维点云数据的点云特征，并基于点云特征，生成待描述场景的描述文本，可以实现三维场景的自动化智能描述，且场景描述准确率高、对数据适应范围广泛。

全部详细技术资料下载

【技术实现步骤摘要】
三维场景描述方法、装置、电子设备和存储介质
本专利技术涉及计算机视觉和自然语言处理
，尤其涉及一种三维场景描述方法、装置、电子设备和存储介质。
技术介绍
三维场景的智能化描述方法，是指对数字化表示的三维场景数据，利用三维视觉处理方法和自然语言模型，生成对应场景的自然语言描述语句的方法。场景理解是当前人工智能领域中的一项重要任务，场景理解的一种直观实现方法就是对场景中存在的事物生成一段合理、清晰且完整的描述语句，即场景描述方法。场景描述方法能够被广泛应用于机器人、自动导航、自动驾驶与智能导盲等领域中，同时基于场景描述实现的信息检索可以被应用于生物医学、商业、军事、教育和网络搜索等领域，因此对人类社会的智能化发展意义重大。随着现代视觉图像采集设备的更新换代，人类获取的视觉信息逐渐复杂化、多元化。相较于通过普通相机拍摄的简单二维图像表示的场景，通过深度相机、激光雷达等设备能够方便快捷地获取得到更为复杂、信息更加丰富的三维场景数据。因此，三维场景智能化描述方法将在场景理解任务中发挥重要作用。(1)三维场景数据的表示与处理方法不同于规则的二维图像，三维场景数据一般是不规则的、无序的。典型的三维场景数据的表示方法包括：点云结构、网格结构和体素结构。其中，体素结构是对三维数据进行栅格化处理，一般会导致信息丢失，且占用存储空间较大。因此目前主流的三维数据处理方法大多使用点云结构和网格结构表示三维数据。在点云结构中，三维场景被表示为三维空间中的一系列点的三维坐标。这些点一般是无序的，也就是说，点数量与坐标...

【技术保护点】
1.一种三维场景描述方法，其特征在于，包括：/n确定待描述场景的三维点云数据；/n基于已训练的三维场景描述模型，对所述三维点云数据进行特征提取，得到所述三维点云数据的点云特征，并基于所述点云特征，生成所述待描述场景的描述文本；/n其中，所述三维场景描述模型是基于样本场景的样本三维点云数据及其样本描述文本训练得到的。/n

【技术特征摘要】
1.一种三维场景描述方法，其特征在于，包括：
确定待描述场景的三维点云数据；
基于已训练的三维场景描述模型，对所述三维点云数据进行特征提取，得到所述三维点云数据的点云特征，并基于所述点云特征，生成所述待描述场景的描述文本；
其中，所述三维场景描述模型是基于样本场景的样本三维点云数据及其样本描述文本训练得到的。

2.根据权利要求1所述的三维场景描述方法，其特征在于，所述基于已训练的三维场景描述模型，对所述三维点云数据进行特征提取，得到所述三维点云数据的点云特征，并基于所述点云特征，生成所述待描述场景的描述文本，具体包括：
基于所述三维场景描述模型的特征提取层，对所述三维点云数据中各点的三维坐标和RGB颜色信息进行特征提取，得到所述点云特征；
基于所述三维场景描述模型的描述文本生成层，利用自注意力机制对所述点云特征和各点的三维坐标进行编码，得到三维场景特征编码，并对所述三维场景特征编码进行解码，得到所述描述文本。

3.根据权利要求2所述的三维场景描述方法，其特征在于，所述特征提取层包括多个卷积块，每个卷积块由多个空间点卷积层组合而成；
其中，任一卷积块中，首个空间点卷积层带有降采样操作，各个空间点卷积层之间顺序连接，且每两个不相邻的空间点卷积层的输出之间通过稠密跨层方式连接。

4.根据权利要求3所述的三维场景描述方法，其特征在于，所述空间点卷积层用于基于所述三维点云数据中各点的三维坐标和RGB颜色信息进行空间卷积计算；
所述空间卷积计算公式为：

其中，x为卷积核的中心点；Nx为点x的邻域点集合；为点i的D维特征向量，为所述三维点云数据中所有点的特征集合；N为所述三维点云数据中点的总数；kernel为卷积核函数；

其中，Kx为卷积核参考点的集合；为特征映射矩阵，是可学习参数；λ表示卷积核参考点的影响范围；Δk为卷积核参考点xk的位置偏移量，是可学习参数。

5.根据权利要求2所述的三维场景描述方法，其特征在于，所述基于所述三维场景描述模型的描述文本生成层，利用自注意力机制对所述点云特征和各点的三维坐标进行编码，得到三维场景特征编码，并对所述三维场景特征编码进行解码，...

【专利技术属性】
技术研发人员：于强，王颖，潘春洪，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人