三维场景描述方法、装置、电子设备和存储介质制造方法及图纸

技术编号:28839946 阅读:26 留言:0更新日期:2021-06-11 23:38
本发明专利技术提供一种三维场景描述方法、装置、电子设备和存储介质,其中方法包括:确定待描述场景的三维点云数据;基于已训练的三维场景描述模型,对所述三维点云数据进行特征提取,得到所述三维点云数据的点云特征,并基于所述点云特征,生成所述待描述场景的描述文本;其中,所述三维场景描述模型是基于样本场景的样本三维点云数据及其样本描述文本训练得到的。本发明专利技术提供的三维场景描述方法、装置、电子设备和存储介质,基于已训练的三维场景描述模型,对三维点云数据进行特征提取,得到三维点云数据的点云特征,并基于点云特征,生成待描述场景的描述文本,可以实现三维场景的自动化智能描述,且场景描述准确率高、对数据适应范围广泛。

【技术实现步骤摘要】
三维场景描述方法、装置、电子设备和存储介质
本专利技术涉及计算机视觉和自然语言处理
,尤其涉及一种三维场景描述方法、装置、电子设备和存储介质。
技术介绍
三维场景的智能化描述方法,是指对数字化表示的三维场景数据,利用三维视觉处理方法和自然语言模型,生成对应场景的自然语言描述语句的方法。场景理解是当前人工智能领域中的一项重要任务,场景理解的一种直观实现方法就是对场景中存在的事物生成一段合理、清晰且完整的描述语句,即场景描述方法。场景描述方法能够被广泛应用于机器人、自动导航、自动驾驶与智能导盲等领域中,同时基于场景描述实现的信息检索可以被应用于生物医学、商业、军事、教育和网络搜索等领域,因此对人类社会的智能化发展意义重大。随着现代视觉图像采集设备的更新换代,人类获取的视觉信息逐渐复杂化、多元化。相较于通过普通相机拍摄的简单二维图像表示的场景,通过深度相机、激光雷达等设备能够方便快捷地获取得到更为复杂、信息更加丰富的三维场景数据。因此,三维场景智能化描述方法将在场景理解任务中发挥重要作用。(1)三维场景数据的表示与处理方法不同于规则的二维图像,三维场景数据一般是不规则的、无序的。典型的三维场景数据的表示方法包括:点云结构、网格结构和体素结构。其中,体素结构是对三维数据进行栅格化处理,一般会导致信息丢失,且占用存储空间较大。因此目前主流的三维数据处理方法大多使用点云结构和网格结构表示三维数据。在点云结构中,三维场景被表示为三维空间中的一系列点的三维坐标。这些点一般是无序的,也就是说,点数量与坐标相同但顺序不同的点云被认为表示的是同一个场景。网格结构是在点云结构的基础上,按照一定规则,将相邻的点连接形成若干面片,以表示物体的表面。网格结构有利于计算机图形学中对三维数据的渲染显示,但相对于点云结构并未增加太多的信息量,因此点云结构是三维处理方法中被使用最广泛的一种数据表示方法。点云场景数据中隐藏着大量信息,因此需要设计各种不同的数据处理方法挖掘这些信息,以完成各种场景理解任务,包括点云分类、目标检测、识别、语义分割、配准和描述等任务。传统的点云数据处理方法,通过手工设计的特征对点云中的点进行特征提取,并对其使用聚类等方法进行分析,包括凹凸性分割,分水岭分析,层次聚类,区域增长及频谱聚类等方法。这些传统方法需要人工参与设计特征计算方式,且严重依赖人类的先验知识。点云分类方法:根据用于点特征学习的网络结构的不同,点云分类方法可以分为基于逐点多层感知器(MLP)的方法、基于卷积的方法、基于图的方法和基于分层结构的方法等。基于逐点MLP的方法,利用共享的MLP处理全部点数据,提取得到每个点的局部特征,然后通过一个对称聚合函数得到点云的全局特征,最后使用Softmax等方法对全局特征进行分类。PointNet模型是此类方法的开创性工作,它以点云为输入,通过多个MLP层独立学习点特征,并通过最大池化层提取得到全局特征。由于在PointNet中每个点的特征是独立学习的,点与点之间的局部结构信息无法被有效获取到。在此基础上,分层结构PointNet++模型被提出,它通过集成采样层、分组层和基于PointNet的学习层,从每个点的邻域捕获精细的几何结构信息,并逐层抽象局部特征,从而大大提升特征表达能力。由于其优异的特征表达能力,很多后续学者提出的点云处理方法都是基于PointNet或PointNet++实现的。例如:PointWeb模型基于PointNet++,利用局部邻域的上下文信息,通过自适应特征调整来改进点特征;SRINet模型通过投影获得点云的旋转不变表达,然后通过基于PointNet的骨干网络提取全局特征,同时利用基于图的聚合方法提取局部特征。基于卷积的方法,使用类似于二维图像卷积核的操作,在三维空间中对给定点的邻域子集计算加权和,其中加权的权重取决于相对于卷积核中心点的空间分布。例如RS-CNN模型将给定点邻域中的局部点集作为输入,通过MLP实现卷积操作,学习得到从几何距离和相对位置等低层关系到高层抽象关系的映射。基于图的方法,将点云中的每个点看作一个顶点,并根据一定规则将每个点与邻域点连接生成有向边,从而将点云表达为图结构,然后在空间域或谱域进行特征学习。在空间域上,DGCNN模型利用点云数据在特征空间构造图结构,并通过网络的各层更新图结构。其中,MLP被用于学习图结构中各边的特征,通道对称聚合函数被用于整合节点邻域各边的特征。在谱域上,RGCNN模型在网络各层更新图的拉普拉斯矩阵;HGNN模型在图上应用谱域卷积构建了边的卷积操作。基于分层结构的方法,依据点云数据构建不同层次的数据结构(如八叉树和KD树等),然后沿着树从叶节点到根节点逐层学习点特征。OctNet模型在八叉树结构表示的点云中使用一种球形卷积操作,网络的每一层对应八叉树的一层,同时对应一个球形卷积核,即当前层卷积核的输出为上一层球形邻域内相关节点的加权平均值。KD-Net模型在每一次迭代中构建多个不同分裂方向的KD树,通过将MLP应用于各子节点从而计算得到父节点的值。点云语义分割方法:语义分割的目的是根据点的语义属性将点云划分为多个语义不同的子集。与点云分类方法类似,点云语义分割方法同样大多使用MLP和三维卷积等方法提取点云的局部邻域特征和全局特征,不同的是,点云分类方法提取得到全局特征之后直接利用Softmax等方法得到全局类别信息,而点云语义分割方法需要通过设计专用的网络恢复计算出每个点的语义类别。上述提到的很多点云分类模型同时也提供了用于语义分割的网络结构。PointNet++模型在其分类网络的基础上,通过上采样和单位PointNet从抽象特征逐步恢复得到分割结果。KPConv模型同样依赖于其分类网络,构建了一种全卷积分割网络,它通过使用半径邻域采样来保持一致的感受野,从而适应不同密度的点云输入。RandLA-Net模型实现了一种用于大规模点云语义分割的高效轻量级网络结构,它采用随机采样方法,在计算时间和存储空间方面取得了显著的提升效果。(2)图像描述生成方法目前,图像描述生成方法大多是基于二维图像生成描述语句的方法,而很少有基于三维数据的描述生成方法。图像描述任务是为输入图片生成一个描述语句,它要求识别图像中的重要目标及其属性和相互关系等特征,然后通过解码生成语法和语义正确的句子。现有的图像描述方法主要包括三大类:基于模板的方法、基于检索的方法和基于生成的方法。基于模板的方法,使用固定的含有若干空白项的模板,首先在图像中检测不同的对象及其属性,据此来填写模板中的空白项。例如采用条件随机场来推断对象、属性和介词等,填充模板得到描述语句。这种方法可以得到语法正确的描述,但由于模板是预先固定的,所以不能生成可变长度的描述。基于检索的方法,从一组现有的描述语句中检索出与对应图像相似的描述。此类方法虽然也能够得到语法正确的描述,但仍然存在一定的局限性,不能生成特定于图像且语义正确的描述。基于生成的方法,一般是首先提取图像的视觉特征,然后使用视觉特征通过语言模型生成描述。这类方法可以为每幅图像生成新的且语本文档来自技高网...

【技术保护点】
1.一种三维场景描述方法,其特征在于,包括:/n确定待描述场景的三维点云数据;/n基于已训练的三维场景描述模型,对所述三维点云数据进行特征提取,得到所述三维点云数据的点云特征,并基于所述点云特征,生成所述待描述场景的描述文本;/n其中,所述三维场景描述模型是基于样本场景的样本三维点云数据及其样本描述文本训练得到的。/n

【技术特征摘要】
1.一种三维场景描述方法,其特征在于,包括:
确定待描述场景的三维点云数据;
基于已训练的三维场景描述模型,对所述三维点云数据进行特征提取,得到所述三维点云数据的点云特征,并基于所述点云特征,生成所述待描述场景的描述文本;
其中,所述三维场景描述模型是基于样本场景的样本三维点云数据及其样本描述文本训练得到的。


2.根据权利要求1所述的三维场景描述方法,其特征在于,所述基于已训练的三维场景描述模型,对所述三维点云数据进行特征提取,得到所述三维点云数据的点云特征,并基于所述点云特征,生成所述待描述场景的描述文本,具体包括:
基于所述三维场景描述模型的特征提取层,对所述三维点云数据中各点的三维坐标和RGB颜色信息进行特征提取,得到所述点云特征;
基于所述三维场景描述模型的描述文本生成层,利用自注意力机制对所述点云特征和各点的三维坐标进行编码,得到三维场景特征编码,并对所述三维场景特征编码进行解码,得到所述描述文本。


3.根据权利要求2所述的三维场景描述方法,其特征在于,所述特征提取层包括多个卷积块,每个卷积块由多个空间点卷积层组合而成;
其中,任一卷积块中,首个空间点卷积层带有降采样操作,各个空间点卷积层之间顺序连接,且每两个不相邻的空间点卷积层的输出之间通过稠密跨层方式连接。


4.根据权利要求3所述的三维场景描述方法,其特征在于,所述空间点卷积层用于基于所述三维点云数据中各点的三维坐标和RGB颜色信息进行空间卷积计算;
所述空间卷积计算公式为:



其中,x为卷积核的中心点;Nx为点x的邻域点集合;为点i的D维特征向量,为所述三维点云数据中所有点的特征集合;N为所述三维点云数据中点的总数;kernel为卷积核函数;



其中,Kx为卷积核参考点的集合;为特征映射矩阵,是可学习参数;λ表示卷积核参考点的影响范围;Δk为卷积核参考点xk的位置偏移量,是可学习参数。


5.根据权利要求2所述的三维场景描述方法,其特征在于,所述基于所述三维场景描述模型的描述文本生成层,利用自注意力机制对所述点云特征和各点的三维坐标进行编码,得到三维场景特征编码,并对所述三维场景特征编码进行解码,...

【专利技术属性】
技术研发人员:于强王颖潘春洪
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1