System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种物体识别方法、装置及电子设备制造方法及图纸_技高网

一种物体识别方法、装置及电子设备制造方法及图纸

技术编号:40421305 阅读:10 留言:0更新日期:2024-02-20 22:40
本发明专利技术公开了一种物体识别方法、装置及电子设备,涉及计算机视觉技术领域。该方法包括从目标物体的多视图影像集合中提取多视图影像的多尺度特征,生成多视图影像的多尺度特征集合;对多尺度特征集合中的多尺度特征进行特征融合,输出融合后的多尺度特征集合;将融合后的多尺度特征集合进行全局特征关联,输出全局描述符;根据全局描述符对目标物体进行识别。通过提取多视图影像中的多尺度特征,对多尺度特征进行视图特征融合,提高特征质量,之后通过对融合后的多尺度特征集合进行全局特征关联,获得全局描述符,利用全局描述符实现信息交互,从而实现了同时满足高质量特征的提取与视图之间的特征进行充分的信息交互的需求。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,具体涉及一种物体识别方法、装置及电子设备


技术介绍

1、三维(3d,3-dimension)物体识别一直是计算机视觉领域的研究热点,随着3d采集技术趋于成熟以及相关技术的发展,3d物体机器人环境感知、虚拟现实/增强现实等领域拥有广泛的应用。基于视图的3d物体识别利用多个视角或传感器获取物体的多个视图信息,物体在现实世界中可能会被其他物体遮挡,或者出现在复杂的背景中,基于视图的方法可以通过融合多个视图信息,减轻遮挡和复杂背景带来的困难,提高物体识别的可靠性。

2、当前基于深度学习的3d物体识别方法可分为基于模型的方法和基于视图的方法。基于模型的方法使用3d物体的3d数据,例如体素、点云、多边形网格等,使用3d网络直接对物体的3d数据进行处理。例如,voxnet将3d数据转换为体素块,根据不同体素块之间空间局部的相关性对物体其进行分类。又例如,shapenets将3d物体以二元变量的方式在体素网络上进行分布,从二维信息概率分布中学习各种三维形状的点分布。再例如,pointnet直接使用点云数据对3d物体进行分类的经典网络,使用多个mlp层学习点云特征,最后采用最大池化层提取全局形状特征。由于3d数据中3d特征的复杂性,使用基于模型的方法进行3d物体识别通常有着庞大的计算开销,并且在3d数据采集时若遇到地物遮挡等问题,会造成精度大幅度下降。

3、在基于视图的方法中通常对是多视图影像提取特征,并将其融合,以实现准确的三维对象识别。基于视图的方法的核心问题在于如何有效关联不同视图之间的信息。在诸多基于视图的方法中,mvcnn(multi-view convolutional neural networks,多视图卷积神经网络)是一个对每个视图通过卷积神经网络(cnn,convolutional neural networks)提取特征后,利用最大池化层将所有特征聚合为全局描述符。gvcnn(group-viewconvolutional neural networks,群视图卷积神经网络)通过对不同的视图进行分组,为包含更多有效信息的视图组分配更高的权重。mvcnn并没有使不同视图之间的特征进行充分的信息交互,gvcnn的分组策略虽然在一定程度上做到了视图组之间的信息交互,但是组内视图之间依然没有进行特征关联。并使用mvt模型通过局部、全局transformer对多视图影像进行特征提取与信息交互,虽然transformer能对不同视图之间的信息进行充分交互,但是使用transformer提取特征时会导致局部特征劣化,并且会产生庞大的计算开销。因此,如何实现同时满足高质量特征的提取与视图之间的特征进行充分的信息交互是亟待解决的问题。


技术实现思路

1、有鉴于此,本专利技术实施例提供了一种物体识别方法、装置及电子设备,以解决同时满足高质量特征的提取与视图之间的特征进行充分的信息交互的问题。

2、根据第一方面,本专利技术实施例提供了一种物体识别方法,包括:

3、从目标物体的多视图影像集合中提取多视图影像的多尺度特征,生成所述多视图影像的多尺度特征集合;

4、对所述多尺度特征集合中的多尺度特征进行特征融合,输出融合后的多尺度特征集合;

5、将所述融合后的多尺度特征集合进行全局特征关联,输出全局描述符;

6、根据所述全局描述符对目标物体进行识别。

7、可选的,从目标物体的多视图影像集合中提取多视图影像的多尺度特征,生成所述多视图影像的多尺度特征集合,包括:

8、将所述多视图影像集合中的多视图影像送入卷积神经网络提取多视图影像中的多尺度特征。

9、可选的,对所述多尺度特征集合中的多尺度特征进行特征融合,输出融合后的多尺度特征集合,包括:

10、确定特征融合权重;

11、基于所述特征融合权重和所述多尺度特征集合中的多尺度特征进行特征融合,输出融合后的多尺度特征集合。

12、可选的,基于所述特征融合权重和所述多尺度特征集合中的多尺度特征进行特征融合,输出融合后的多尺度特征集合,包括:

13、将所述多尺度特征集合中的多尺度特征通过所述特征融合权重进行加权映射,输出融合后的多尺度特征集合。

14、可选的,在将所述多尺度特征集合中的多尺度特征通过所述特征融合权重进行加权映射之后,包括:

15、对加权映射后的多尺度特征进行最大池化输出融合后的多尺度特征集合。

16、可选的,将所述融合后的多尺度特征集合进行全局特征关联,输出全局描述符,包括:

17、根据所述融合后的多尺度特征集合确定全局特征图;

18、基于所述全局特征图进行全局建模,输出全局描述符。

19、可选的,在输出全局描述符之前,包括:

20、对所述全局特征图进行平均池化。

21、根据第二方面,本专利技术实施例提供了一种物体识别装置,包括:

22、提取模块,用于从目标物体的多视图影像集合中提取多视图影像的多尺度特征,生成所述多视图影像的多尺度特征集合;

23、融合模块,用于对所述多尺度特征集合中的多尺度特征进行特征融合,输出融合后的多尺度特征集合;

24、关联模块,用于将所述融合后的多尺度特征集合进行全局特征关联,输出全局描述符;

25、输出模块,用于根据所述全局描述符对目标物体进行识别。

26、根据第三方面,本专利技术实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的物体识别方法。

27、根据第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的物体识别方法。

28、本申请提供的物体识别方法,通过提取多视图影像中的多尺度特征,对多尺度特征进行视图特征融合,提高特征质量,之后通过对融合后的多尺度特征集合进行全局特征关联,获得全局描述符,利用全局描述符实现息交互,从而实现了同时满足高质量特征的提取与视图之间的特征进行充分的信息交互的需求。

本文档来自技高网...

【技术保护点】

1.一种物体识别方法,其特征在于,包括:

2.根据权利要求1所述的物体识别方法,其特征在于,所述从目标物体的多视图影像集合中提取多视图影像的多尺度特征,生成所述多视图影像的多尺度特征集合,包括:

3.根据权利要求1所述的物体识别方法,其特征在于,所述对所述多尺度特征集合中的多尺度特征进行特征融合,输出融合后的多尺度特征集合,包括:

4.根据权利要求3所述的物体识别方法,其特征在于,所述基于所述特征融合权重和所述多尺度特征集合中的多尺度特征进行特征融合,输出融合后的多尺度特征集合,包括:

5.根据权利要求4所述的物体识别方法,其特征在于,在将所述多尺度特征集合中的多尺度特征通过所述特征融合权重进行加权映射之后,包括:

6.根据权利要求1所述的物体识别方法,其特征在于,所述将所述融合后的多尺度特征集合进行全局特征关联,输出全局描述符,包括:

7.根据权利要求6所述的物体识别方法,其特征在于,在输出全局描述符之前,包括:

8.一种物体识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的物体识别方法。

...

【技术特征摘要】

1.一种物体识别方法,其特征在于,包括:

2.根据权利要求1所述的物体识别方法,其特征在于,所述从目标物体的多视图影像集合中提取多视图影像的多尺度特征,生成所述多视图影像的多尺度特征集合,包括:

3.根据权利要求1所述的物体识别方法,其特征在于,所述对所述多尺度特征集合中的多尺度特征进行特征融合,输出融合后的多尺度特征集合,包括:

4.根据权利要求3所述的物体识别方法,其特征在于,所述基于所述特征融合权重和所述多尺度特征集合中的多尺度特征进行特征融合,输出融合后的多尺度特征集合,包括:

5.根据权利要求4所述的物体识别方法,其特征在于...

【专利技术属性】
技术研发人员:李礼叶荔姗刘钊姚剑周朋伟许国政
申请(专利权)人:武汉大学深圳研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1