多模态特征融合图像分类方法及在人形机器人中的应用技术

技术编号：42711607 阅读：39 留言：0更新日期：2024-09-13 12:02

本发明专利技术属于图像识别与理解技术领域，具体涉及多模态特征融合图像分类方法及在人形机器人中的应用。本发明专利技术提供的多模态特征融合图像分类方法，对深度图像和雷达图像进行分块与填充预处理，然后利用结合三维卷积和异质核卷积的深度图像特征提取模块，以及二维卷积处理雷达图像；运用基于交叉注意力的Transformer网络融合深度图像和雷达图像的特征；通过多尺度Transformer网络进行深层次的特征提取与融合；将融合特征输入分类器以完成物体识别。本发明专利技术有效融合了CNN与Transformer的优势，通过多尺度处理和跨模态特征融合，提升分类识别能力，并进一步用于提升人形机器人的环境适应性和导航精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像识别与理解，具体涉及多模态特征融合图像分类方法及在人形机器人中的应用。

技术介绍

1、人形机器人的环境感知能力是指机器人能够通过传感器获取环境中的信息，并将其加工处理以理解周围的情境和条件。这种能力对于机器人在真实世界中进行任务、与人类交互以及执行复杂的动作至关重要。

2、人形机器人在实际应用场景中需要对周围环境有准确的理解，才能进行有效的路径规划、避障和目标追踪等任务。图像分类对于人形机器人而言是一种基础且关键的认知能力，使机器人能够基于视觉信息对周围环境进行高层次的理解，进而适应各种应用场景，与环境中的元素有效交互，执行指定任务，并进行自我监测与维护。通过图像分类，机器人能识别出环境中的关键元素，如家具、行人、障碍物、道路标志、门、楼梯等，从而做出相应的决策。

3、当前基于计算机视觉的机器人环境感知技术多是基于卷积神经网络(cnn)和循环神经网络(rnn)。基于cnn网络的环境感知技术，通过卷积层和池化层，能够有效捕捉图像视觉信息的局部特征，如边缘、纹理等，而且参数共享和稀疏连接使其具有较少的参数量，有助于减少过拟合，但很难处理长输入，无法应对复杂环境下的环境理解任务；基于rnn网络的环境感知技术适用于处理序列数据，能够捕捉时间上的依赖关系，但传统的rnn存在梯度消失或梯度爆炸问题，难以建模较长的时间依赖，导致难以捕捉长距离的上下文信息，而且计算效率较低，由于循环结构，难以并行化，限制了训练速度。除基于以上两种神经网络的方法外，近年来也出现了一批基于transformer的环境感知技

技术实现思路

1、针对现有技术存在的不足，本专利技术提供一种多模态特征融合图像分类方法及在人形机器人中的应用。本专利技术的目的在于解决现有技术中机器人只能依靠单一模态信息感知环境，且在复杂场景下无法有效感知环境中不同尺度物体的问题。

2、本专利技术第一方面是提供的多模态特征融合图像分类方法，包括以下步骤：

3、步骤s101：采集深度图像和雷达图像，对获取的深度图像和雷达图像实施分块处理和数据对齐操作；

4、步骤s102：针对分块处理后的深度图像块和雷达图像块，分别使用不同的卷积神经网络进行初步特征提取，捕获深度图像块的空间深度特征信息和雷达图像块的抽象特征信息，并对齐深度图像块和雷达图像块的初步特征的数据维度；

5、步骤s103：将初步提取的深度图像特征与雷达图像特征通过基于交叉注意力的transformer网络进行融合，实现不同模态间信息的自适应权重分配与交互，捕捉跨模态的语义关系；

6、步骤s104：对融合后的特征应用多尺度transformer进行处理，以进一步捕获抽象和细化特征信息；

7、步骤s105：将经过上述多尺度特征融合处理的特征信息输入至分类任务头，完成图像分类。

8、进一步地，上述多模态特征融合图像分类方法在步骤s101中，对获取的深度图像和雷达图像实施分块处理，根据边缘计算设备的处理能力，将图像分割为预设大小的图像块，并对分割后的图像块进行边界填充处理，使填充后的深度图像块和雷达图像块宽度一致且高度也一致。

9、进一步地，上述多模态特征融合图像分类方法在步骤s102中，对深度图像块的处理采用结合三维卷积(conv3d)与异质核卷积(hetconv2d)的特征提取模块；将深度图像块输入至三维卷积层(conv3d)进行卷积处理，并在提取空间特征的基础上保持输出图像特征的高度和宽度与输入图像一致；随后将三维卷积层的输出通过hetconv2d进行进一步处理，hetconv2d模块采用并行的组卷积(groupwise convolution)与逐点卷积(pointwiseconvolution)，通过两个卷积层的输出相加整合特征，增强深度图像块的抽象表示，并在此过程中应用批量归一化和relu激活函数以优化特征提取并保持特征维度。

10、进一步地，上述多模态特征融合图像分类方法在步骤s102中，对雷达图像块的处理采用包含二维卷积(conv2d)、批量归一化(batch norm)和relu激活层的特征提取模块进行特征提取和维度对齐；采用二维卷积层对雷达图像块进行初步特征抽取，随后的批量归一化层用于减小内部协变量偏移并促进训练稳定性，随后的relu激活函数层通过在输出特征图中引入非线性激活反向传播。

11、进一步地，上述多模态特征融合图像分类方法在步骤s103中，交叉注意力网络采用transformer中multi-head attention结构，包括两个cross attention网络；其中第一个cross attention网络的query由雷达图像的抽象特征张量生成，而key和value由深度图像的抽象特征张量生成；第二个cross attention网络的query由深度图像的抽象特征张量生成，key和value由雷达图像的抽象特征张量生成；通过softmax函数分配权重，自适应地强调不同模态数据的相关性和重要性，实现模态间的信息交互和语义关系捕捉。

12、进一步地，上述多模态特征融合图像分类方法的步骤s104包括：

13、步骤s1041：对融合后的特征使用二维卷积生成query/key/value(q/k/v)标记信息，保留局部空间上下文结构；

14、步骤s1042：通过引入多尺度多头自注意力机制(msmhsa)，在不同尺度上提取和融合特征，以适应不同大小物体的识别需求。

15、进一步地，上述多模态特征融合图像分类方法在步骤s1041中，对融合后的特征使用二维卷积投影生成query/key/value，使用三个独立的二维卷积wq，wk，wv生成与原特征维度相同的标记信息，为后续多尺度自注意力机制提供基础表示。

16、进一步地，上述多模态特征融合图像分类方法在步骤s1042中，使用多尺度多头自注意力机制，在自注意力模块中构建金字塔结构，依据预设的尺度列表动态分割特征图，形成多个尺度的特征表示，每种尺度对应一个计算头，各个计算头独立执行自注意力计算，针对不同尺度特征进行加权融合，每个计算头内，特征张量按尺度分割后进行注意力计算，然后通过级联操作整合所有计算头的结果，形成多尺度的特征表达。

17、本专利技术第二方面提出的是多模态特征融合图像分类方法在人形机器人中的应用，所述多模态特征融合图像分类方法即为上文介绍的多模态特征融合图像分类方法。

18、进一步地，在多模态特征融合图像分类方法在人形机器人中的应用中，将多模态特征融合图像分类方法以程序集成于人形机器人的交互系统中，人形机器人利用自身配备的传感器件采集周围环境的深度图像和雷达图像，通过本文档来自技高网...

【技术保护点】

1.一种多模态特征融合图像分类方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的多模态特征融合图像分类方法，其特征在于：在步骤S101中，对获取的深度图像和雷达图像实施分块处理，根据边缘计算设备的处理能力，将图像分割为预设大小的图像块，并对分割后的图像块进行边界填充处理，使填充后的深度图像块和雷达图像块宽度一致且高度也一致。

3.根据权利要求1所述的多模态特征融合图像分类方法，其特征在于：在步骤S102中，对深度图像块的处理采用结合三维卷积(Conv3D)与异质核卷积(HetConv2D)的特征提取模块；将深度图像块输入至三维卷积层(Conv3D)进行卷积处理，并在提取空间特征的基础上保持输出图像特征的高度和宽度与输入图像一致；随后将三维卷积层的输出通过HetConv2D进行进一步处理，HetConv2D模块采用并行的组卷积(Groupwise convolution)与逐点卷积(Pointwise convolution)，通过两个卷积层的输出相加整合特征，增强深度图像块的抽象表示，并在此过程中应用批量归一化和ReLU激活函数以优化特征提取并保持特征维度。

4.根据权利要求1所述的多模态特征融合图像分类方法，其特征在于：在步骤S102中，对雷达图像块的处理采用包含二维卷积(Conv2D)、批量归一化(Batch Norm)和ReLU激活层的特征提取模块进行特征提取和维度对齐；采用二维卷积层对雷达图像块进行初步特征抽取，随后的批量归一化层用于减小内部协变量偏移并促进训练稳定性，随后的ReLU激活函数层通过在输出特征图中引入非线性激活反向传播。

5.根据权利要求1所述的多模态特征融合图像分类方法，其特征在于：在步骤S103中，交叉注意力网络采用Transformer中Multi-Head Attention结构，包括两个CrossAttention网络；其中第一个Cross Attention网络的Query由雷达图像的抽象特征张量生成，而Key和Value由深度图像的抽象特征张量生成；第二个Cross Attention网络的Query由深度图像的抽象特征张量生成，Key和Value由雷达图像的抽象特征张量生成；通过Softmax函数分配权重，自适应地强调不同模态数据的相关性和重要性，实现模态间的信息交互和语义关系捕捉。

6.根据权利要求1所述的多模态特征融合图像分类方法，其特征在于：步骤S104包括：

7.根据权利要求6所述的多模态特征融合图像分类方法，其特征在于：在步骤S1041中，对融合后的特征使用二维卷积投影生成Query/Key/Value，使用三个独立的二维卷积WQ，WK，WV生成与原特征维度相同的标记信息，为后续多尺度自注意力机制提供基础表示。

8.根据权利要求6所述的多模态特征融合图像分类方法，其特征在于：在步骤S1042中，使用多尺度多头自注意力机制，在自注意力模块中构建金字塔结构，依据预设的尺度列表动态分割特征图，形成多个尺度的特征表示，每种尺度对应一个计算头，各个计算头独立执行自注意力计算，针对不同尺度特征进行加权融合，每个计算头内，特征张量按尺度分割后进行注意力计算，然后通过级联操作整合所有计算头的结果，形成多尺度的特征表达。

9.一种多模态特征融合图像分类方法在人形机器人中的应用，其特征在于：所述多模态特征融合图像分类方法为权利要求1至8任一项所述的多模态特征融合图像分类方法。

10.根据权利要求9所述的多模态特征融合图像分类方法在人形机器人中的应用，其特征在于：将多模态特征融合图像分类方法以程序集成于人形机器人的交互系统中，人形机器人利用自身配备的传感器件采集周围环境的深度图像和雷达图像，通过识别和分类周围环境中的物件类型识别可通行区域，在可通行区域内规划行走路径。

...

【技术特征摘要】

1.一种多模态特征融合图像分类方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的多模态特征融合图像分类方法，其特征在于：在步骤s101中，对获取的深度图像和雷达图像实施分块处理，根据边缘计算设备的处理能力，将图像分割为预设大小的图像块，并对分割后的图像块进行边界填充处理，使填充后的深度图像块和雷达图像块宽度一致且高度也一致。

3.根据权利要求1所述的多模态特征融合图像分类方法，其特征在于：在步骤s102中，对深度图像块的处理采用结合三维卷积(conv3d)与异质核卷积(hetconv2d)的特征提取模块；将深度图像块输入至三维卷积层(conv3d)进行卷积处理，并在提取空间特征的基础上保持输出图像特征的高度和宽度与输入图像一致；随后将三维卷积层的输出通过hetconv2d进行进一步处理，hetconv2d模块采用并行的组卷积(groupwise convolution)与逐点卷积(pointwise convolution)，通过两个卷积层的输出相加整合特征，增强深度图像块的抽象表示，并在此过程中应用批量归一化和relu激活函数以优化特征提取并保持特征维度。

4.根据权利要求1所述的多模态特征融合图像分类方法，其特征在于：在步骤s102中，对雷达图像块的处理采用包含二维卷积(conv2d)、批量归一化(batch norm)和relu激活层的特征提取模块进行特征提取和维度对齐；采用二维卷积层对雷达图像块进行初步特征抽取，随后的批量归一化层用于减小内部协变量偏移并促进训练稳定性，随后的relu激活函数层通过在输出特征图中引入非线性激活反向传播。

5.根据权利要求1所述的多模态特征融合图像分类方法，其特征在于：在步骤s103中，交叉注意力网络采用transformer中multi-head attention结构，包括两个crossattention网络；...

【专利技术属性】
技术研发人员：张波，贺亮，
申请(专利权)人：江苏云幕智造科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人