一种运动目标识别方法技术

技术编号：44030926 阅读：17 留言：0更新日期：2025-01-15 01:11

本发明专利技术涉及一种运动目标识别方法，包括以下步骤：对采集到的多模态数据分别进行特征提取，获得第一模态特征、第二模态特征和第三模态特征；通过低秩多模态融合将具有频率特性的所述第二模态特征和所述第三模态特征融合成为融合模态特征；分别对所述第一模态特征和所述融合模态特征依次进行时间提取和位置嵌入，获得第一处理特征和第二处理特征；利用跨模态学习模型建立所述第一处理特征和所述第二处理特征的跨模态交互，输出第三处理特征和第四处理特征，所述跨模态学习模型基于改进的多模态Transformer模型构建；根据所述第三处理特征和所述第四处理特征预测获得目标识别结果。本发明专利技术能够有效提高运动目标识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及目标识别，特别是涉及一种运动目标识别方法。

技术介绍

1、在野外场景下的运动目标识别需要考虑环境的特殊性：图像视场角遮挡、风噪声或动物经过等干扰导致单一信号识别方法准确性和鲁棒性较差，所以需要利用不同类型信号和数据融合的方法完成识别任务。实际应用中使用复合式传感器节点采集图像、声音和震动三种信号，进而提取信号特征用于分类，避免因为单一类型信号导致的识别准确率低。

2、现有的野外运动目标识别技术存在以下缺点：(1)由于声震信号可以同步连续采集而图像信号为间隔式拍摄采集，造成图像信号与声震信号的信息不对等的问题，所以信号融合时没有选择图像模态，但是图像信息丰富，识别准确率高，缺少图像模态对识别性能有较大的损失；(2)运动目标在节点监控区域内有较长的运动时间，现有技术一般截取短时间内目标信号进行识别，没有考虑目标信号在长时间内完整的信号特征和信号变化，可能出现识别错误的问题；(3)不同模态的融合方法较为简单，没有互相学习隐含的信息，导致识别准确率收到限制。

技术实现思路

1、本专利技术所要解决的技术问题是提供一种运动目标识别方法，能够有效提高运动目标识别的准确率。

2、本专利技术解决其技术问题所采用的技术方案是：提供一种运动目标识别方法，包括以下步骤：

3、对采集到的多模态数据分别进行特征提取，获得第一模态特征、第二模态特征和第三模态特征；

4、通过低秩多模态融合将具有频率特性的所述第二模态特征和所述第三模态特征融合成为融合模态特征；

5、对所述第一模态特征依次进行时间提取和位置嵌入，获得第一处理特征；

6、对所述融合模态特征依次进行时间提取和位置嵌入，获得第二处理特征；

7、利用跨模态学习模型建立所述第一处理特征和所述第二处理特征的跨模态交互，输出第三处理特征和第四处理特征，所述跨模态学习模型基于改进的多模态transformer模型构建；

8、根据所述第三处理特征和所述第四处理特征预测获得运动目标识别结果。

9、进一步的，所述利用跨模态学习模型建立所述第一处理特征和所述第二处理特征的跨模态交互，输出第三处理特征和第四处理特征，包括：

10、通过第一跨模态学习模型使所述第一处理特征接收所述第二处理特征的信息，获得所述第三处理特征；

11、通过第二跨模态学习模型使所述第二处理特征接收所述第一处理特征的信息，获得所述第四处理特征。

12、进一步的，所述根据所述第三处理特征和所述第四处理特征预测获得目标识别结果，包括：

13、分别将所述第三处理特征和所述第四处理特征经自注意transformer处理后输出第五处理特征和第六处理特征；

14、利用全连接层对所述第五处理特征和所述第六处理特征进行权重分配获得所述运动目标识别结果。

15、进一步的，所述第一跨模态学习模型和第二跨模态学习模型分别为第一改进多模态transformer模型、第二改进多模态transformer模型、第三改进多模态transformer模型中的一种。

16、进一步的，所述第一改进多模态transformer模型包括：

17、第一ffn模块，包括层归一化、位置前馈层和残差连接，用来对第一输入特征进行特征增强获得第一中间特征；

18、第一跨模态注意力模块，包括层归一化、多头注意力机制和残差连接，用来使第一中间特征所述融合第二输入特征的信息获得第二中间特征；

19、第二ffn模块，包括层归一化、位置前馈层和残差连接，用来对所述第二中间特征进行特征增强后输出接收了所述第二特征的信息的所述第一输入特征。

20、进一步的，所述第二改进多模态transformer模型包括：

21、第二跨模态注意力模块，包括均方根层归一化、多头注意力机制和残差连接，用来使第一输入特征融合第二输入特征的信息获得第三中间特征；

22、第三ffn模块，包括均方根层归一化、位置前馈层和残差连接，用来对所述第三中间特征进行特征增强后输出接收了所述第二特征的信息的所述第一输入特征。

23、进一步的，所述第三改进多模态transformer模型包括：

24、第三跨模态注意力模块，包括均方根层归一化、多头注意力机制和门控层，用来使第一输入特征融合第二输入特征的信息获得第四中间特征；

25、第四ffn模块，包括均方根层归一化、位置前馈层和门控层，用来对所述第四中间特征进行特征增强后输出接收了所述第二特征的信息的所述第一输入特征。

26、进一步的，所述第一模态特征通过以下方法获得：

27、利用目标检测算法提取采集的各个图像中包含待测目标的区域，获得多个目标区域图像；

28、将所述目标区域图像序列化，获得所述第一模态特征。

29、进一步的，所述第二模态特征通过以下方法获得：

30、将采集到的声音信号划分为多个设定长度的声音数据帧；

31、提取每个所述声音数据帧的设定维度的梅尔频率倒谱系数，获得所述第二模态特征。

32、进一步的，所述第三模态特征通过以下方法获得：

33、将采集到的振动信号划分为多个设定长度的振动数据段；

34、提取每个所述振动数据段的第一设定维度的时域特征和第二设定维度的频域特征，将所述时域特征和所述频域特征拼接获得所述第三模态特征。

35、有益效果

36、由于采用了上述的技术方案，本专利技术与现有技术相比，具有以下的优点和积极效果：

37、(1)本专利技术通过搭建多模态融合框架，引入transformer结构解决融合问题，解决了声震信号数据序列比较长、图像模态和声震模态信息不对等的问题；

38、(2)本专利技术通过引入跨模态transformer，可以对任意两种时间维度不同的模态信息进行相互学习，得到加强的信息表示，进而获得更准确的检测结果；

39、(3)本专利技术引入低秩多模态融合(low-rank multimodal fusion，lmf)方法对不同模态特征进行融合，得到融合模态作为模态相互学习的一路输入；声震信号是两种关联性较强的模态，低秩多模态融合(lmf)方法可以有效结合两种模态的特征，得到一种新的融合模态，这样既减少了计算复杂度，也使得后续的跨模态学习(crossmodal transformer)在图像模态和一种加强的融合模态之间进行，有利于不同模态之间相互学习和融合；

40、(4)本专利技术将三种不同模态的信号特征分为图像特征和声震融合特征两路分别信息提取、跨模态学习和自注意力transformer处理，两路特征互相学习对方隐含的信息再预测识别结果，提高了目标识别的准确率；

41、(5)本专利技术对crossmodal transformer模块的网络结构进行改进，引入三种改进结构：a.在multi-he本文档来自技高网...

【技术保护点】

1.一种运动目标识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述利用跨模态学习模型建立所述第一处理特征和所述第二处理特征的跨模态交互，输出第三处理特征和第四处理特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第三处理特征和所述第四处理特征预测获得目标识别结果，包括：

4.根据权利要求2所述的方法，其特征在于，所述第一跨模态学习模型和第二跨模态学习模型分别为第一改进多模态Transformer模型、第二改进多模态Transformer模型、第三改进多模态Transformer模型中的一种。

5.根据权利要求4所述的方法，其特征在于，所述第一改进多模态Transformer模型包括：第一FFN模块，包括层归一化、位置前馈层和残差连接，用来对第一输入特征进行特征增强获得第一中间特征；

6.根据权利要求4所述的方法，其特征在于，所述第二改进多模态Transformer模型包括：第二跨模态注意力模块，包括均方根层归一化、多头注意力机制和残差连接，用来使第一输入特征融合第二输入

7.根据权利要求4所述的方法，其特征在于，所述第三改进多模态Transformer模型包括：第三跨模态注意力模块，包括均方根层归一化、多头注意力机制和门控层，用来使第一输入特征融合第二输入特征的信息获得第四中间特征；

8.根据权利要求1所述的方法，其特征在于，所述第一模态特征通过以下方法获得：

9.根据权利要求1所述的方法，其特征在于，所述第二模态特征通过以下方法获得：

10.根据权利要求1所述的方法，其特征在于，所述第三模态特征通过以下方法获得：

...

【技术特征摘要】

1.一种运动目标识别方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第三处理特征和所述第四处理特征预测获得目标识别结果，包括：

4.根据权利要求2所述的方法，其特征在于，所述第一跨模态学习模型和第二跨模态学习模型分别为第一改进多模态transformer模型、第二改进多模态transformer模型、第三改进多模态transformer模型中的一种。

5.根据权利要求4所述的方法，其特征在于，所述第一改进多模态transformer模型包括：第一ffn模块，包括层归一化、位置前馈层和残差连接，用来对第一输入特征进...

【专利技术属性】
技术研发人员：张经之，刘华巍，李宝清，
申请(专利权)人：中国科学院上海微系统与信息技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人