System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大模型的多模态数据融合方法及装置制造方法及图纸_技高网

一种基于大模型的多模态数据融合方法及装置制造方法及图纸

技术编号:44952834 阅读:4 留言:0更新日期:2025-04-12 01:24
本说明书实施例公开了一种基于大模型的多模态数据融合方法及装置,包括:将待处理的多模态数据转换为各模态对应的嵌入向量;基于预设的CNN模型,提取所述各模态对应的嵌入向量的特异特征,获得特异特征;基于所述特异特征,通过预设的强化学习算法,确定所述特异特征的权重;基于所述特异特征的权重,添加门控控制,对所述特异特征进行特征提取,获得共享特征,所述共享特征为所述待处理的多模态数据的融合结果。

【技术实现步骤摘要】

本说明书涉及计算机,尤其涉及一种基于大模型的多模态数据融合方法及装置


技术介绍

1、在人工智能领域,最常见的多模态数据包括文本、图像、音频和视频等。每种模态都有其独特的特征和信息,将这些不同的模态数据结合起来可以提供更全面的理解和更丰富的信息。

2、现有技术中,多模态数据的融合一般采用机器学习方法进行处理,该方法一般使用浅层模型,依赖于大量的标注数据进行监督或半监督训练,因此通常需要大量预处理及人工干预,且无法生成缺失数据。

3、基于此,本说明书提供一种基于大模型的多模态数据融合方法及装置。


技术实现思路

1、本说明书实施例提供一种基于大模型的多模态数据融合方法及装置,用于解决以下技术问题:现有技术中,多模态数据的融合一般采用机器学习方法进行处理,该方法一般使用浅层模型,依赖于大量的标注数据进行监督或半监督训练,因此通常需要大量预处理及人工干预,且无法生成缺失数据。

2、为解决上述技术问题,本说明书实施例是这样实现的:

3、本说明书实施例提供一种基于大模型的多模态数据融合方法,包括:

4、将待处理的多模态数据转换为各模态对应的嵌入向量;

5、基于预设的cnn模型,提取所述各模态对应的嵌入向量的特异特征,获得特异特征;

6、基于所述特异特征,通过预设的强化学习算法,确定所述特异特征的权重;

7、基于所述特异特征的权重,添加门控控制,对所述特异特征进行特征提取,获得共享特征,所述共享特征为所述待处理的多模态数据的融合结果。

8、本说明书实施例还提供一种基于大模型的多模态数据融合装置,包括:

9、转换模块,将待处理的多模态数据转换为各模态对应的嵌入向量;

10、特异特征提取模块,基于预设的cnn模型,提取所述各模态对应的嵌入向量的特异特征,获得特异特征;

11、权重确定模块,基于所述特异特征,通过预设的强化学习算法,确定所述特异特征的权重;

12、融合模块,基于所述特异特征的权重,添加门控控制,对所述特异特征进行特征提取,获得共享特征,所述共享特征为所述待处理的多模态数据的融合结果。

13、本说明书实施例提供的基于大模型的多模态数据融合方法,将待处理的多模态数据转换为各模态对应的嵌入向量;基于预设的cnn模型,提取所述各模态对应的嵌入向量的特异特征,获得特异特征;基于所述特异特征,通过预设的强化学习算法,确定所述特异特征的权重;基于所述特异特征的权重,添加门控控制,对所述特异特征进行特征提取,获得共享特征,所述共享特征为所述待处理的多模态数据的融合结果,使得不同类型数据能够被统一表示,且能够动态调整信息流动,动态调整不同模态特征的融合,实现多模态数据的快速高效融合,且能够最大化信息的利用效率以及模型的预测功能。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的多模态数据融合方法,其特征在于,所述多模态数据融合方法包括:

2.如权利要求1所述的多模态数据融合方法,其特征在于,所述待处理的多模态数据为基于同一对象的数据,所述待处理的多模态数据包括:图像数据,和/或表格数据,和/或文本数据,和/或音频数据,和/或视频数据;

3.如权利要求1所述的多模态数据融合方法,其特征在于,所述特异特征包括:

4.如权利要求1所述的多模态数据融合方法,其特征在于,所述基于预设的CNN模型,提取所述各模态对应的嵌入向量的特异特征,获得特异特征,具体包括:

5.如权利要求1所述的多模态数据融合方法,其特征在于,所述预设的CNN模型为ResNet-50,所述CNN模型的初始卷积层包括:7*7的卷积核,步长为2,批归一化层、ReLU激活层及最大池化层,所述最大池化层为3*3的池化核,步长为2;所述CNN模型包括16个残差块,所述残差块包括:1*1、3*3和1*1的卷积核,批归一化层和ReLU函数及跳跃连接,所述16个残差块组成第一残差层、第二残差层、第三残差层和第四残差层,所述第一残差层包括3个残差块,所述第二残差层包括4个残差块,所述第三残差层包括6个残差块,是第四残差层包括3个残差块;所述CNN模型还包括全局平均池化层和全连接层。

6.如权利要求1所述的多模态数据融合方法,其特征在于,所述预设的强化学习算法为策略梯度,所述策略梯度的状态为:当前输入的所述待处理的多模态数据特征、当前大模型的内部状态以及历史动作;所述策略梯度的动作为调整所述待处理的多模态数据的特异特征的权重,以及保留或者抑制某个模态的特征;所述策略梯度的奖励为分类任务的准确率以及回归任务的均方误差。

7.如权利要求6所述的多模态数据融合方法,其特征在于,所述策略梯度的奖励为累积奖励,所述策略梯度通过蒙特卡洛方法计算所述累积奖励。

8.如权利要求1所述的多模态数据融合方法,其特征在于,所述门控控制为门控循环单元,所述门控循环单元包括重置门和更新门;

9.如权利要求1所述的多模态数据融合方法,其特征在于,所述共享特征包括:概念性特征、事件性特征和属性特征;

10.一种基于大模型的多模态数据融合装置,其特征在于,所述多模态数据融合装置包括:

...

【技术特征摘要】

1.一种基于大模型的多模态数据融合方法,其特征在于,所述多模态数据融合方法包括:

2.如权利要求1所述的多模态数据融合方法,其特征在于,所述待处理的多模态数据为基于同一对象的数据,所述待处理的多模态数据包括:图像数据,和/或表格数据,和/或文本数据,和/或音频数据,和/或视频数据;

3.如权利要求1所述的多模态数据融合方法,其特征在于,所述特异特征包括:

4.如权利要求1所述的多模态数据融合方法,其特征在于,所述基于预设的cnn模型,提取所述各模态对应的嵌入向量的特异特征,获得特异特征,具体包括:

5.如权利要求1所述的多模态数据融合方法,其特征在于,所述预设的cnn模型为resnet-50,所述cnn模型的初始卷积层包括:7*7的卷积核,步长为2,批归一化层、relu激活层及最大池化层,所述最大池化层为3*3的池化核,步长为2;所述cnn模型包括16个残差块,所述残差块包括:1*1、3*3和1*1的卷积核,批归一化层和relu函数及跳跃连接,所述16个残差块组成第一残差层、第二残差层、第三残差层和第四残差层,所述第一残差层包括...

【专利技术属性】
技术研发人员:郑志明袁波吴发国陈宣宇
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1