System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于图像增强与多级残差网络的多模态知识补全方法技术_技高网

基于图像增强与多级残差网络的多模态知识补全方法技术

技术编号:41676613 阅读:3 留言:0更新日期:2024-06-14 15:31
本发明专利技术涉及一种基于图像增强与多级残差网络多模态知识补全方法。通过数据采集程序获取词条相关文本描述信息以及图像信息,构建多模态知识图谱。通过图片过滤器过滤无关图片,然后通过图像增强方法扩充图片集;通过上述预处理后对图片、文本采用多模态双流模型分别进行数据预处理工作。实体图片通过CLIP预训练模型提取视觉特征;实体与关系的文本描述信息通过Bert预训练模型提取文本特征;然后将视觉特征以及文本特征通过融合网络对进行特征融合,得到三元组特征;最后将得到的三元组特征送入全连接层,输出最后的分类。本发明专利技术采用预训练模型对提取各模态特征,无需人工设计特征,采用端到端的方式补全。本方法能够在相关领域进行推广,泛化能力强。

【技术实现步骤摘要】

本专利技术涉及多模态知识图谱领域,尤其涉及一种基于图像增强与多级残差网络的多模态知识补全方法


技术介绍

1、组织视觉-文本事实知识的多模态知识图谱最近已成功应用于信息检索、问题解答和推荐系统等任务。由于大多数多模态知识图谱还远未完成,提出了广泛的知识图补全研究,重点是多模态实体、关系提取和链接预测。然而,不同的任务和模式需要更改模型架构,并且并非所有图像/对象都与文本输入相关,这阻碍了对不同现实场景的适用性。

2、目前,对于多模态知识图谱补全工作,一般采用众包方式人工进行补全,或者采用简单的规则方式,这种方法在实际应用中存在以下问题:

3、1、每个人对知识理解的层面有所偏差,这会导致众包人工补全带有主观因素,多模态知识补全参差不齐,难以保证质量。

4、2、众包人工补全需要耗费大量人力物力资源;

5、因此,利用深度学习对现有多模态知识图谱进行补全操作具有更高的准确率与效率更高,节省人力成本。基于计算机处理以及人工智能等技术有效结合的多模态知识补全方法的开发和研制,具有重要的研究价值和研究意义。


技术实现思路

1、本专利技术的目的在于针对现有技术存在的成本高、效率低和准确性差等缺点,提供一种基于图像增强与多级残差网络的多模态知识补全方法,具有节约人力成本,稳定性高,操作简单、准确性高的优点。为实现上述目的,本专利技术设计了一种基于图像增强的多模态知识补全方法,能够高效地、准确地对多模态知识图谱中节点进行分类以及连接预测。

2、本专利技术为实现上述目的所采用的技术方案是:

3、一种基于图像增强与多级残差网络多模态知识补全方法,所述方法包括:

4、步骤1、采集知识数据:百科词条以及词条中文本描述或图像数据;

5、步骤2、对图像数据进行筛选过滤、数据增强处理,扩充实体图像集;

6、步骤3、构建多模态知识图谱,抽取相关三元组信息,制作数据集;

7、步骤4、建立预训练特征抽取模型,输入数据集数据,抽取实体文本特征与图形特征;

8、步骤5、建立基于多级残差网络的双模态特征融合网络,将输入的实体文本特征与图形特征进行特征融合,识别三元组特征;

9、步骤6、基于稠密网络和二元交叉熵损失bce进行二元分类,判断待测的三元组信息是否存在,以实现多模态知识补全。

10、所述对图像数据进行筛选过滤为采用phash图片相似度方法检索相似图片并筛选。

11、所述图像增强方法为翻转,旋转,裁剪,变形,缩放操作。

12、所述抽取相关三元组为(头实体,关系,尾实体)信息;将获得的三元组划分为训练集、验证集、测试集并保存到相应的文件中。

13、是采用clip预训练模型对实体对应的图片数据集进行实体图像特征抽取,得到实体图像特征。

14、是采用bert预训练模型对实体对应的文本描述信息进行文本特征抽取,得到实体与关系的文本特征。

15、所述基于多级残差网络的双模态特征融合网络包括:图像特征残差网络、文本特征残差网络;首先将文本特征输入图像特征残差网络输出融合文本的图像特征,然后将融合文本的图像特征输入文本特征残差网络输出最终的融合特征。

16、所述基于多级残差网络的双模态特征融合网络为12层,前1-8层先文本特征与图像特征分别进行残差计算,后9-12层先将文本特征加入到图像特征的残差网络特征融合,最后再将加入文本特征的图像特征加入到文本特征的残差网络进行最终的文本特征与图像特征的融合。

17、一种基于图像增强与多级残差网络多模态知识补全系统,包括:

18、数据采集与存储模块,用于采集数据,对数据进行存储;

19、图像数据预处理模块,用于过滤与实体不相关图像以及通过图像增强手段扩充实体图像数据集;

20、多模态知识图谱构建与三元组生成模块,用于构建多模态知识图谱并抽取三元组,将抽取三元组划分为训练集、验证集、测试集并存储的相关文件中;

21、实体与关系文本特征与图像特征抽取模块,用于抽取实体与关系文本特征以及实体对应的图像特征;

22、特征融合模块,建立基于多级残差网络的双模态特征融合网络,将输入的实体文本特征与图形特征进行特征融合,识别三元组特征;

23、分类模块,用于稠密网络的全连接层和bce将融合后的特征进行二元分类,判断待测的三元组信息是否存在,以实现多模态知识补全。

24、一种基于图像增强与多级残差网络多模态知识补全装置,包括:存储器,处理器,所述存储器中存储有如下程序模块:数据采集与存储模块、图像数据预处理模块、多模态知识图谱构建与三元组生成模块,实体与关系文本特征与图像特征抽取模块,特征融合模块,分类模块,处理器加载程序,执行如上所述的方法步骤,判断待测的三元组信息是否存在,实现多模态知识补全。

25、本专利技术具有以下有益效果及优点:

26、1.本专利技术采用基于图像增强方法与多级残差网络双模态特征融合的多模态知识补全方法,并进行数据采集,在此基础上进行训练,有效地提高了对多模态知识补全的准确率,而采用训练好的模型进行知识补全,解决了人工补全中主观理解差异问题。

27、2.本专利技术利用图像与文本多种模态特征融合的多模态知识补全方法,把两种模态特征抽取,将抽取后的特征通过多级融合,方法独特,获取三元组特征表示。

28、3.采用残差网络resnet多级特征融合,内部通过跳跃连接有效缓解了深度神经网络中存在的梯度消失问题,本模型可以拓展到更深层,且泛化性较好。

29、4.本模型使用简单,识别准确率较高,在多模态知识图谱应用的领域,适合大面积推广应用。

本文档来自技高网...

【技术保护点】

1.一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,所述对图像数据进行筛选过滤为采用PHash图片相似度方法检索相似图片并筛选。

3.根据权利要求1所述的一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,所述图像增强方法为翻转,旋转,裁剪,变形,缩放操作。

4.根据权利要求1所述的一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,所述抽取相关三元组为(头实体,关系,尾实体)信息;将获得的三元组划分为训练集、验证集、测试集并保存到相应的文件中。

5.根据权利要求1所述的一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,是采用CLIP预训练模型对实体对应的图片数据集进行实体图像特征抽取,得到实体图像特征。

6.根据权利要求1所述的一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,是采用Bert预训练模型对实体对应的文本描述信息进行文本特征抽取,得到实体与关系的文本特征。

7.根据权利要求1所述的一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,所述基于多级残差网络的双模态特征融合网络包括:图像特征残差网络、文本特征残差网络;首先将文本特征输入图像特征残差网络输出融合文本的图像特征,然后将融合文本的图像特征输入文本特征残差网络输出最终的融合特征。

8.根据权利要求7所述的一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,所述基于多级残差网络的双模态特征融合网络为12层,前1-8层先文本特征与图像特征分别进行残差计算,后9-12层先将文本特征加入到图像特征的残差网络特征融合,最后再将加入文本特征的图像特征加入到文本特征的残差网络进行最终的文本特征与图像特征的融合。

9.一种基于图像增强与多级残差网络多模态知识补全系统,其特征在于,包括:

10.一种基于图像增强与多级残差网络多模态知识补全装置,其特征在于,包括:存储器,处理器,所述存储器中存储有如下程序模块:数据采集与存储模块、图像数据预处理模块、多模态知识图谱构建与三元组生成模块,实体与关系文本特征与图像特征抽取模块,特征融合模块,分类模块,处理器加载程序,执行如权利要求1-8任意一项所述的方法步骤,判断待测的三元组信息是否存在,实现多模态知识补全。

...

【技术特征摘要】

1.一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,所述对图像数据进行筛选过滤为采用phash图片相似度方法检索相似图片并筛选。

3.根据权利要求1所述的一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,所述图像增强方法为翻转,旋转,裁剪,变形,缩放操作。

4.根据权利要求1所述的一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,所述抽取相关三元组为(头实体,关系,尾实体)信息;将获得的三元组划分为训练集、验证集、测试集并保存到相应的文件中。

5.根据权利要求1所述的一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,是采用clip预训练模型对实体对应的图片数据集进行实体图像特征抽取,得到实体图像特征。

6.根据权利要求1所述的一种基于图像增强与多级残差网络多模态知识补全方法,其特征在于,是采用bert预训练模型对实体对应的文本描述信息进行文本特征抽取,得到实体与关系的文本特征。

7.根据权利要求1所述的一种基于图像增强与多级...

【专利技术属性】
技术研发人员:卜立平刘畅张广慧赵艺曼谭淑月
申请(专利权)人:中国科学院沈阳计算技术研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1