System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于分层融合的多模态表征学习方法、系统及装置制造方法及图纸_技高网

基于分层融合的多模态表征学习方法、系统及装置制造方法及图纸

技术编号:41909604 阅读:8 留言:0更新日期:2024-07-05 14:13
本发明专利技术提供了一种基于分层融合的多模态表征学习方法、系统及装置,涉及机器学习技术领域,方法主要包括:步骤1、对某类学习数据中的视觉模态要素及音频模态要素,提取全局特征、动作特征和实体特征;步骤2、对该类学习数据中的文本模态要素进行分类处理,提取全局特征、动作特征和实体特征;步骤3、将步骤1及步骤2中得到的全局特征、动作特征及实体特征分别进行同类拼接,融合得到第一输出特征;步骤4、将步骤1及步骤2中得到的全局特征分别与第一输出特征进行拼接,得到各模态的第二输出特征后,输出各模态的融合特征。本方案可以将不同模态的信息进行分层融合,增强了单种模态的表征学习能力,还可以将不同层级的特征进行优势互补。

【技术实现步骤摘要】

本专利技术涉及机器学习,尤其是涉及一种基于分层融合的多模态表征学习方法、系统及装置


技术介绍

1、互联网中存在着大量文本、图像等多模态的表征信息,如何从这些海量学习数据中快速、准确地学习特定领域知识,是业内一大研究课题。

2、目前,研究此类问题时往往采用基于文本数据的表征学习方法、基于图像数据的表征学习方法及基于多模态数据的表征学习方法:

3、基于文本数据的表征学习方法,通常采用词嵌入表征模型,例如word2vec模型,该方法可以通过无监督方式从海量文本语料中学习富含语义信息的低维词向量,将单词从原空间映射至低维空间,使得语义上相似的单词在低维空间内的距离更近,并通过计算词向量间的空间距离表示词语间的语义相似度;

4、基于图像数据的表征学习方法,通常采用卷积神经网络模型(convolutionalneural network,cnn),该方法能够从输入图像中提取特征图,并通过增加网络层数提升特征提取效果,但随着网络层数的不断增加,又会出现退化问题,导致模型训练困难;

5、基于多模态数据的表征学习方法,能够从多种异质模态的数据(例如图像-文本、图像-属性、文本-属性数据等)中提取数据对象的表征:例如基于图像语义嵌入的表征方法(semantic-visual embedding,sve),其通过对象在不同模态上的相似度,构建排序损失函数,从而使两个模态(图像-文本)的表征能够得到一致的相似度,再通过相似度对两个模态进行联合;例如双向深度神经网络(bidirectional deep neural nets,bidnn),可以将图像和文本的表征进行浅层融合;

6、这些方法中,有的只考虑了从文本模态进行知识表征,而忽略了图像、音频等其他模态的信息数据,造成了大量的信息遗漏;有的只关注模态之间的一致性,而忽略了模态之间的互补信息;有的只能进行浅层融合,而不能提取不同模态中的正确信息,进而造成错误信息传播至下游任务中。


技术实现思路

1、本专利技术的目的在于提供一种基于分层融合的多模态表征学习方法、系统及装置,以解决现有技术中存在的至少一种上述技术问题。

2、第一方面,为解决上述技术问题,本专利技术提供一种基于分层融合的多模态表征学习方法,包括如下步骤:

3、步骤1、对某类学习数据中的视觉模态要素及音频模态要素,通过卷积神经网络分别进行特征表示,得到视觉特征及音频特征后,将音频特征拼接至视觉特征中,得到视觉模态数据,这样可以避免从音频特征中难以采集动作特征及实体特征的问题;通过深度残差网络提取视觉特征的全局特征、通过音频特征抽取模型提取音频特征的全局特征;通过场景图生成方式,从视觉模态数据中得到动作特征及实体特征,这样可以将图像场景图中的关系作为动作特征,将图像中的实体区域作为实体特征,从而易于进行特征提取;

4、步骤2、对该类学习数据中的文本模态要素进行分类处理:对于非结构化文本要素,通过预训练语言模型,提取得到全局特征、动作特征及实体特征;对于结构化文本要素,通过最大化结构数据图及负采样机制,学习得到连续向量空间表示作为全局特征,通过表征学习方法,学习得到动词嵌入和实体嵌入分别作为动作特征及实体特征;

5、步骤3、将步骤1及步骤2中得到的全局特征、动作特征及实体特征分别进行同类拼接,得到该类学习数据的总全局特征、总动作特征及总实体特征后输入至第一transformerencoder层(transformer是一种利用注意力机制来提高模型训练速度的模型,包括encoder层及decoder层,分别用于编码和解码),得到相应的输出特征编码;再将三种输出特征编码进行拼接,得到第一输出特征;

6、步骤4、将步骤1及步骤2中得到的全局特征分别与第一输出特征进行拼接,得到各模态的第二输出特征后,再分别输入第二transformer encoder层后,输出各模态的融合特征;

7、通过上述方法,可以利用分层融合的方式,从全局特征、动作特征及实体特征这三种层面出发,对多模态的学习数据分别在不同的、细粒度的特征空间中分别进行融合,再将三种层面的特征进行拼接后与各层面的特征分别进行融合,使不同模态中的信息实现互补,从而让各模态的表征内容更加完整。

8、在一种可行的实施方式中,所述步骤1中的视觉模态要素包括图像数据和/或视频数据:对于图像数据,通过卷积神经网络方法进行特征表示;对于视频数据,通过3d卷积神经网络方法,将卷积核扩展至时域,输出图像集合后进行特征表示。

9、在一种可行的实施方式中,所述步骤1中的音频模态要素,通过第一vggish模型,得到音频特征。

10、在一种可行的实施方式中,所述步骤1中的深度残差网络为imagenet(一种用于视觉对象识别软件研究的大型可视化数据库)中预训练的resnet50模型(一种使用了注意力机制的深度残差网络模型),该模型可以避免梯度消失问题及神经网络退化问题。

11、在一种可行的实施方式中,所述步骤1中的深度残差网络还可以通过门控机制,提升特征识别的泛化能力。

12、在一种可行的实施方式中,所述步骤1中通过audioset(一种用于声音对象识别软件研究的大型可视化数据库)中预训练的第二vggish模型,提取音频特征的全局特征。

13、在一种可行的实施方式中,所述步骤1中场景图生成方式具体包括:

14、步骤a1、通过区域生成网络(region proposal network, rpn),从视觉模态数据中生成若干实体框;

15、步骤a2、假设两两实体之间均存在关系,将实体框作为点,将关系作为边;通过resnet模型,将每个实体框内的特征识别为点特征,将每条边中头实体与尾实体之间的联合区域识别为边特征,构建初始的场景图,具体表达式可以为:

16、;

17、其中,表示实体,表示第个实体对应的实体类别,表示第个实体对应的区域位置,表示第个实体到第个实体的边;表示实体总数;

18、步骤a3、在更新点特征时,将某实体框的区域特征和非区域特征,与原先的点特征相加并进行动态池化处理,得到点更新信息,再与原先的点特征相加,得到更新后的点特征;

19、步骤a4、在更新边特征时,将某边的头实体及尾实体处的点特征,与原先的边特征相加并进行动态池化处理,得到边更新信息,再与原先的边特征相加,得到更新后的边特征;

20、这样可以通过共同抽取实体和交替更新的方式进行场景图生成。

21、在一种可行的实施方式中,所述步骤a2中还包括判断关系类别,便于对关系进行分类处理。

22、在一种可行的实施方式中,所述步骤a2中还包括判断实体之间是否存在关系后再判断关系类别,便于提升运算效率。

23、在一种可行的实施方式中,所述步骤2中,全局特征是语句的向量表征;动作特征是语句中的动词表征;实体特征是语句中的名词表征;这样可以便于通过动本文档来自技高网...

【技术保护点】

1.一种基于分层融合的多模态表征学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述步骤1中的视觉模态要素包括图像数据和/或视频数据:对于图像数据,通过卷积神经网络方法进行特征表示;对于视频数据,通过3D卷积神经网络方法,将卷积核扩展至时域,输出图像集合后进行特征表示。

3.根据权利要求1所述的方法,其特征在于,所述步骤1中的音频模态要素,通过第一VGGish模型,得到音频特征。

4.根据权利要求1所述的方法,其特征在于,所述步骤1中的深度残差网络为ImageNet中预训练的ResNet50模型。

5.根据权利要求1所述的方法,其特征在于,所述步骤1中场景图生成方式具体包括:

6.根据权利要求1所述的方法,其特征在于,所述步骤2中,对于非结构化文本要素的处理过程具体包括:

7.根据权利要求1所述的方法,其特征在于,所述步骤3具体包括:

8.根据权利要求1所述的方法,其特征在于,所述步骤4具体包括:

9.一种基于分层融合的多模态表征学习系统,其特征在于,包括依次设置且相互连接的特征抽取模块、特征融合模块及特征输出模块:

10.一种基于分层融合的多模态表征学习装置,其特征在于,包括处理器、存储器及总线,所述存储器存储由处理器读取的指令及数据,所述处理器用于调用所述存储器中的指令及数据,以执行如权利要求1-8中任一所述的方法,所述总线连接各功能部件之间用于传送信息。

...

【技术特征摘要】

1.一种基于分层融合的多模态表征学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述步骤1中的视觉模态要素包括图像数据和/或视频数据:对于图像数据,通过卷积神经网络方法进行特征表示;对于视频数据,通过3d卷积神经网络方法,将卷积核扩展至时域,输出图像集合后进行特征表示。

3.根据权利要求1所述的方法,其特征在于,所述步骤1中的音频模态要素,通过第一vggish模型,得到音频特征。

4.根据权利要求1所述的方法,其特征在于,所述步骤1中的深度残差网络为imagenet中预训练的resnet50模型。

5.根据权利要求1所述的方法,其特征在于,所述步骤1中场景图生成方式具体包括:<...

【专利技术属性】
技术研发人员:韩君妹肖刚杨健
申请(专利权)人:中国人民解放军军事科学院系统工程研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1