System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多模态低维特征表示空间的多媒体事件提取方法技术_技高网

一种基于多模态低维特征表示空间的多媒体事件提取方法技术

技术编号:42986348 阅读:10 留言:0更新日期:2024-10-15 13:19
本发明专利技术公开了一种基于多模态低维特征表示空间的多媒体事件提取方法,首先构建多模态低维特征表示空间,将文本与图像特征表示为统一维度,利用对比学习技术将匹配的文本与图像映射到多模态低维特征表示空间的相近区域,同时引入动量蒸馏方法;将文本描述的每个单词进行特征表示初始化,并通过多模态低维特征表示空间与匹配图像进行特征融合,之后根据融合特征提取文本事件;引入ViECap图像描述技术生成图像描述,获取图像、文本与事件类型、事件论元相似度,提取图像事件,进行事件论元框定。本发明专利技术基于多模态低维特征表示空间进行多媒体事件的提取,削弱了模型构建过程中数据集噪音对模型提取性能的影响,提高模型进行多媒体事件提取的性能。

【技术实现步骤摘要】

本专利技术属于多媒体事件提取,具体涉及一种基于多模态低维特征表示空间的多媒体事件提取方法


技术介绍

1、事件提取任务是一项重要且富有挑战的信息提取研究,事件提取任务是从非结构化的数据中识别事件的事件类型与事件论元并形成结构化数据,为信息检索、智能推荐、事件知识图谱构建等与事件相关的应用提供基础数据。事件类型一般为促使事件发生的某个动词,也被称为触发词。事件论元包括事件发生的时间、地点以及事件相关的参与者,如发起人、接收者和工具。

2、以往的事件提取研究只关注单一模态,无论是从文本数据还是从图像数据中提取事件信息,都忽略了多种模态数据所提供的事件信息补充作用。多媒体新闻事件抽取相关研究起步较晚,由于数据标注的成本过高,目前仍缺少足以支撑模型进行有监督训练的数据集,仅有用于测试的小型多媒体事件提取数据集m2e2,该数据集不足以支撑模型的训练,因此当前的研究都采用弱监督方法进行模型的训练。具体来讲,模型构建流程是通过网络收集图像标题对数据集构建一个能够同时表示文本与图像的特征表示空间,其目的是实现文本与图像两种模态的对齐,同时分别用文本数据集与图像数据集训练文本事件与图像事件以提取模型,借助特征表示空间对文本与图像进行简单融合后分别用于文本事件提取与图像事件提取。

3、虽然研究者不断探索新的事件提取方法以提高多媒体事件提取的准确性,但弱监督方法不可避免受到数据中的噪声影响。首先,从网络中收集的图像标题对数据集存在大量的噪声问题,弱相关的图像标题往往会对后续的提取造成负面影响。其次,从文本角度来看多媒体事件提取研究更加关注文章某个词是否为事件类型的触发词或者事件论元,从图像角度来看则更加关注图像中的某个视觉区域是否涉及事件类型或者事件论元,简单的向量融合方法往往将一段文本与一张图像作为一个向量进行融合,这种方法不但无法提高模型的性能,反而会因为引入了另一模态的噪音从而影响事件信息的提取。


技术实现思路

1、针对上述
技术介绍
中存在的问题,本专利技术提供了一种基于多模态低维特征表示空间的多媒体事件提取方法,旨在多媒体事件提取时削弱模型构建过程中数据集噪音对模型提取性能的影响,提高模型进行多媒体事件提取的性能。

2、为了实现上述目的,本专利技术采用如下技术方案:

3、一种基于多模态低维特征表示空间的多媒体事件提取方法,包括以下步骤:

4、s1、构建多模态低维特征表示空间

5、利用voa图像标题对数据集构建多模态低维特征表示空间;在训练多模态低维特征表示空间模型时,对于给定的图像标题对,分别针对图像集合与文本集合构建基于transformer的编码器,同时构建两个用于存储最新的图像标题对的队列,根据图像与文本的编码器创建动量编码器,利用动量蒸馏方法从动量蒸馏模型所产生的伪目标中学习图像与文本的匹配,利用动量编码器计算图像与文本的相似性;从而将匹配的文本与图像映射到多模态低维特征表示空间的相近区域;通过多模态低维特征表示空间对测试数据的文本与图像映射为统一维度的多模态低维特征,实现不同模态特征的融合以及便于计算文本与图像间的相似度;

6、在利用对比学习提高模型匹配文本与图像能力的同时,引入动量蒸馏方法减少图像标题对数据集中噪音对模型的影响;多模态低维特征表示空间可以将文本与图像特征表示为统一维度,以此实现文本与图像的特征融合;

7、s2、文本事件提取

8、将ace2005文本事件数据集作为文本事件提取模型的训练数据;从voa图像标题对数据集中筛选出与ace2005文本事件数据集中每个文本描述最为匹配的五个图像作为文本事件的额外图像信息;将文本描述的每个单词通过debertav3进行特征表示初始化,获得每个单词的向量表示;将所述额外图像信息涉及的图像通过多模态低维特征表示空间编码成图像低维向量表示,将图像低维向量表示按照相似性权重进行加权融合获得图像信息集成的图像表示,之后将每个单词的向量表示与图像信息集成的图像表示以及句子的低维向量表示进行拼接,获得融入图像信息的单词表示,完成文本事件提取;

9、s3、图像事件提取

10、通过viecap图像描述技术生成图像相关的文本描述,即图像描述,将图像事件、相关文本事件以及生成的图像描述经多模态低维特征表示空间编码后,利用余弦相似度计算图像事件、相关文本事件以及图像描述与预先定义好的视觉事件类型、视觉事件论元的相似度得分,通过加权融合获得相似度得分最高的视觉事件类型与视觉事件论元;获取事件论元后针对图像进行前向传递、基于梯度的注意力整合以及相关性图计算,从而对图像中相关的事件论元进行图像框定。

11、进一步的,步骤s1中,想要获得能够对测试数据的文本和图像统一维度表示的多模态低维特征表示空间,首先需要使用clip vit-b/32版本分别对多模态低维特征表示空间模型和动量蒸馏模型进行参数初始化,之后借助voa图像标题对数据集的文本与图像对多模态低维特征表示空间进行预训练,同时利用动量蒸馏模型生成的伪目标对基础模型进行监督;最后使用imsitu数据集对预训练后的数据集进行微调,同时利用动量蒸馏模型对微调模型进行监督。

12、进一步的,在步骤s2中,所述单词的向量表示获得方法为:将多媒体事件的句子合集中的每一个句子表示通过debertav3的编码器获取每个单词的类型嵌入表示、子词嵌入表示以及绝对位置嵌入表示,类型嵌入表示与子词嵌入表示融合作为单词的内容表示向量,之后与绝对位置嵌入表示经注意力解耦机制计算单词间注意力与相对位置信息,获得每个单词的向量表示。

13、进一步的,在步骤s2中,所述相似性权重通过余弦相似度计算,公式如下:

14、

15、式中, i j表示图像合集 i中的第 j个图像 i j经多模态低维特征表示空间编码后的低维向量表示, s i是句子合集 s中的第 i个句子 i i经多模态低维特征表示空间编码后的低维向量表示,α i,j是图像 i j与句子 i i的相似性权重;则所述图像信息集成的图像表示 himage的公式如下:

16、。

17、进一步的,在步骤s3中,所述viecap图像描述技术生成图像描述的方法如下:

18、将图像合集中的每一个图像经过viecap模型的图像编码器转化为视觉嵌入,并将视觉嵌入利用转化器生成软提示;同时viecap模型使本文档来自技高网...

【技术保护点】

1.一种基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,步骤S1中,为获得能够对测试数据的文本和图像统一维度表示的多模态低维特征表示空间,首先需要使用CLIP ViT-B/32版本分别对多模态低维特征表示空间模型和动量蒸馏模型进行参数初始化,之后借助VOA图像标题对数据集的文本与图像对多模态低维特征表示空间进行预训练,同时利用动量蒸馏模型生成的伪目标对基础模型进行监督;最后使用imSitu数据集对预训练后的数据集进行微调,同时利用动量蒸馏模型对微调模型进行监督。

3.如权利要求1所述的基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,步骤S2中,所述单词的向量表示获得方法为:将多媒体事件的句子合集中的每一个句子表示通过DeBERTaV3的编码器获取每个单词的类型嵌入表示、子词嵌入表示以及绝对位置嵌入表示,类型嵌入表示与子词嵌入表示融合作为单词的内容表示向量,之后与绝对位置嵌入表示经注意力解耦机制计算单词间注意力与相对位置信息,获得每个单词的向量表示。

4.如权利要求1所述的基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,步骤S2中,所述相似性权重通过余弦相似度计算,公式如下:

5.如权利要求1所述的基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,步骤S3中,所述ViECap图像描述技术生成图像描述的方法如下:将图像合集中的每一个图像经过ViECap模型的图像编码器转化为视觉嵌入,并将视觉嵌入利用转化器生成软提示;同时ViECap模型使用基于CLIP的实体分类器进行零样本图像实体检索,通过计算图像与实体的相关性选取一定的实体构建实体感知硬提示;最后将所述软提示和硬提示按顺序连接并输入到语言模型中进行图像描述的预测,获得多媒体图像合集的图像描述。

6.如权利要求1所述的基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,步骤S3中,所述视觉事件类型的识别方法如下:将imSitu数据集中的活动动词集合与视觉事件类型制作成映射表,通过公共空间计算所有活动动词与图像的余弦相似度,即可获得与图像最相似的活动动词;再分别计算活动动词与文本事件以及与图像描述的余弦相似度;最后将三个余弦相似度得分赋予不同的权重进行加权融合,获得同时匹配视觉图像、文本事件以及图像描述文本的活动动词,根据活动动词集合与视觉事件类型的映射表即可获得该活动动词的视觉事件类型。

7.如权利要求1所述的基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,步骤S3中,所述视觉事件论元的识别方法如下:将imSitu数据集中的语义角色集合与视觉事件论元制作成映射表,之后通过公共空间计算所有语义角色与视觉图像、文本事件以及图像描述的余弦相似度,最后将三个余弦相似度得分赋予不同的权重进行加权融合,获得同时匹配视觉图像、文本事件以及图像描述文本的语义角色,根据语义角色集合与视觉事件论元的映射表即可获得该语义角色的视觉事件论元。

...

【技术特征摘要】

1.一种基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,步骤s1中,为获得能够对测试数据的文本和图像统一维度表示的多模态低维特征表示空间,首先需要使用clip vit-b/32版本分别对多模态低维特征表示空间模型和动量蒸馏模型进行参数初始化,之后借助voa图像标题对数据集的文本与图像对多模态低维特征表示空间进行预训练,同时利用动量蒸馏模型生成的伪目标对基础模型进行监督;最后使用imsitu数据集对预训练后的数据集进行微调,同时利用动量蒸馏模型对微调模型进行监督。

3.如权利要求1所述的基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,步骤s2中,所述单词的向量表示获得方法为:将多媒体事件的句子合集中的每一个句子表示通过debertav3的编码器获取每个单词的类型嵌入表示、子词嵌入表示以及绝对位置嵌入表示,类型嵌入表示与子词嵌入表示融合作为单词的内容表示向量,之后与绝对位置嵌入表示经注意力解耦机制计算单词间注意力与相对位置信息,获得每个单词的向量表示。

4.如权利要求1所述的基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,步骤s2中,所述相似性权重通过余弦相似度计算,公式如下:

5.如权利要求1所述的基于多模态低维特征表示空间的多媒体事件提取方法,其特征在于,步骤s3中,所述viecap图像描述技术生成图像描述的方法如下:将图...

【专利技术属性】
技术研发人员:江涛崔伊明孙斌崔家豪徐梦瑶
申请(专利权)人:西北民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1