当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于多模态关键信息分析的摘要生成系统技术方案

技术编号:37176789 阅读:25 留言:0更新日期:2023-04-20 22:45
本发明专利技术提出一种基于多模态关键信息分析的摘要生成系统,包括以下模块;文本编码器模块,用于获取文本的编码信息;图像编码器模块,用于获取图像不同角度上的特征信息;选择门控机制模块,用于挖掘文本和图像模态的关键信息,包括多模态选择门控网络和视觉选择门控网络;多头选择注意力模块,用于挖掘图像中的关键对象信息;多模态特征融合模块,用于获取多模态上下文表示;解码器模块,用于生成摘要语句;所述系统在生成摘要时,引入图像的对象信息,同时将文本压缩的多模态关键信息提取过程同时分担给编码端;本发明专利技术通过挖掘文本和图像的关键信息,建模对象与文本序列之间的相互依赖关系,以突出图像的关键对象信息,从而生成高质量的文本摘要。高质量的文本摘要。高质量的文本摘要。

【技术实现步骤摘要】
一种基于多模态关键信息分析的摘要生成系统


[0001]本专利技术涉及摘要自动化生成
,尤其是一种基于多模态关键信息分析的摘要生成系统。

技术介绍

[0002]多模态摘要旨在对多种模态内容如文本、视频、图片等进行挖掘,生成一段核心概括。近年来,由于多模态数据充斥着我们的生活,让计算机能够理解多种模态信息并生成摘要,变得日益迫切。
[0003]目前自动化摘要生成研究主要分为文本摘要和多模态摘要。
[0004]文本摘要任务。文本摘要是指基于源文本信息,输出一段简短且精确的核心概括。该任务包括抽取式文本摘要和生成式文本摘要。抽取式摘要的主要思想是从源文本中抽取若干重要的短语或句子,重新组合形成摘要。常见的方法有Lead

3、聚类、TextRank算法等。抽取式摘要效果稳定,实现简单,不容易完全偏离文章主旨,但输出的摘要字数不好控制,连贯性差。伴随着深度学习的研究,生成式文本摘要得到广泛关注。模型会理解原文内容,并重新组织语言对其进行概括,生成的摘要具有更高的灵活性,有一定的概率生成新的词语或短语,接近人类思维方式。目前序列到序列(Seq2Seq)模型被广泛地用于生成式摘要任务,并取得一定的成果。
[0005]多模态摘要任务。伴随着互联网的蓬勃发展,多模态信息过载问题日益严重,迫切需要基于多模态数据获取摘要的方法。该任务可以分为多模态输入单模态输出(MISO)和多模态输入多模态输出(MSMO)。前者输入是多模态信息,输出是文本的单模态信息;后者输入是多模态信息,输出也是多模态信息。研究人员提出一种多模态融合块(Multimodal fusionblock,MFB),来建模文本和图像之间的补充和验证关系,并通过位置感知机制获取图像位置信息。然而,非文本信息(如图像)通常融入文本解码阶段,解码器同时承担了文本生成和文本压缩任务。目前模型方法没有充分挖掘多模态关键信息,输入流中存在比较多的次要、冗余信息,在一定程度上增加了解码器的压力,影响模型的性能。

技术实现思路

[0006]本专利技术提出一种基于多模态关键信息分析的摘要生成系统,能够通过多模态选择门控网络和视觉选择门控网络挖掘文本和图像的关键信息,并引入多头注意力机制来建模图像中对象与文本序列之间的相互依赖关系,进一步突出图像的关键对象信息,从而生成较高质量的文本摘要。
[0007]本专利技术采用以下技术方案。
[0008]一种基于多模态关键信息分析的摘要生成系统,包括以下模块;
[0009]文本编码器模块,用于获取文本的编码信息;
[0010]图像编码器模块,用于获取图像不同角度上的特征信息;
[0011]选择门控机制模块,用于挖掘文本和图像模态的关键信息,包括多模态选择门控
网络和视觉选择门控网络;
[0012]多头选择注意力模块,用于挖掘图像中的关键对象信息;
[0013]多模态特征融合模块,用于获取多模态上下文表示;
[0014]解码器模块,用于生成摘要语句;
[0015]所述系统在生成摘要时,引入图像的对象信息,同时将文本压缩的多模态关键信息提取过程同时分担给编码端,具体方法是:通过多模态选择门控网络、视觉选择门控网络过滤文本和图像的次要、冗余信息,挖掘关键信息,同时通过多头选择注意力模块的多头注意力机制,建模图像中对象与文本序列之间的相互依赖关系,突出图像中的关键对象信息,从而生成高质量的文本摘要。
[0016]所述文本编码器模块工作时,利用Bi

LSTM编码文本序列,再串联前向和后向的隐藏层向量作为文本编码信息,将最后一个时间步的编码信息作为文本序列的全局特征;具体为:
[0017]首先对源文本进行分词;接着,通过Word2Vec来将文本数据从文本形式转换成词嵌入向量;最后通过Bi

LSTM网络对词嵌入向量进行编码,串联前向和后向的隐层向量来获得初始文本特征h
i
。其具体公式如下:
[0018][0019][0020][0021][0022]其中,E[x
i
]表示输入单词x
i
的词向量,是连接符号,r是Bi

LSTM最后时间步的隐层向量。
[0023]所述图像编码器模块,引入ResNet

152网络抽取图像特征信息,包括局部特征和全局特征,同时引入Faster R

CNN网络抽取图像中的对象特征,然后将这三种不同角度视觉信息投影到与文本信息相同的向量空间;获取图像的不同角度的初始特征信息的方法具体为:
[0024]引入ResNet

152预训练网络模型,将该网络最后一个全连接层(Fully Connected Layers,FC)的输入向量作为图像全局特征,最后一个平均池化层(avgpool)的输出映射成图像局部特征;
[0025]所述Faster R

CNN网络包括Facebook预训练完成的Faster R

CNN模型;
[0026]Faster R

CNN网络的算法包括两个部分:(1)候选区域网络RPN:用于产生候选框。(2)Faster R

CNN检测器:基于RPN提取的候选框,检测并识别候选框中的目标;
[0027]在调用Faster R

CNN网络时,首先将整张图片输进CNN,生成图像的卷积特征图feature map,之后由RPN网络使用活动窗口遍历feature map,生成目标对象候选框信息,再通过ROIPooling层将不同尺寸的特征图resize到统一大小,之后使用非极大值抑制算法NMS筛选16个置信度最大的对象候选框;
[0028]最后通过线性变换,将这三种视觉特征投影到与文本特征相同的向量空间。其具体公式如下:
[0029]g=ResNet
fc
(I)公式五;
[0030](a1,a2,...,a
49
)=ResNet
avgpool
(I)公式六;
[0031](o1,o2,...,o
16
)=FasterRCNN
ROIPooling
(I)公式七;
[0032]g=U
r
g公式八;
[0033]A=(a1,a2,...,a
49
)=W
r
(a1,a2,...,a
49
)公式九;
[0034]O=(o1,o2,...,o
16
)=V
r
(o1,o2,...,o
16
)公式十;
[0035]其中,a
i
(i=1,2,...,49)表示图像局部特征,对应图像中的一个网格区域,o
i
(i=1,2,...本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态关键信息分析的摘要生成系统,其特征在于:包括以下模块;文本编码器模块,用于获取文本的编码信息;图像编码器模块,用于获取图像不同角度上的特征信息;选择门控机制模块,用于挖掘文本和图像模态的关键信息,包括多模态选择门控网络和视觉选择门控网络;多头选择注意力模块,用于挖掘图像中的关键对象信息;多模态特征融合模块,用于获取多模态上下文表示;解码器模块,用于生成摘要语句;所述系统在生成摘要时,引入图像的对象信息,同时将文本压缩的多模态关键信息提取过程同时分担给编码端,具体方法是:通过多模态选择门控网络、视觉选择门控网络过滤文本和图像的次要、冗余信息,挖掘关键信息,同时通过多头选择注意力模块的多头注意力机制,建模图像中对象与文本序列之间的相互依赖关系,突出图像中的关键对象信息,从而生成高质量的文本摘要。2.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统,其特征在于:所述文本编码器模块工作时,利用Bi

LSTM编码文本序列,再串联前向和后向的隐藏层向量作为文本编码信息,将最后一个时间步的编码信息作为文本序列的全局特征;具体为:首先对源文本进行分词;接着,通过Word2Vec来将文本数据从文本形式转换成词嵌入向量;最后通过Bi

LSTM网络对词嵌入向量进行编码,串联前向和后向的隐层向量来获得初始文本特征h
i
。其具体公式如下:。其具体公式如下:。其具体公式如下:。其具体公式如下:其中,E[x
i
]表示输入单词x
i
的词向量,是连接符号,r是Bi

LSTM最后时间步的隐层向量。3.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统,其特征在于:所述图像编码器模块,引入ResNet

152网络抽取图像特征信息,包括局部特征和全局特征,同时引入FasterR

CNN网络抽取图像中的对象特征,然后将这三种不同角度视觉信息投影到与文本信息相同的向量空间;获取图像的不同角度的初始特征信息的方法具体为:引入ResNet

152预训练网络模型,将该网络最后一个全连接层(Fully Connected Layers,FC)的输入向量作为图像全局特征,最后一个平均池化层(avgpool)的输出映射成图像局部特征;所述FasterR

CNN网络包括Facebook预训练完成的FasterR

CNN模型;FasterR

CNN网络的算法包括两个部分:(1)候选区域网络RPN:用于产生候选框。(2)FasterR

CNN检测器:基于RPN提取的候选框,检测并识别候选框中的目标;在调用FasterR

CNN网络时,首先将整张图片输进CNN,生成图像的卷积特征图feature map,之后由RPN网络使用活动窗口遍历feature map,生成目标对象候选框信息,再通过
ROIPooling层将不同尺寸的特征图resize到统一大小,之后使用非极大值抑制算法NMS筛选16个置信度最大的对象候选框;最后通过线性变换,将这三种视觉特征投影到与文本特征相同的向量空间。其具体公式如下:g=ResNet
fc
(I)公式五;(a1,a2,...,a
49
)=ResNet
avgpool
(I)公式六;(o1,o2,...,o
16
)=FasterRCNN
ROIPooling
(I)公式七;g=U
r
g公式八;A=(a1,a2,...,a
49
)=W
r
(a1,a2,...,a
49
)公式九;O=(o1,o2,...,o
16
)=V
r
(o1,o2,...,o
16
)公式十;其中,a
i
(i=1,2,...,49)表示图像局部特征,对应图像中的一个网格区域,o
i
(i=1,2,...,16)表示图像中的一个对象候选框特征,g表示图像全局特征,W
r
、U
r
、V
r
是模型可训练的参数矩阵。4.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统,其特征在于:所述多头选择注意力模块,将文本关键信息作为查询向量Query,Faster R

CNN抽取的图像中对象信息作为关键信息向量Key和内容向量Value,捕捉图像中对象与文本序列之间的相互依赖关系,再将其与文本关键信息拼接,在抑制无用噪声的同时,进一步突出图像中的关键对象信息,具体方法为:将文本关键信息H作为查询向量Query,Faster R

CNN抽取的图像对象信息O作为关键信息向量Key和内容向量Value,通过多头注意力机制在多个不同的投影空间中建立不同的投影信息,捕捉图像中对象与文本...

【专利技术属性】
技术研发人员:廖祥文林于翔徐攀吴海杰李凯强
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1