一种基于多模态关键信息分析的摘要生成系统技术方案

技术编号：37176789 阅读：25 留言：0更新日期：2023-04-20 22:45

本发明专利技术提出一种基于多模态关键信息分析的摘要生成系统，包括以下模块；文本编码器模块，用于获取文本的编码信息；图像编码器模块，用于获取图像不同角度上的特征信息；选择门控机制模块，用于挖掘文本和图像模态的关键信息，包括多模态选择门控网络和视觉选择门控网络；多头选择注意力模块，用于挖掘图像中的关键对象信息；多模态特征融合模块，用于获取多模态上下文表示；解码器模块，用于生成摘要语句；所述系统在生成摘要时，引入图像的对象信息，同时将文本压缩的多模态关键信息提取过程同时分担给编码端；本发明专利技术通过挖掘文本和图像的关键信息，建模对象与文本序列之间的相互依赖关系，以突出图像的关键对象信息，从而生成高质量的文本摘要。高质量的文本摘要。高质量的文本摘要。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态关键信息分析的摘要生成系统

[0001]本专利技术涉及摘要自动化生成
，尤其是一种基于多模态关键信息分析的摘要生成系统。

技术介绍

[0002]多模态摘要旨在对多种模态内容如文本、视频、图片等进行挖掘，生成一段核心概括。近年来，由于多模态数据充斥着我们的生活，让计算机能够理解多种模态信息并生成摘要，变得日益迫切。
[0003]目前自动化摘要生成研究主要分为文本摘要和多模态摘要。
[0004]文本摘要任务。文本摘要是指基于源文本信息，输出一段简短且精确的核心概括。该任务包括抽取式文本摘要和生成式文本摘要。抽取式摘要的主要思想是从源文本中抽取若干重要的短语或句子，重新组合形成摘要。常见的方法有Lead
‑
3、聚类、TextRank算法等。抽取式摘要效果稳定，实现简单，不容易完全偏离文章主旨，但输出的摘要字数不好控制，连贯性差。伴随着深度学习的研究，生成式文本摘要得到广泛关注。模型会理解原文内容，并重新组织语言对其进行概括，生成的摘要具有更高的灵活性，有一定的概率生成新的词语或短语，接近人类思维方式。目前序列到序列(Seq2Seq)模型被广泛地用于生成式摘要任务，并取得一定的成果。
[0005]多模态摘要任务。伴随着互联网的蓬勃发展，多模态信息过载问题日益严重，迫切需要基于多模态数据获取摘要的方法。该任务可以分为多模态输入单模态输出(MISO)和多模态输入多模态输出(MSMO)。前者输入是多模态信息，输出是文本的单模态信息；后者输入是多模态信息，输出也是多模态信...

【技术保护点】

【技术特征摘要】
1.一种基于多模态关键信息分析的摘要生成系统，其特征在于：包括以下模块；文本编码器模块，用于获取文本的编码信息；图像编码器模块，用于获取图像不同角度上的特征信息；选择门控机制模块，用于挖掘文本和图像模态的关键信息，包括多模态选择门控网络和视觉选择门控网络；多头选择注意力模块，用于挖掘图像中的关键对象信息；多模态特征融合模块，用于获取多模态上下文表示；解码器模块，用于生成摘要语句；所述系统在生成摘要时，引入图像的对象信息，同时将文本压缩的多模态关键信息提取过程同时分担给编码端，具体方法是：通过多模态选择门控网络、视觉选择门控网络过滤文本和图像的次要、冗余信息，挖掘关键信息，同时通过多头选择注意力模块的多头注意力机制，建模图像中对象与文本序列之间的相互依赖关系，突出图像中的关键对象信息，从而生成高质量的文本摘要。2.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统，其特征在于：所述文本编码器模块工作时，利用Bi
‑
LSTM编码文本序列，再串联前向和后向的隐藏层向量作为文本编码信息，将最后一个时间步的编码信息作为文本序列的全局特征；具体为：首先对源文本进行分词；接着，通过Word2Vec来将文本数据从文本形式转换成词嵌入向量；最后通过Bi
‑
LSTM网络对词嵌入向量进行编码，串联前向和后向的隐层向量来获得初始文本特征h
i
。其具体公式如下：。其具体公式如下：。其具体公式如下：。其具体公式如下：其中，E[x
i
]表示输入单词x
i
的词向量，是连接符号，r是Bi
‑
LSTM最后时间步的隐层向量。3.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统，其特征在于：所述图像编码器模块，引入ResNet
‑
152网络抽取图像特征信息，包括局部特征和全局特征，同时引入FasterR
‑
CNN网络抽取图像中的对象特征，然后将这三种不同角度视觉信息投影到与文本信息相同的向量空间；获取图像的不同角度的初始特征信息的方法具体为：引入ResNet
‑
152预训练网络模型，将该网络最后一个全连接层(Fully Connected Layers,FC)的输入向量作为图像全局特征，最后一个平均池化层(avgpool)的输出映射成图像局部特征；所述FasterR
‑
CNN网络包括Facebook预训练完成的FasterR
‑
CNN模型；FasterR
‑
CNN网络的算法包括两个部分：(1)候选区域网络RPN：用于产生候选框。(2)FasterR
‑
CNN检测器：基于RPN提取的候选框，检测并识别候选框中的目标；在调用FasterR
‑
CNN网络时，首先将整张图片输进CNN，生成图像的卷积特征图feature map，之后由RPN网络使用活动窗口遍历feature map，生成目标对象候选框信息，再通过
ROIPooling层将不同尺寸的特征图resize到统一大小，之后使用非极大值抑制算法NMS筛选16个置信度最大的对象候选框；最后通过线性变换，将这三种视觉特征投影到与文本特征相同的向量空间。其具体公式如下：g＝ResNet
fc
(I)公式五；(a1,a2,...,a
49
)＝ResNet
avgpool
(I)公式六；(o1,o2,...,o
16
)＝FasterRCNN
ROIPooling
(I)公式七；g＝U
r
g公式八；A＝(a1,a2,...,a
49
)＝W
r
(a1,a2,...,a
49
)公式九；O＝(o1,o2,...,o
16
)＝V
r
(o1,o2,...,o
16
)公式十；其中,a
i
(i＝1,2,...,49)表示图像局部特征，对应图像中的一个网格区域，o
i
(i＝1,2,...,16)表示图像中的一个对象候选框特征，g表示图像全局特征，W
r
、U
r
、V
r
是模型可训练的参数矩阵。4.根据权利要求1所述的一种基于多模态关键信息分析的摘要生成系统，其特征在于：所述多头选择注意力模块，将文本关键信息作为查询向量Query，Faster R
‑
CNN抽取的图像中对象信息作为关键信息向量Key和内容向量Value，捕捉图像中对象与文本序列之间的相互依赖关系，再将其与文本关键信息拼接，在抑制无用噪声的同时，进一步突出图像中的关键对象信息，具体方法为：将文本关键信息H作为查询向量Query，Faster R
‑
CNN抽取的图像对象信息O作为关键信息向量Key和内容向量Value，通过多头注意力机制在多个不同的投影空间中建立不同的投影信息，捕捉图像中对象与文本...

【专利技术属性】
技术研发人员：廖祥文，林于翔，徐攀，吴海杰，李凯强，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人