The invention provides a multi-modal automatic text summarization method based on image matching, text includes: the importance of scoring for multimodal information in text information in the sentence; for multimodal information and video information in cutting through the lens boundary, video key frame extraction; on multimodal information in image information and / or video information through text image matching model to find the corresponding text semantic image and / or key frames; and according to the importance scores, pictures and key frames of each sentence weights, and text semantic relevance, and to punish redundant entries, to generate text summarization. Through the training text image matching model, the image or video information using text image matching model to find the corresponding semantic text, at the same time with the text, images and video information for text summarization, the automatic text summarization output compared with the traditional pure text automatic text summarization result is more comprehensive and accurate.
【技术实现步骤摘要】
基于文本-图像匹配的多模态自动文摘方法
本专利技术属于自然语言处理和图像处理
,涉及一种基于文本-图像匹配的多模态自动文摘方法。
技术介绍
随着网络时代到来,多媒体信息包括文本、图像或视频等随处可见,中、英文双语在媒体信息中也应用广泛,有效地分析中、英文多媒体信息,获取其中的重要信息,并以文本的形式呈现给用户,可以帮助用户快速、便捷地理解多媒体信息的主体信息。处理多媒体信息的过程中涉及从多媒体信息中获取多模态数据,然后生成文本摘要。目前对于文本、图像和视频等多媒体信息输入来说,尽管输入的文本、图像和视频与某一信息事件相关,但是图像或视频不能找到与其语义完全对应的文本,就导致在自动文摘过程中图像或视频的重要信息被缺漏或者出现偏差,导致自动文摘无法满足信息的全面性与准确性,因此,如何寻找一种多模态自动文摘的方法,将图像或视频信息与文本信息进行匹配,进而为图像或视频信息找到语义对应的文本,然后处理文本信息输出文本摘要是一个亟待解决的技术问题。
技术实现思路
(一)要解决的技术问题本专利技术提供了一种基于文本-图像匹配的多模态自动文摘方法,以至少部分解决以上所提出的技术问题。(二)技术方案根据本专利技术的一个方面,提供了一种基于文本-图像匹配的多模态自动文摘方法,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本-图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生 ...
【技术保护点】
一种基于文本‑图像匹配的多模态自动文摘方法,其特征在于,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本‑图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。
【技术特征摘要】
1.一种基于文本-图像匹配的多模态自动文摘方法,其特征在于,包括:对多模态信息中的文本信息中的句子进行重要性打分;对多模态信息中的视频信息通过镜头边界切割,提取视频的关键帧;对多模态信息中的图像信息和/或视频信息通过文本-图像匹配模型为图像和/或关键帧找到语义对应的文本;以及根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度,以及惩罚冗余项,生成文本摘要。2.根据权利要求1所述的多模态自动文摘方法,其特征在于,所述文本-图像匹配模型的训练过程包括:计算数据集中的句子的词向量的平均值,得到句子的句向量;对数据集中的图像进行编码,对其进行矢量量化,得到图像向量;通过两个多层感知器分别对句向量和图像向量进行编码,生成文本-图像联合空间的特征表达;以及通过最大间隔优化方法优化两个多层感知器的模型参数,优化目标使其满足:对于匹配的句子和图像,匹配得分尽量高,对于不匹配的句子和图像,匹配得分尽量低,完成文本-图像匹配模型的训练。3.根据权利要求2所述的多模态自动文摘方法,其特征在于,所述数据集选用Flickr30K数据集;和/或所述对数据集中的图像进行编码从而得到图像矢量利用VGG模型实现,通过提取VGG模型的第十九个隐层的特征向量作为图像向量。4.根据权利要求2所述的多模态自动文摘方法,其特征在于,所述通过文本-图像匹配模型为关键帧找到语义对应的文本包括:通过语义角色标注,获取文本中的句子的谓词论元结构,并提取句子的论元ARG0、ARG1和谓词,将动作的施事ARG0、谓词与动作的影响ARG1连接为一个句子,作为所述句子的简化句子;计算简化句子的词向量的平均值,得到简化句子的句向量;对视频的关键帧进行编码,对其进行矢量量化,得到关键帧向量;通过文本-图像匹配模型的两个多层感知器分别对简化句子的句向量和关键帧向量进行编码,生成文本-图像联合空间的特征表达;计算文本-图像联合空间的简化句子的特征表达和关键帧的特征表达之间的余弦相似度,作为简化句子与关键帧的匹配度;以及利用训练好的文本-图像匹配模型,计算数据集中文本-图像匹配对的平均匹配度得分,作为文本-图像匹配度阈值,将上述得到的简化句子与关键帧的匹配度和文本-图像匹配度阈值进行比较,当简化句子与关键帧的匹配度大于文本-图像匹配度阈值时,则将简化句子的来源句作为关键帧语义对应的文本,视为关键帧和简化句子的来源句语义相关。5.根据权利要求4所述的多模态自动文摘方法,其特征在于,所述对视频的关键帧进行编码从而得到关键帧向量利用VGG模型实现,通过提取VGG模型的第十九个隐层的特征向量作为关键帧向量。6.根据权利要求2所述的多模态自动文摘方法,其特征在于,所述文本-图像联合空间的特征表达如下式所示:x=W2·f(W1·vs+bs)(2)y=V2·f(V1·vi+bi)(3)其中,x和y分别为句子和图像在文本-图像联合空间的特征表达;W1、W2、V1和V2表示权重矩阵,由随机初始化获得;f(·)表示激活函数,为sigmoid函数;vs表示句向量;vi表示图像向量;bs和bi表示偏置项。7.根据权利要求2所述的多模态自动文摘方法,其特征在于,所述优化目标的目标函数表达式如下式所示:∑i,j,kmax(0,1-s(xi,yi)+s(xi,yk))+λ∑i,j,kmax(0,1-s(xi,yi)+s(xk,yi))(4)其中,s(xi,yi)表示句子-图像匹配正例(xi,yi)的余弦相似度;(xi,yk)和(xk,yi)表示负采样出来的句子-图像匹配负例,即不匹配的句子和图像。...
【专利技术属性】
技术研发人员:张家俊,李浩然,周玉,宗成庆,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。