一种生成视频描述的方法技术

技术编号:30524278 阅读:13 留言:0更新日期:2021-10-27 23:08
本发明专利技术提供一种生成视频描述的方法,包括:S1、使用开源的预训练场景图生成模型从视频中初步提取实体、关系和属性;S2、通过细粒度场景图优化器,将初步提取的实体、关系和属性转化为优化场景图,将优化场景图作为视频语义及其结构的表示;S3、将视频和优化场景图输入场景图引导文本生成模型,生成符合视频和场景图内容的文本;场景图为准确场景图时,生成准确的视频描述,场景图为多样场景图时,生成多样可控的视频描述。本发明专利技术可以在准确生成的基础上做到可控生成,在实际应用中,用户可以根据视频中感兴趣的实体或关系构造场景图,并利用该模型生成针对特定语义内容的视频描述。用该模型生成针对特定语义内容的视频描述。用该模型生成针对特定语义内容的视频描述。

【技术实现步骤摘要】
一种生成视频描述的方法


[0001]本专利技术涉及图像处理和深度学习
,尤其涉及一种生成视频描述的方法。

技术介绍

[0002]视频描述任务是一项实用且富有挑战性的跨模态任务,以往的方法大多致力于为给定视频生成准确的描述,生成的描述句式单一、内容不够丰富。
[0003]文献[1][2]采用的传统端到端(End2End)生成方法,通过时序注意力关注视频每一帧的特征,通过空间注意力关注某一帧的局部特征,从而更准确的生成文本。近年来一些新颖的可控视频描述生成方法不仅追求生成文本的准确性,还希望通过人性化的可控方法生成更多样的文本,即用户可以根据感兴趣的视频段落或实体,生成针对特定语义内容的视频描述。可控生成方法需要关注到视频中细粒度的语义信息,如不同的实体、动作、属性及其相互关系等。这些丰富的语义信息是视频与文本两个模态共有的内容,对其进行良好的建模与学习,可以辅助模型生成多样且可控的视频描述。
[0004]文献[3]提出的主题模型使用变分方法旨在为视频生成特定主题的文本,首先使用主题预测模型为每个视频生成主题隐变量,之后根据不同的主题选择特定的解码器生成文本。
[0005]文献[4]使用新颖的多任务训练方法,将文本生成任务与视频实体定位任务融合训练,使生成文本中的实体可以在视频中找到相应的区域定位。
[0006]文献[5]使用图结构表示视频中的实体及关系,通过图卷积网络进行编码,之后对视频与图两种输入进行时空注意力编码,使用预训练文本生成模型对生成的文本进行优化学习,使其可以生成更加细致且多样的文本。
[0007]文献[6][7]将词性标识POS(Part of Speech)作为中间表示,使用基于递归神经网络RNN(Recurrent Neural Network)的词性预测模型为视频生成词性序列,之后再根据词性序列生成相应的文本。
[0008]视频描述任务由于其跨模态的特点,使用传统的端到端方法[1][2]难以学习到视频内的丰富语义。通过交叉熵损失函数进行训练,此类方法往往会对数据集产生较强的依赖,容易生成数据集中出现频次较高的固定模式文本,缺乏多样性、可控性与可解释。其次,基于主题模型的方法[3]可以针对每个主题训练专属的解码器,对生成文本的主题进行有效的控制,但主题的数量比较有限,包含的语义信息不够丰富。此外,方法[4][5]通过学习视频中的实体与实体关系进行文本描述,但缺乏视频中的动作信息,未充分利用图的结构性,且未提出针对不同实体及关系的可控生成方案。此外,基于词性标识序列的方法[6][7]可以通过修改词性序列实现对生成文本的控制,但将词性标识作为视频与文本模态的中间表示,并不具有良好的可解释性,无法对跨模态语义进行有效的提取。
[0009]综上所述,现有技术不能对视频中的细粒度语义进行充分的提取与利用,无法深入学习文本语义及语义的结构性,缺乏良好的结构性语义表示,因此难以做到可控多样的视频描述生成。
[0010]参考文献:
[0011][1]Hu Y,Chen Z,Zha Z J,et al.Hierarchical global

local temporal modeling for video captioning[C]//Proceedings of the 27th ACM International Conference on Multimedia.2019:774

783.
[0012][2]Zhao B,Li X,Lu X.CAM

RNN:Co

attention model based RNN for video captioning[J].IEEE Transactions on Image Processing,2019,28(11):5552

5565.
[0013][3]Chen S,Chen J,Jin Q,et al.Video captioning with guidance of multimodal latent topics[C]//Proceedings of the 25th ACM international conference on Multimedia.2017:1838

1846.
[0014][4]Zhou L,Kalantidis Y,Chen X,et al.Grounded video description[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:6578

6587.
[0015][5]Zhang Z,Shi Y,Yuan C,et al.Object relational graph with teacher

recommended learning for video captioning[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2020:13278

13288.
[0016][6]Xiao X,Wang L,Fan B,et al.Guiding the Flowing of Semantics:Interpretable Video Captioning via POS Tag[C]//Proceedings of the 2019Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP

IJCNLP).2019:2068

2077.
[0017][7]Hou J,Wu X,ZhaoW,et al.Joint syntax representation learning and visual cue translation for video captioning[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2019:8918

8927.
[0018][8]Zellers R,Yatskar M,Thomson S,et al.Neural motifs:Scene graph parsing with global context[C]//Proceedings of the IEEE Conferenc本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成视频描述的方法,其特征在于,所述方法包括:S1、使用开源的预训练场景图生成模型从视频中初步提取实体、关系和属性;S2、通过细粒度场景图优化器,将初步提取的实体、关系和属性转化为优化场景图,将优化场景图作为视频语义及其结构的表示;S3、将视频和优化场景图输入场景图引导文本生成模型,生成符合视频和场景图内容的文本;场景图为准确场景图时,生成准确的视频描述,场景图为多样场景图时,生成多样可控的视频描述。2.根据权利要求1所述的方法,其特征在于,所述细粒度场景图优化器的训练方法包括:S11、从训练集中提取视频帧序列以及对应的视频文本描述;S12、使用所述开源的预训练模型从视频帧中提取实体O、实体区域特征F
r
、关系R和属性A;S21、使用斯坦福的场景图解析工具从视频文本描述中提取文本场景图,并将其和所述实体O、关系R和属性A进行对比,保留共同的部分,得到对齐场景图SG;S22、细粒度场景图优化器包括多个跨模态分类器,将视频帧序列与所述实体O、关系R和属性A输入所述多个跨模态分类器,将对齐场景图SG的节点作为分类器的训练目标,使用反向传播算法训练所述多个跨模态分类器,从而得到所述细粒度场景图优化器;S23、使用细粒度场景图优化器对上述实体O关系R和属性A进行分类并优化节点,将优化节点合并得到优化场景图,其中,以视频单帧为输入得到的场景图为多样场景图SG
i
,以视频帧序列作为输入提取的场景图为准确场景图SG
g
。3.根据权利要求1所述的方法,其特征在于,在所述步骤S2中,以视频单帧为输入得到的优化场景图为多样场景图SG
i
,以视频帧序列作为输入得到的优化场景图为准确场景图SG
g
。4.根据权利要求2所述的方法,其特征在于,所述步骤S22中,所述场景图优化器的训练公式为:V=BiLSTM(F)LSTM(F)LSTM(F)其中,X为所述多个跨模态分类器的输入,其中实体分类器的输入为实体的word2vec向量Embedding(O||F
r
),实体组合分类器的输入为Embedding(O1||O2),关系分类器的输入为Embedding(O1||R||O2),属性分类器的输入为Embedding(O||A);Y为分类器的标注数据,若输入X出现在对齐场景图SG中,则标注为1,否则标注为0;σ为sigmoid激活函数;表示逐元素相乘,表示逐元素相加,||表示向量串联;为所述多个跨模态分类器的参数集合。5.根据权利要求1所述的方法,其特征在于,在所述步骤S3中,所述场景图引导文本生成模型的训练方法包括:S31、使用图卷积网络GCN对准确场景图SG
g
的图节点x进行编码计算,得到图节点编码
并构造准确场景图的邻接矩阵M
...

【专利技术属性】
技术研发人员:高扬陆旭阳
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1