一种生成视频描述的方法技术

技术编号：30524278 阅读：31 留言：0更新日期：2021-10-27 23:08

本发明专利技术提供一种生成视频描述的方法，包括：S1、使用开源的预训练场景图生成模型从视频中初步提取实体、关系和属性；S2、通过细粒度场景图优化器，将初步提取的实体、关系和属性转化为优化场景图，将优化场景图作为视频语义及其结构的表示；S3、将视频和优化场景图输入场景图引导文本生成模型，生成符合视频和场景图内容的文本；场景图为准确场景图时，生成准确的视频描述，场景图为多样场景图时，生成多样可控的视频描述。本发明专利技术可以在准确生成的基础上做到可控生成，在实际应用中，用户可以根据视频中感兴趣的实体或关系构造场景图，并利用该模型生成针对特定语义内容的视频描述。用该模型生成针对特定语义内容的视频描述。用该模型生成针对特定语义内容的视频描述。

全部详细技术资料下载

【技术实现步骤摘要】
一种生成视频描述的方法

[0001]本专利技术涉及图像处理和深度学习
，尤其涉及一种生成视频描述的方法。

技术介绍

[0002]视频描述任务是一项实用且富有挑战性的跨模态任务，以往的方法大多致力于为给定视频生成准确的描述，生成的描述句式单一、内容不够丰富。
[0003]文献[1][2]采用的传统端到端(End2End)生成方法，通过时序注意力关注视频每一帧的特征，通过空间注意力关注某一帧的局部特征，从而更准确的生成文本。近年来一些新颖的可控视频描述生成方法不仅追求生成文本的准确性，还希望通过人性化的可控方法生成更多样的文本，即用户可以根据感兴趣的视频段落或实体，生成针对特定语义内容的视频描述。可控生成方法需要关注到视频中细粒度的语义信息，如不同的实体、动作、属性及其相互关系等。这些丰富的语义信息是视频与文本两个模态共有的内容，对其进行良好的建模与学习，可以辅助模型生成多样且可控的视频描述。
[0004]文献[3]提出的主题模型使用变分方法旨在为视频生成特定主题的文本，首先使用主题预测模型为每个视频生成主题隐变量，之后根据不同的主题选择特定的解码器生成文本。
[0005]文献[4]使用新颖的多任务训练方法，将文本生成任务与视频实体定位任务融合训练，使生成文本中的实体可以在视频中找到相应的区域定位。
[0006]文献[5]使用图结构表示视频中的实体及关系，通过图卷积网络进行编码，之后对视频与图两种输入进行时空注意力编码，使用预训练文本生成模型对生成的文本进行优化学习，使其可以生成更加...

【技术保护点】

【技术特征摘要】
1.一种生成视频描述的方法，其特征在于，所述方法包括：S1、使用开源的预训练场景图生成模型从视频中初步提取实体、关系和属性；S2、通过细粒度场景图优化器，将初步提取的实体、关系和属性转化为优化场景图，将优化场景图作为视频语义及其结构的表示；S3、将视频和优化场景图输入场景图引导文本生成模型，生成符合视频和场景图内容的文本；场景图为准确场景图时，生成准确的视频描述，场景图为多样场景图时，生成多样可控的视频描述。2.根据权利要求1所述的方法，其特征在于，所述细粒度场景图优化器的训练方法包括：S11、从训练集中提取视频帧序列以及对应的视频文本描述；S12、使用所述开源的预训练模型从视频帧中提取实体O、实体区域特征F
r
、关系R和属性A；S21、使用斯坦福的场景图解析工具从视频文本描述中提取文本场景图，并将其和所述实体O、关系R和属性A进行对比，保留共同的部分，得到对齐场景图SG；S22、细粒度场景图优化器包括多个跨模态分类器，将视频帧序列与所述实体O、关系R和属性A输入所述多个跨模态分类器，将对齐场景图SG的节点作为分类器的训练目标，使用反向传播算法训练所述多个跨模态分类器，从而得到所述细粒度场景图优化器；S23、使用细粒度场景图优化器对上述实体O关系R和属性A进行分类并优化节点，将优化节点合并得到优化场景图，其中，以视频单帧为输入得到的场景图为多样场景图SG
i
，以视频帧序列作为输入提取的场景图为准确场景图SG
g
。3.根据权利要求1所述的方法，其特征在于，在所述步骤S2中，以视频单帧为输入得到的优化场景图为多样场景图SG
i
，以视频帧序列作为输入得到的优化场景图为准确场景图SG
g
。4.根据权利要求2所述的方法，其特征在于，所述步骤S22中，所述场景图优化器的训练公式为：V＝BiLSTM(F)LSTM(F)LSTM(F)其中，X为所述多个跨模态分类器的输入，其中实体分类器的输入为实体的word2vec向量Embedding(O||F
r
)，实体组合分类器的输入为Embedding(O1||O2)，关系分类器的输入为Embedding(O1||R||O2)，属性分类器的输入为Embedding(O||A)；Y为分类器的标注数据，若输入X出现在对齐场景图SG中，则标注为1，否则标注为0；σ为sigmoid激活函数；表示逐元素相乘，表示逐元素相加，||表示向量串联；为所述多个跨模态分类器的参数集合。5.根据权利要求1所述的方法，其特征在于，在所述步骤S3中，所述场景图引导文本生成模型的训练方法包括：S31、使用图卷积网络GCN对准确场景图SG
g
的图节点x进行编码计算，得到图节点编码
并构造准确场景图的邻接矩阵M
...

【专利技术属性】
技术研发人员：高扬，陆旭阳，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人