一种基于运动信息协助的视频摘要生成方法技术

技术编号:37818867 阅读:18 留言:0更新日期:2023-06-09 09:51
本发明专利技术公开了一种基于运动信息协助的视频摘要生成方法,用于自动地从视频中挑选最重要的片段,从而提升视频浏览效率。所提方法首先根据输入视频获取外观帧序列和运动帧序列,并采用神经网络模型分别提取外观特征和运动特征,然后根据镜头分割算法检测视觉变化点,得到子镜头集合,接着利用构建的视频摘要生成模型预测镜头级重要性得分,最后根据预测得分生成动态视频摘要。所提方法在使用静态的外观信息的基础上进一步引入了运动信息,通过实现有效的单模态特征编码以及跨模态特征交互提升了对视频内容的理解能力。在SumMe和TVSum两个基准数据集上的实验结果充分证明了所提方法的有效性和先进性。法的有效性和先进性。法的有效性和先进性。

【技术实现步骤摘要】
一种基于运动信息协助的视频摘要生成方法


[0001]本专利技术涉及一种基于运动信息协助的视频摘要生成方法,属于计算机视觉


技术介绍

[0002]视频摘要是计算机视觉领域中一个极具研究价值的课题,其目的是从视频序列中自动挑选出最重要的视频片段,从而提升视频浏览效率。随着越来越多的研究成果被提出,视频摘要在视频浏览和视频检索中发挥着越来越重要的作用。
[0003]目前,视频摘要方法可分为帧级方法和镜头级方法两种类型。帧级方法通常是在提取每帧的外观特征后,利用时间特征聚合方法(例如递归神经网络)来建模视频中的上下文信息。例如,Zhou等人通过将帧级外观特征输入到长短期记忆网络中来聚合全局上下文依赖。Liu等人利用3D卷积网络直接编码视频中的时空信息。尽管现有方法取得了显著的进步,但是这些帧级方法忽略了相邻帧之间的视觉相似性和连续性。
[0004]镜头级方法首先将整个视频序列分割为若干不重叠的子镜头,然后为它们标记镜头级重要性分数。例如,Zhao等人采用了一个图模型来捕捉镜头间的上下文依赖关系。Zhang等人提出了一个联合强化学习和对比学习的视频摘要方法。但是,这些方法仅考虑了视频中静态的外观特征而忽略了运动特征,导致模型不能全面、准确地理解视频内容。因此,亟待一种有效的视频摘要生成方法来解决上述问题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于运动信息协助的视频摘要生成方法,旨在解决现有技术仅考虑了视频中静态的外观特征而忽略了运动特征,导致模型不能全面、准确地理解视频内容的问题。
[0006]本专利技术提供了一种基于运动信息协助的视频摘要生成方法,所述方法包括下述步骤:S1,读取输入视频,获取用于反映静态视觉内容的外观帧序列和反映动态运动状态变化的运动帧序列;S2,利用神经网络模型对外观帧序列和运动帧序列进行特征提取,获得帧级外观特征和帧级运动特征;S3,利用镜头分割算法检测所述帧级外观特征中的视觉变化点,获取子镜头集合;S4,构建视频摘要生成模型预测镜头级重要性得分,所述模型包括:序列编码器:所述序列编码器分别将所述帧级外观特征或所述帧级运动特征作为输入,用来将每个镜头内的特征聚合为镜头级特征向量以表征语义信息,最后输出镜头级外观特征和镜头级运动特征;双向模态编码器:所述双向模态编码器将所述镜头级外观特征和所述镜头级运动特征作为输入,首先通过单模态特征编码挖掘镜头间的上下文依赖关系,再通过跨模态特
征交互在外观流和运动流中进行消息传递,得到融合外观信息和运动信息的跨模态上下文特征;视频语义引导器:所述视频语义引导器将所述帧级外观特征和所述跨模态上下文特征作为输入计算语义一致性损失,用来缓解运动流中的噪声影响,提升视频摘要性能;分数预测器:所述分数预测器以所述跨模态上下文特征作为输入,用来将高维特征映射为重要性分数向量以表征每个镜头的重要性程度;S5,构建目标函数,以无监督或者监督学习的方式训练所述视频摘要生成模型;S6,使用 S5训练得到的视频摘要生成模型对新视频进行预测,根据得到的重要性得分向量生成动态视频摘要。
[0007]优选地,所述序列编码器在外观流和运动流中共享权重。
[0008]优选地,构建所述序列编码器,包括:利用正向门控循环单元和反向门控循环单元分别聚合每个镜头内短距离特征序列的正向和反向时序特征;将所述正向门控循环单元和反向门控循环单元最终单元输出的隐藏层特征向量沿维度方向进行拼接,输出镜头级特征向量。
[0009]优选地,构建所述双向模态编码器,包括:首先在外观流和运动流中进行单模态特征编码,通过注意力层动态地考虑镜头间的语义相关性挖掘镜头级特征间的上下文依赖关系,输出外观流编码特征和运动流编码特征;将所述外观流编码特征作为查询特征,所述运动流编码特征作为键、值特征,使外观特征关注运动特征,通过注意力层得到外观

运动跨模态上下文特征;将所述运动流编码特征作为查询特征,所述外观流编码特征作为键、值特征,使运动特征关注外观特征,通过注意力层得到运动

外观跨模态上下文特征;将得到的外观

运动以及运动

外观跨模态上下文特征送入前馈神经网络学习深层特征,再经过相加得到所述跨模态上下文特征。
[0010]优选地,所述双向模态编码器在单模态特征编码、跨模态特征交互以及深层特征传递阶段都包含残差连接,可以有效地避免网络退化的问题。
[0011]优选地,构建所述视频语义引导器,包括:将所述跨模态上下文特征沿时间维度进行全局平均池化得到跨模态上下文特征向量;利用注意力层聚合所述帧级外观特征中的长距离帧间上下文信息,再沿时间维度进行全局平均池化并经过归一化得到外观特征向量;计算所述跨模态上下文特征向量和所述外观特征向量间的欧几里得距离作为所述语义一致性损失,公式表述为:,其中,表示L2范式。
[0012]优选地,所述目标函数包括奖励函数项、正则项和语义一致性损失项,奖
励函数项可以由下式计算得到:,其中,表示候选摘要,表示余弦距离,为镜头数量,表示第o个镜头级外观特征;正则项计算如下:,其中,表示第i个镜头的预测得分。
[0013]优选地,当以监督学习的学习范式进行网络训练时,所述目标函数还应当包含均方误差损失用于提升预测分数与标注分数之间的一致性,计算公式如下:,其中,表示第i个镜头的标注得分。
[0014]与现有技术相比,本专利技术至少具备以下有益效果:1、本专利技术提供了一种基于运动信息协助的视频摘要生成方法,通过深入探索视频中静态的外观信息和动态的运动信息间的交互关系提升了模型对视频内容的理解能力;2、本专利技术提出了一个双向模态编码器,通过双向建模结构在模态内和模态间进行特征聚合,可以获取更加全面的跨模态上下文信息;3、本专利技术设计了一个视频上下文引导器用来提升跨模态上下文特征和输入视频间的语义一致性,缓解运动流中噪声影响,进而提升视频摘要性能;4、本专利技术在两个基准数据集SumMe和TVSum上进行了实验验证。实验结果表明,与最先进的方法相比,本专利技术中所提方法的摘要性能有了显著提高。
附图说明
[0015]通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术提供的基于运动信息协助的视频摘要生成方法的实现流程图;图2为本专利技术实施例提供的基于运动信息协助的视频摘要生成方法的网络框架图;图3为本专利技术实施例提供的双向模态编码器的结构示意图;图4为本专利技术实施例提供的视频语义引导器的结构示意图;图5为本专利技术提供的一个视频摘要结果示例。
实施方式
[0016]下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术
人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变形和改进。这些都属于本专利技术的保护范围。
[0017]如图1所示,为本专利技术提供的基于运动信息协助的视频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于运动信息协助的视频摘要生成方法,其特征在于,包括以下步骤:S1,读取输入视频,获取用于反映静态视觉内容的外观帧序列和反映动态运动状态变化的运动帧序列;S2,利用神经网络模型对外观帧序列和运动帧序列进行特征提取,获得帧级外观特征和帧级运动特征;S3,利用镜头分割算法检测所述帧级外观特征中的视觉变化点,获取子镜头集合;S4,构建视频摘要生成模型预测镜头级重要性得分,所述模型包括:序列编码器:所述序列编码器分别将所述帧级外观特征或所述帧级运动特征作为输入,用来将每个镜头内的特征聚合为镜头级特征向量以表征语义信息,最后输出镜头级外观特征和镜头级运动特征;双向模态编码器:所述双向模态编码器将所述镜头级外观特征和所述镜头级运动特征作为输入,首先通过单模态特征编码挖掘镜头间的上下文依赖关系,再通过跨模态特征交互在外观流和运动流中进行消息传递,得到融合外观信息和运动信息的跨模态上下文特征;视频语义引导器:所述视频语义引导器将所述帧级外观特征和所述跨模态上下文特征作为输入计算语义一致性损失,用来缓解运动流中的噪声影响,提升视频摘要性能;分数预测器:所述分数预测器以所述跨模态上下文特征作为输入,用来将高维特征映射为重要性分数向量以表征每个镜头的重要性程度;S5,构建目标函数,以无监督或者监督学习的方式训练所述视频摘要生成模型;S6,使用 S5训练得到的视频摘要生成模型对新视频进行预测,根据得到的重要性得分向量生成动态视频摘要。2.根据权利要求1所述的基于运动信息协助的视频摘要生成方法,其特征在于,所述序列编码器在外观流和运动流中共享权重。3.根据权利要求1所述的基于运动信息协助的视频摘要生成方法,其特征在于,构建所述序列编码器,包括:利用正向门控循环单元和反向门控循环单元分别聚合每个镜头内短距离特征序列的正向和反向时序特征;将所述正向门控循环单元和反向门控循环单元最终单元输出的隐藏层特征向量沿维度方向进行拼接,输出镜头级特征向量。4.根据权利要求1所述的基于运动信息协助的视频摘要生成方法,其特征在于,构建所述双向模态编码器,包括:首先在外观流和运动...

【专利技术属性】
技术研发人员:张云佐刘亚猛郑宇鑫康伟丽张天武存宇朱鹏飞杨月辉王双双
申请(专利权)人:石家庄铁道大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1