本发明专利技术提供了一种密集视频描述的生成方法及装置。本发明专利技术提供的密集视频描述的生成方法及装置,在密集视频描述时,融合了包括文本模态在内的多个模态,由于文本模态与视频的描述有着相似的数据结构,从而能够提高多模态密集视频描述的效果。另外,本发明专利技术采用了一种全局共享文本模态,不要求文本模态与其他模态之间的严格对齐,并且在事件(视频片段)之间共享全局的文本,从而简化了特征融合处理。从而简化了特征融合处理。从而简化了特征融合处理。
【技术实现步骤摘要】
密集视频描述的生成方法及装置
[0001]本专利技术涉及视频处理
,具体涉及一种密集视频描述的生成方法及装置。
技术介绍
[0002]短视频时代有着丰富种类和数量的视频,短视频的大量出现的同时,也增加了有效的检索和分析视频的难度。近年来,视频内容分析被用来解决这一难题。其中,密集视频描述(Dense video captioning,DVC)是非常重要并且很有难度的研究方向。DVC被广泛运用于视频检索、内容推荐、和人机互动等领域。密集视频描述通常包含两个子任务:事件定位和视频描述。
[0003]图1给出了现有技术生成密集视频描述的一种示例。视频描述的目标是检测出一段视频中的事件并产生相应的文本描述。具体的,针对原始视频,根据原始视频中的事件,将其剪切为多个视频片段,不同视频片段之间可能存在重叠部分。针对每个视频片段,生成对应的视频描述。
[0004]为了完成上述任务,多模态信息的使用是非常关键的。然而,现在的方法主要关注于单一视觉或者声音
‑
视觉双模态,难以获得较好的视频描述效果。
技术实现思路
[0005]本专利技术的至少一个实施例提供了一种密集视频描述的生成方法及装置,结合视频中的文本特征生成视频描述,提高多模态密集视频描述的效果。
[0006]根据本专利技术的一个方面,至少一个实施例提供了一种密集视频描述的生成方法,包括:
[0007]对目标视频的声音特征、视觉特征和文本特征进行融合,得到多个目标视频特征;
[0008]根据所述多个目标视频特征,检测所述目标视频中的事件,并根据检测得到的事件,将所述目标视频划分为至少一个视频片段;
[0009]针对每个视频片段,对所述视频片段的声音特征、视觉特征以及所述目标视频的文本特征进行融合,得到多个视频片段特征;
[0010]对所述多个视频片段特征向量进行解码,生成所述视频片段的视频描述。
[0011]可选的,所述对目标视频的声音特征、视觉特征和文本特征进行融合,得到多个目标视频特征,包括:
[0012]对所述目标视频的声音特征和视觉特征进行特征融合,得到第一融合特征和第二融合特征;
[0013]对所述第一融合特征与所述目标视频的文本特征进行特征融合,得到第一目标视频特征和第二目标视频特征;
[0014]对所述第二融合特征与所述目标视频的文本特征进行特征融合,得到第三目标视频特征和第四目标视频特征。
[0015]可选的,所述对所述视频片段的声音特征、视觉特征以及所述目标视频的文本特
征进行融合,得到多个视频片段特征,包括:
[0016]对所述视频片段的声音特征和视觉特征进行特征融合,得到第三融合特征和第四融合特征;
[0017]对所述第三融合特征与所述目标视频的文本特征进行特征融合,得到第一视频片段特征和第二视频片段特征;
[0018]对所述第四融合特征与所述目标视频的文本特征进行特征融合,得到第三视频片段特征和第四视频片段特征。
[0019]可选的,所述根据所述多个目标视频特征,检测所述目标视频中的事件,包括:
[0020]将所述多个目标视频特征输入至一基于全卷积目标检测FCOS算法的无锚点的多尺度事件检测器,获得所述目标视频中的至少一个事件。
[0021]可选的,在对目标视频的声音特征、视觉特征和文本特征进行融合之前,还包括:
[0022]将所述目标视频输入至预先训练的网络模型,编码得到所述目标视频的声音特征、视觉特征和文本特征,其中,所述网络模型包括:对目标视频的图像信号进行编码的I3D模型、对目标视频的声音信号进行编码的VGGish模型、对目标视频的文本信息进行编码的GloVe模型。
[0023]可选的,所述目标视频的文本信息为所述目标视频中的字幕。
[0024]根据本专利技术的另一方面,至少一个实施例提供了一种密集视频描述的生成装置,包括:
[0025]第一融合模块,用于对目标视频的声音特征、视觉特征和文本特征进行融合,得到多个目标视频特征;
[0026]事件检测模块,用于根据所述多个目标视频特征,检测所述目标视频中的事件;
[0027]视频划分模块,用于根据检测得到的事件,将所述目标视频划分为至少一个视频片段;
[0028]第二融合模块,用于针对每个视频片段,对所述视频片段的声音特征、视觉特征以及所述目标视频的文本特征进行融合,得到多个视频片段特征;
[0029]描述生成模块,用于对所述多个视频片段特征向量进行解码,生成所述视频片段的视频描述。
[0030]可选的,所述第一融合模块,具体用于:
[0031]对所述目标视频的声音特征和视觉特征进行特征融合,得到第一融合特征和第二融合特征;
[0032]对所述第一融合特征与所述目标视频的文本特征进行特征融合,得到第一目标视频特征和第二目标视频特征;
[0033]对所述第二融合特征与所述目标视频的文本特征进行特征融合,得到第三目标视频特征和第四目标视频特征。
[0034]可选的,所述第二融合模块,具体用于:
[0035]对所述视频片段的声音特征和视觉特征进行特征融合,得到第三融合特征和第四融合特征;
[0036]对所述第三融合特征与所述目标视频的文本特征进行特征融合,得到第一视频片段特征和第二视频片段特征;
[0037]对所述第四融合特征与所述目标视频的文本特征进行特征融合,得到第三视频片段特征和第四视频片段特征。
[0038]可选的,所述事件检测模块,具体用于:
[0039]将所述多个目标视频特征输入至一基于全卷积目标检测FCOS算法的无锚点的多尺度事件检测器,获得所述目标视频中的至少一个事件。
[0040]可选的,所述装置还包括:
[0041]特征编码模块,用于在对目标视频的声音特征、视觉特征和文本特征进行融合之前,将所述目标视频输入至预先训练的网络模型,编码得到所述目标视频的声音特征、视觉特征和文本特征,其中,所述网络模型包括:对目标视频的图像信号进行编码的I3D模型、对目标视频的声音信号进行编码的VGGish模型、对目标视频的文本信息进行编码的GloVe模型。
[0042]可选的,所述目标视频的文本信息为所述目标视频中的字幕。
[0043]根据本专利技术的另一方面,至少一个实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有程序,所述程序被处理器执行时,实现如上所述的方法的步骤。
[0044]与现有技术相比,本专利技术实施例提供的密集视频描述的生成方法及装置,在密集视频描述时,融合了包括文本模态在内的多个模态,由于文本模态与视频的描述有着相似的数据结构,从而能够提高多模态密集视频描述的效果。另外,本专利技术实施例采用了一种全局共享文本模态,不要求文本模态与其他模态之间的严格对齐,并且在事件(视频片段)之间共享全局的文本,从而简化了特征融合处理。
附图说明
[0045]通本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种密集视频描述的生成方法,其特征在于,包括:对目标视频的声音特征、视觉特征和文本特征进行融合,得到多个目标视频特征;根据所述多个目标视频特征,检测所述目标视频中的事件,并根据检测得到的事件,将所述目标视频划分为至少一个视频片段;针对每个视频片段,对所述视频片段的声音特征、视觉特征以及所述目标视频的文本特征进行融合,得到多个视频片段特征;对所述多个视频片段特征向量进行解码,生成所述视频片段的视频描述。2.如权利要求1所述的方法,其特征在于,所述对目标视频的声音特征、视觉特征和文本特征进行融合,得到多个目标视频特征,包括:对所述目标视频的声音特征和视觉特征进行特征融合,得到第一融合特征和第二融合特征;对所述第一融合特征与所述目标视频的文本特征进行特征融合,得到第一目标视频特征和第二目标视频特征;对所述第二融合特征与所述目标视频的文本特征进行特征融合,得到第三目标视频特征和第四目标视频特征。3.如权利要求1所述的方法,其特征在于,所述对所述视频片段的声音特征、视觉特征以及所述目标视频的文本特征进行融合,得到多个视频片段特征,包括:对所述视频片段的声音特征和视觉特征进行特征融合,得到第三融合特征和第四融合特征;对所述第三融合特征与所述目标视频的文本特征进行特征融合,得到第一视频片段特征和第二视频片段特征;对所述第四融合特征与所述目标视频的文本特征进行特征融合,得到第三视频片段特征和第四视频片段特征。4.如权利要求1所述的方法,其特征在于,所述根据所述多个目标视频特征,检测所述目标视频中的事件,包括:将所述多个目标视频特征输入至一基于全卷积目标检测FCOS算法的无锚点的多尺度事件检测器,获得所述目标视频中的至少一个事件。5.如权利要求1所述的方法,其特征在于,在对目标视频的声音特征、视觉特征和文本特征进行融合之前,还包括:将所述目标视频输入至预先训练的网络模型,编码得到所述目标视频的声音特征、视觉特征和文本特征,其中,所述网络模型包括:对目标视频的图像信号进行编码的I3D模型、对目标视频的声音信号进行编码的VGGish模型、对目标视频的文本信息进行编码的GloVe模型。6.如权利要求5所述的方法,其特征在于,所述目标视频的文本信息为所述目标视频...
【专利技术属性】
技术研发人员:谢雨来,
申请(专利权)人:株式会社日立制作所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。