视频标题的生成方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:39260050 阅读:8 留言:0更新日期:2023-10-30 12:11
本申请公开了一种视频标题的生成方法、装置、设备、存储介质及程序产品,涉及机器学习领域。该方法包括:获取第一视频,第一视频对应有视频帧序列和语音文本;通过标题生成模型中的动作预测网络对第一视频中的视频帧序列进行动作预测,得到至少一个动作预测标签,至少一个动作预测标签用于描述第一视频中的动作行为;通过标题生成模型中的标题预测网络对视频帧序列、语音文本和至少一个动作预测标签进行标题预测,得到视频预测标题,动作预测网络和标题预测网络是在标题生成模型的训练过程中共同训练的网络,通过加入动作预测标签指导标题生成模型生成视频预测标题,提高了对第一视频中多个事件的区分度,提升了标题生成质量。提升了标题生成质量。提升了标题生成质量。

【技术实现步骤摘要】
视频标题的生成方法、装置、设备、存储介质及程序产品


[0001]本申请涉及机器学习领域,特别涉及一种视频标题的生成方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]在信息爆炸的时代,根据视频自动生成文字内容是一个具有吸引力的新技术。该技术生成的文字内容包括标题、视频简介等在视频理解领域中具有较高的应用价值。因为标题与简介等可以概括视频内容,让人们能够快速获取他们的重要信息。具体地,视频文字生成任务是给定一个视频,算法生成一个简短、简洁、易读、具有吸引力的文本。
[0003]相关技术中,通过构建编码器和解码器形成一个序列到序列的标题生成模型,通过编码器把视频转化为特征向量,用于理解视频信息,通过解码器基于特征向量生成视频标题。
[0004]然而,视频标题生成的数据往往是多事件的,上述方法提取的是整个视频的视觉表达,对视频中多个事件的理解与区分度较差,标题生成质量较差。

技术实现思路

[0005]本申请实施例提供了一种视频标题的生成方法、装置、设备、存储介质及程序产品,能够提高生成视频标题的质量。所述技术方案如下。
[0006]一方面,提供了一种视频标题的生成方法,所述方法包括:
[0007]获取第一视频,所述第一视频是待生成标题的视频,所述第一视频对应有视频帧序列和语音文本,所述视频帧序列包括所述第一视频中的多个视频帧;
[0008]通过标题生成模型中的动作预测网络对所述第一视频中的所述视频帧序列进行动作预测,得到至少一个动作预测标签,所述至少一个动作预测标签用于描述所述第一视频中的动作行为;
[0009]通过所述标题生成模型中的标题预测网络对所述视频帧序列、所述语音文本和所述至少一个动作预测标签进行标题预测,得到视频预测标题,所述动作预测网络和所述标题预测网络是在所述标题生成模型的训练过程中共同训练的网络。
[0010]另一方面,提供了一种视频标题的生成装置,所述装置包括:
[0011]视频获取模块,用于获取第一视频,所述第一视频是待生成标题的视频,所述第一视频对应有视频帧序列和语音文本,所述视频帧序列包括所述第一视频中的多个视频帧;
[0012]动作预测模块,用于通过标题生成模型中的动作预测网络对所述第一视频中的所述视频帧序列进行动作预测,得到至少一个动作预测标签,所述至少一个动作预测标签用于描述所述第一视频中的动作行为;
[0013]标题预测模块,用于通过所述标题生成模型中的标题预测网络对所述视频帧序列、所述语音文本和所述至少一个动作预测标签进行标题预测,得到视频预测标题,所述动作预测网络和所述标题预测网络是在所述标题生成模型的训练过程中共同训练的网络。
[0014]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的视频标题的生成方法。
[0015]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的视频标题的生成方法。
[0016]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的视频标题的生成方法。
[0017]本申请实施例提供的技术方案带来的有益效果至少包括:
[0018]通过获取待生成标题的第一视频,第一视频对应有视频帧序列和语音文本,视频帧序列中包括第一视频中的多个视频帧,通过标题生成模型中的动作预测网络对第一视频中的视频帧序列进行动作预测,得到至少一个动作预测标签,至少一个动作预测标签用于描述第一视频中的动作行为,通过标题生成模型中的标题预测网络对视频帧序列、语音文本和至少一个动作预测标签进行标题预测,得到视频预测标题,其中,动作预测网络和标题预测网络是在标题生成模型的训练过程中共同训练的网络,通过基于视频帧序列得到的动作预测标签指导标题生成模型生成视频预测标题,即,在标题预测过程中增加视频中多个事件分别对应的视觉表达,由于事件往往可以基于动作理解进行区分,因此提高了对视频中多个事件的理解和区分度,进而提高了标题生成质量。
[0019]另一方面,本申请实施例提供的方法,通过端到端的标题生成模型直接基于第一视频得到视频预测标题,即,基于共同训练得到的动作预测网络和标题预测网络,提升了网络之间的关联性,避免了标题预测过程中多个阶段不同网络之间的信息损失,从而提高了标题生成质量。
附图说明
[0020]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本申请一个示例性实施例提供的实施环境示意图;
[0022]图2是本申请一个示例性实施例提供的视频标题的生成方法的流程图;
[0023]图3是本申请一个示例性实施例提供的标题生成模型结构示意图;
[0024]图4是本申请一个示例性实施例提供的标题生成模型的训练方法流程图;
[0025]图5是本申请一个示例性实施例提供的候选标题生成模型结构示意图;
[0026]图6是本申请一个示例性实施例提供的第一预测损失确定方法流程图;
[0027]图7是本申请一个示例性实施例提供的第二预测损失确定方法流程图;
[0028]图8是本申请一个示例性实施例提供的视频标题的生成装置的结构框图;
[0029]图9是本申请一个示例性实施例提供的视频标题的生成装置模块的结构框图;
[0030]图10是本申请一个示例性实施例提供的终端的结构框图。
具体实施方式
[0031]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0032]应当理解,尽管在本公开可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一参数也可以被称为第二参数,类似地,第二参数也可以被称为第一参数。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0033]在信息爆炸的时代,根据视频自动生成文字内容是一个具有吸引力的新技术。该技术生成的文字内容包括标题、视频简介等在视频理解领域中具有较高的应用价值。因为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频标题的生成方法,其特征在于,所述方法包括:获取第一视频,所述第一视频是待生成标题的视频,所述第一视频对应有视频帧序列和语音文本,所述视频帧序列包括所述第一视频中的多个视频帧;通过标题生成模型中的动作预测网络对所述第一视频中的所述视频帧序列进行动作预测,得到至少一个动作预测标签,所述至少一个动作预测标签用于描述所述第一视频中的动作行为;通过所述标题生成模型中的标题预测网络对所述视频帧序列、所述语音文本和所述至少一个动作预测标签进行标题预测,得到视频预测标题,所述动作预测网络和所述标题预测网络是在所述标题生成模型的训练过程中共同训练的网络。2.根据权利要求1所述的方法,其特征在于,所述标题预测网络中包括编码器和解码器,所述编码器用于对所述第一视频进行特征提取,所述解码器用于对所述第一视频进行标题预测;所述通过所述标题生成模型中的标题预测网络对所述视频帧序列、所述语音文本和所述至少一个动作预测标签进行标题预测,得到视频预测标题,包括:通过所述编码器对所述视频帧序列和所述语音文本进行特征提取,得到视频特征向量;通过所述解码器对所述视频特征向量和所述至少一个动作预测标签进行标题预测,得到所述视频预测标题。3.根据权利要求2所述的方法,其特征在于,所述通过所述解码器对所述视频特征向量和所述至少一个动作预测标签进行标题预测,得到所述视频预测标题,包括:将所述视频特征向量和所述至少一个动作预测标签输入所述解码器,通过所述解码器将所述至少一个动作预测标签作为起始字符串,并基于所述视频特征向量逐字输出所述视频预测标题,所述起始字符串用于指导生成所述视频预测标题中的第一个标题字符。4.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述视频帧序列,通过标题生成模型中的动作预测网络对所述第一视频进行动作预测,得到至少一个动作预测标签,包括:按照预设时序窗口尺寸对所述视频帧序列进行时序划分,得到多个视频时序特征向量;通过所述动作预测网络对所述多个视频时序特征向量进行动作预测,得到多个时序动作标签,所述多个时序动作标签与所述多个视频时序特征向量一一对应;将所述多个时序动作标签中连续且属于同一动作行为的时序动作标签进行合并,得到所述至少一个动作预测标签,所述动作预测标签中包括所述第一视频中动作行为的类别、以及所述动作行为在所述第一视频中的起始时刻和结束时刻。5.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述视频帧序列,通过标题生成模型中的动作预测网络对所述第一视频进行动作预测,得到至少一个动作预测标签之前,还包括:获取样本视频,所述样本视频标注有参考标题标签和至少一个参考动作标签,所述参考标题标签用于指示所述样本视频的视频标题,所述参考动作标签用于描述所述样本视频中的动作行为,所述样本视频对应有样本视频帧序列和样本语音文本,所述样本视频帧序
列包括所述样本视频中的多个视频帧;通过候选标题生成模型中的候选动作预测网络对所述样本视频帧序列进行动作预测,得到至少一个候选动作标签;通过所述候选标题生成模型中的候选标题预测网络对所述样本视频帧序列、所述样本语音文本和所述至少一个候选动作标签进行标题预测,得到样本预测标题;基于所述至少一个候选动作标签和所述至少一个参考动作标签之间的差异确定第一预测损失,基于所述样本预测标题和所述参考标题标签之间的差异确定第二预测损失;基于所述第一预测损失和所述第二预测损失,对所述候选标题生成模型中的所述候选动作预测网络和所述候选标题预测网络共同进行训练,得到包括所述动作预测网络和所述标题预测网络的所述标题生成模型。6.根据权利要求5所述的方法,其特征在于,所述通过候选标题生成模型中的候选动作预测网络对所述样本视频帧序列进行动作预测,得到至少一个候选动作标签,包括:按照预设时序窗口尺寸对所述样本视频帧序列进行时序划分,得到多个样本时序特征向量;通过所述候选动作预测网络对所述多个样本时序特征向量进行动作预测,得到多个样本时序动作标签,所述多个样本时序动作标签与所述多个样本时序特...

【专利技术属性】
技术研发人员:乔凌峰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1