视频标题的生成方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：39260050 阅读：8 留言：0更新日期：2023-10-30 12:11

本申请公开了一种视频标题的生成方法、装置、设备、存储介质及程序产品，涉及机器学习领域。该方法包括：获取第一视频，第一视频对应有视频帧序列和语音文本；通过标题生成模型中的动作预测网络对第一视频中的视频帧序列进行动作预测，得到至少一个动作预测标签，至少一个动作预测标签用于描述第一视频中的动作行为；通过标题生成模型中的标题预测网络对视频帧序列、语音文本和至少一个动作预测标签进行标题预测，得到视频预测标题，动作预测网络和标题预测网络是在标题生成模型的训练过程中共同训练的网络，通过加入动作预测标签指导标题生成模型生成视频预测标题，提高了对第一视频中多个事件的区分度，提升了标题生成质量。提升了标题生成质量。提升了标题生成质量。

全部详细技术资料下载

【技术实现步骤摘要】
视频标题的生成方法、装置、设备、存储介质及程序产品

[0001]本申请涉及机器学习领域，特别涉及一种视频标题的生成方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]在信息爆炸的时代，根据视频自动生成文字内容是一个具有吸引力的新技术。该技术生成的文字内容包括标题、视频简介等在视频理解领域中具有较高的应用价值。因为标题与简介等可以概括视频内容，让人们能够快速获取他们的重要信息。具体地，视频文字生成任务是给定一个视频，算法生成一个简短、简洁、易读、具有吸引力的文本。
[0003]相关技术中，通过构建编码器和解码器形成一个序列到序列的标题生成模型，通过编码器把视频转化为特征向量，用于理解视频信息，通过解码器基于特征向量生成视频标题。
[0004]然而，视频标题生成的数据往往是多事件的，上述方法提取的是整个视频的视觉表达，对视频中多个事件的理解与区分度较差，标题生成质量较差。

技术实现思路

[0005]本申请实施例提供了一种视频标题的生成方法、装置、设备、存储介质及程序产品，能够提高生成视频标题的质量。所述技术方案如下。
[0006]一方面，提供了一种视频标题的生成方法，所述方法包括：
[0007]获取第一视频，所述第一视频是待生成标题的视频，所述第一视频对应有视频帧序列和语音文本，所述视频帧序列包括所述第一视频中的多个视频帧；
[0008]通过标题生成模型中的动作预测网络对所述第一视频中的所述视频帧序列进行动作预测，得到至少一个动作预测标签，所述至少一个动作...

【技术保护点】

【技术特征摘要】
1.一种视频标题的生成方法，其特征在于，所述方法包括：获取第一视频，所述第一视频是待生成标题的视频，所述第一视频对应有视频帧序列和语音文本，所述视频帧序列包括所述第一视频中的多个视频帧；通过标题生成模型中的动作预测网络对所述第一视频中的所述视频帧序列进行动作预测，得到至少一个动作预测标签，所述至少一个动作预测标签用于描述所述第一视频中的动作行为；通过所述标题生成模型中的标题预测网络对所述视频帧序列、所述语音文本和所述至少一个动作预测标签进行标题预测，得到视频预测标题，所述动作预测网络和所述标题预测网络是在所述标题生成模型的训练过程中共同训练的网络。2.根据权利要求1所述的方法，其特征在于，所述标题预测网络中包括编码器和解码器，所述编码器用于对所述第一视频进行特征提取，所述解码器用于对所述第一视频进行标题预测；所述通过所述标题生成模型中的标题预测网络对所述视频帧序列、所述语音文本和所述至少一个动作预测标签进行标题预测，得到视频预测标题，包括：通过所述编码器对所述视频帧序列和所述语音文本进行特征提取，得到视频特征向量；通过所述解码器对所述视频特征向量和所述至少一个动作预测标签进行标题预测，得到所述视频预测标题。3.根据权利要求2所述的方法，其特征在于，所述通过所述解码器对所述视频特征向量和所述至少一个动作预测标签进行标题预测，得到所述视频预测标题，包括：将所述视频特征向量和所述至少一个动作预测标签输入所述解码器，通过所述解码器将所述至少一个动作预测标签作为起始字符串，并基于所述视频特征向量逐字输出所述视频预测标题，所述起始字符串用于指导生成所述视频预测标题中的第一个标题字符。4.根据权利要求1至3任一所述的方法，其特征在于，所述基于所述视频帧序列，通过标题生成模型中的动作预测网络对所述第一视频进行动作预测，得到至少一个动作预测标签，包括：按照预设时序窗口尺寸对所述视频帧序列进行时序划分，得到多个视频时序特征向量；通过所述动作预测网络对所述多个视频时序特征向量进行动作预测，得到多个时序动作标签，所述多个时序动作标签与所述多个视频时序特征向量一一对应；将所述多个时序动作标签中连续且属于同一动作行为的时序动作标签进行合并，得到所述至少一个动作预测标签，所述动作预测标签中包括所述第一视频中动作行为的类别、以及所述动作行为在所述第一视频中的起始时刻和结束时刻。5.根据权利要求1至3任一所述的方法，其特征在于，所述基于所述视频帧序列，通过标题生成模型中的动作预测网络对所述第一视频进行动作预测，得到至少一个动作预测标签之前，还包括：获取样本视频，所述样本视频标注有参考标题标签和至少一个参考动作标签，所述参考标题标签用于指示所述样本视频的视频标题，所述参考动作标签用于描述所述样本视频中的动作行为，所述样本视频对应有样本视频帧序列和样本语音文本，所述样本视频帧序
列包括所述样本视频中的多个视频帧；通过候选标题生成模型中的候选动作预测网络对所述样本视频帧序列进行动作预测，得到至少一个候选动作标签；通过所述候选标题生成模型中的候选标题预测网络对所述样本视频帧序列、所述样本语音文本和所述至少一个候选动作标签进行标题预测，得到样本预测标题；基于所述至少一个候选动作标签和所述至少一个参考动作标签之间的差异确定第一预测损失，基于所述样本预测标题和所述参考标题标签之间的差异确定第二预测损失；基于所述第一预测损失和所述第二预测损失，对所述候选标题生成模型中的所述候选动作预测网络和所述候选标题预测网络共同进行训练，得到包括所述动作预测网络和所述标题预测网络的所述标题生成模型。6.根据权利要求5所述的方法，其特征在于，所述通过候选标题生成模型中的候选动作预测网络对所述样本视频帧序列进行动作预测，得到至少一个候选动作标签，包括：按照预设时序窗口尺寸对所述样本视频帧序列进行时序划分，得到多个样本时序特征向量；通过所述候选动作预测网络对所述多个样本时序特征向量进行动作预测，得到多个样本时序动作标签，所述多个样本时序动作标签与所述多个样本时序特...

【专利技术属性】
技术研发人员：乔凌峰，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人