【技术实现步骤摘要】
视频评论生成方法、系统、设备及存储介质
[0001]本专利技术涉及自然语言生成
,尤其涉及一种视频评论生成方法、系统、设备及存储介质。
技术介绍
[0002]从复杂的视频数据中理解视频内容和自动标注对人工智能如何为发展网络共享媒体赋能至关重要。评论是目前媒体平台最常见的文本形式之一。与其他文本形式不同,视频评论能够反映当前视频的主要内容和评论者的情感。早期的方法将视频信息视为由图像组成的序列信息,并通过视觉模型进行特征提取和序列关系建模。然而,这样的方法在实际场景中并不适用。首先,实际场景包括诸多无用的视频帧,给模型带来噪声信息;其次,评论普遍较短,具备概括性和非结构性,由视觉模态特征直接解码生成,难度较大。
[0003]传统的视频评论生成方法存在如下技术问题:1)将视频看做由一系列图片在时间帧上的连续排列,通过设计关键帧识别与提取以及复杂的帧内和帧间特征学习模块来理解视频内容,需要依赖大量的高质量视频标记数据(人工标记数据)来进行模型训练,而大量的高质量视频标记数据在现实中难以获取。2)需要基于情感倾向、内容主题等上下文精细地设定模版和语法规则以生成评论,同样受到人工成本的限制,同时生成内容短浅且模式单一,难以满足语言文字的创造性和变化性。3)缺乏对视频中的其他有价值的信息(如语音、字幕)的利用,当对视频内容理解不准确时,存在生成评论效果不佳的问题。
技术实现思路
[0004]本专利技术的目的是提供一种视频评论生成方法、系统、设备及存储介质,不仅能够生成丰富多样的评论文本,还能够确保评 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种视频评论生成方法,其特征在于,包括:获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测,将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列;将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图;对所述包含多个模态信息的语义图进行解码,获得预测文本。2.根据权利要求1所述的一种视频评论生成方法,其特征在于,所述获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测包括:将包含多模态信息的视频数据表示为,其中,对应视觉模态,对应文本模态,对应语音模态,分别为视觉信息、文本信息、语音信息;使用表示三种模态的特征提取网络,对于模态m对应的信息通过特征提取网络进行特征提取,并在预训练类别空间上实现类别预测,类别预测结果表示为:果表示为:其中,是预训练分类器对的归一化概率输出,表示通过特征提取网络对模态m对应的信息进行特征提取,c表示单个类别,表示类别数目, 表示信息中的单个元素;。3.根据权利要求2所述的一种视频评论生成方法,其特征在于,所述将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列包括:对于模态m,从类别预测结果中采样个类别,将个采样类别转换为一组文本嵌入向量,即模态m的词元序列,模态m的词元序列中词元数目等于采样类别数;其中,对于采样类别先计算类别名,再通过矩阵运算获得对应的文本嵌入向量,表示为:其中,表示模态m的采样类别的独热编码向量,表示模态m的所有个类别组成的集合的向量形式,表示模态m的采样类别对应的类别名,即文本名称, 是维可学习的嵌入层,表示模态m的类别数目;表示模态m的采样类别对应的类别名的文本嵌入向量,对应一个词元;采样类别数为设定的正整数, ,对应视觉模态,对应文本模态,对应语音模态;对所有模态都进行处理后,获得的多模态词元序列,表示为,分别表示视觉模态、文本模态、语音
模态的词元序列中词元数目。4.根据权利要求3所述的一种视频评论生成方法,其特征在于,训练过程中,在归一化概率输出上添加Gumbel噪声实现重参数化,重参数化后的归一化概率输出记为 ,结合Straight
‑
Through Estimator,在训练过程的前向传播中,对重参数化后的归一化概率输出采样前K个类别;通过反向传播更新维可学习的嵌入层的参数;在反向传播中单个类别c的梯度如下:其中,,c
’
与c均表示单个类别,表示梯度算子,K为正整数,Straight
‑
Through Estimator表示直通估计器。5.根据权利要求1或3所述的一种视频评论生成方法,其特征在于,将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图包括:所述多模态词元交互模块使用第一多模态Transformer网络实现,通过所述第一多模态Transformer网络对模态间和模态内词元的关系进行建模,输入多模态词元序列,分别表示视觉模态、文本模态、语音模态词元序列中词元的数目,对应视觉模态,对应文本模态,对应语音模态,序列中的单个元素表示单个词元,输出多模态序列;多模态序列中单个元素表示建立模态间和模态内关系后的词元;利用线性层,预测多模态序列中每一词元的重要性得分,表示为:其中,z表示多模态序列中的单个词元,表示单个词元的重要性得分;根据词元的重要性得分大小选出关键词元,训练阶段,选择的关键词元为重要性得分最高的一个词元;推理阶段,选择重要性得分最高的多个词元作为关键词元,即推理阶段,将选出多个关键词元;利用选择的每一关键词元构建对应的语义图,步骤包括:利用RNN模型以关键词元初始化隐藏层状态,对关键词元与多模态序列中其他词元之间的相关性进行建模,并计算相关性得分,利用相关性得分筛选出相关词元集合,再构建以关键词元为中心的语义图,表示为:,表示为:
技术研发人员:毛震东,张勇东,张菁菁,方山城,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。