视频评论生成方法、系统、设备及存储介质技术方案

技术编号:33071833 阅读:23 留言:0更新日期:2022-04-15 10:06
本发明专利技术公开了一种视频评论生成方法、系统、设备及存储介质,通过将每个模态的所有元素映射到一个公共语义嵌入空间中,能够充分提取各模态的上下文信息,显式地对多个模态信息进行交互,实现跨模态数据间的语义关联;而且通过构造语义图结构并进行解码,不仅能够生成丰富多样的评论,还能够直接利用提取出的内容语义标签,确保了和视频内容表达的统一。确保了和视频内容表达的统一。确保了和视频内容表达的统一。

【技术实现步骤摘要】
视频评论生成方法、系统、设备及存储介质


[0001]本专利技术涉及自然语言生成
,尤其涉及一种视频评论生成方法、系统、设备及存储介质。

技术介绍

[0002]从复杂的视频数据中理解视频内容和自动标注对人工智能如何为发展网络共享媒体赋能至关重要。评论是目前媒体平台最常见的文本形式之一。与其他文本形式不同,视频评论能够反映当前视频的主要内容和评论者的情感。早期的方法将视频信息视为由图像组成的序列信息,并通过视觉模型进行特征提取和序列关系建模。然而,这样的方法在实际场景中并不适用。首先,实际场景包括诸多无用的视频帧,给模型带来噪声信息;其次,评论普遍较短,具备概括性和非结构性,由视觉模态特征直接解码生成,难度较大。
[0003]传统的视频评论生成方法存在如下技术问题:1)将视频看做由一系列图片在时间帧上的连续排列,通过设计关键帧识别与提取以及复杂的帧内和帧间特征学习模块来理解视频内容,需要依赖大量的高质量视频标记数据(人工标记数据)来进行模型训练,而大量的高质量视频标记数据在现实中难以获取。2)需要基于情感倾向、内容主题等上下文精细地设定模版和语法规则以生成评论,同样受到人工成本的限制,同时生成内容短浅且模式单一,难以满足语言文字的创造性和变化性。3)缺乏对视频中的其他有价值的信息(如语音、字幕)的利用,当对视频内容理解不准确时,存在生成评论效果不佳的问题。

技术实现思路

[0004]本专利技术的目的是提供一种视频评论生成方法、系统、设备及存储介质,不仅能够生成丰富多样的评论文本,还能够确保评论文本和视频内容表达的统一;此外,也无需大量的高质量视频标记数据,从而降低人工成本。
[0005]本专利技术的目的是通过以下技术方案实现的:一种视频评论生成方法,包括:获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测,将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列;将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图;对所述包含多个模态信息的语义图进行解码,获得预测文本。
[0006]一种视频评论生成系统,该系统包括:多模态序列建模子模块,用于获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测,将所有模态信息类别预测结果对应的文本名称嵌入到共同
的语义空间中,获得多模态词元序列;语义图构造子模块,用于将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图;评论文本预测子模块,用于对所述包含多个模态信息的语义图进行解码,获得预测文本结果。
[0007]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0008]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0009]由上述本专利技术提供的技术方案可以看出,通过将每个模态的所有元素映射到一个公共语义嵌入空间中,能够充分提取各模态的上下文信息,显式地对多个模态信息进行交互,实现跨模态数据间的语义关联;而且通过构造语义图结构并进行解码,不仅能够生成丰富多样的评论,还能够直接利用提取出的内容语义标签(即多模态序列建模时获得的各模态信息类别预测结果),确保了和视频内容表达的统一。
附图说明
[0010]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0011]图1为本专利技术实施例提供的一种视频评论生成方法的整体框架示意图;图2为本专利技术实施例提供的可微分的多模态分词策略示意图;图3为本专利技术实施例提供的包含两部分多模态Transformer网络及动态指针网络的原理示意图;图4为本专利技术实施例提供的一种视频评论生成系统的示意图;图5为本专利技术实施例提供的一种处理设备的示意图。
具体实施方式
[0012]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0013]首先对本文中可能使用的术语进行如下说明:术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品
等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0014]为了解决传统的视频评论生成方法存在的诸多技术问题,本专利技术提供的一种视频评论生成方案,通过建立视频内容对应的文本和视频数据的对应关系进行信息挖掘,从而从文本层次来实现对视频中多个模态数据的理解,能够兼顾生成效果的多样性和准确性。
[0015]下面对本专利技术所提供的一种视频评论生成方案进行详细描述。本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本专利技术实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
[0016]实施例一如图1所示,一种视频评论生成方法,主要包括如下步骤:步骤1、获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测,将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列。
[0017]步骤2、将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图。
[0018]步骤3、对所述包含多个模态信息的语义图进行解码,获得预测文本。
[0019]图1展示了上述方法的整体框架,上述方法中获得多模态词元序列的步骤(即步骤1),获得多模态序列并构造包含多个模态信息的语义图的步骤(即步骤2),以及获得预测文本结果的步骤(即步骤3)各自通过一个子模块完成,三个子模块构成了图1所示的网络模型(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频评论生成方法,其特征在于,包括:获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测,将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列;将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图;对所述包含多个模态信息的语义图进行解码,获得预测文本。2.根据权利要求1所述的一种视频评论生成方法,其特征在于,所述获取包含多模态信息的视频数据,对每一模态信息各自进行特征提取与类别预测包括:将包含多模态信息的视频数据表示为,其中,对应视觉模态,对应文本模态,对应语音模态,分别为视觉信息、文本信息、语音信息;使用表示三种模态的特征提取网络,对于模态m对应的信息通过特征提取网络进行特征提取,并在预训练类别空间上实现类别预测,类别预测结果表示为:果表示为:其中,是预训练分类器对的归一化概率输出,表示通过特征提取网络对模态m对应的信息进行特征提取,c表示单个类别,表示类别数目, 表示信息中的单个元素;。3.根据权利要求2所述的一种视频评论生成方法,其特征在于,所述将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中,获得多模态词元序列包括:对于模态m,从类别预测结果中采样个类别,将个采样类别转换为一组文本嵌入向量,即模态m的词元序列,模态m的词元序列中词元数目等于采样类别数;其中,对于采样类别先计算类别名,再通过矩阵运算获得对应的文本嵌入向量,表示为:其中,表示模态m的采样类别的独热编码向量,表示模态m的所有个类别组成的集合的向量形式,表示模态m的采样类别对应的类别名,即文本名称, 是维可学习的嵌入层,表示模态m的类别数目;表示模态m的采样类别对应的类别名的文本嵌入向量,对应一个词元;采样类别数为设定的正整数, ,对应视觉模态,对应文本模态,对应语音模态;对所有模态都进行处理后,获得的多模态词元序列,表示为,分别表示视觉模态、文本模态、语音
模态的词元序列中词元数目。4.根据权利要求3所述的一种视频评论生成方法,其特征在于,训练过程中,在归一化概率输出上添加Gumbel噪声实现重参数化,重参数化后的归一化概率输出记为 ,结合Straight

Through Estimator,在训练过程的前向传播中,对重参数化后的归一化概率输出采样前K个类别;通过反向传播更新维可学习的嵌入层的参数;在反向传播中单个类别c的梯度如下:其中,,c

与c均表示单个类别,表示梯度算子,K为正整数,Straight

Through Estimator表示直通估计器。5.根据权利要求1或3所述的一种视频评论生成方法,其特征在于,将所述多模态词元序列输入至多模态词元交互模块,每一词元都与其他任意模态的词元进行交互,获得建立模态间和模态内关系后的词元组成的多模态序列;对所述多模态序列进行评分,利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分,构造包含多个模态信息的语义图包括:所述多模态词元交互模块使用第一多模态Transformer网络实现,通过所述第一多模态Transformer网络对模态间和模态内词元的关系进行建模,输入多模态词元序列,分别表示视觉模态、文本模态、语音模态词元序列中词元的数目,对应视觉模态,对应文本模态,对应语音模态,序列中的单个元素表示单个词元,输出多模态序列;多模态序列中单个元素表示建立模态间和模态内关系后的词元;利用线性层,预测多模态序列中每一词元的重要性得分,表示为:其中,z表示多模态序列中的单个词元,表示单个词元的重要性得分;根据词元的重要性得分大小选出关键词元,训练阶段,选择的关键词元为重要性得分最高的一个词元;推理阶段,选择重要性得分最高的多个词元作为关键词元,即推理阶段,将选出多个关键词元;利用选择的每一关键词元构建对应的语义图,步骤包括:利用RNN模型以关键词元初始化隐藏层状态,对关键词元与多模态序列中其他词元之间的相关性进行建模,并计算相关性得分,利用相关性得分筛选出相关词元集合,再构建以关键词元为中心的语义图,表示为:,表示为:

【专利技术属性】
技术研发人员:毛震东张勇东张菁菁方山城
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1