视频数据的处理方法及装置、介质及电子设备制造方法及图纸

技术编号:22173296 阅读:24 留言:0更新日期:2019-09-21 13:59
本公开提出视频数据的处理方法及装置,信息推荐方法、介质及电子设备。该方法提取视频在预定播放时间的图像特征和音频特征,融合该图像特征和音频特征以获取视频在预定播放时间的融合特征,并且基于视频在预定播放时间之前的播放时间的视频观看量和融合特征预测视频在预定播放时间的视频观看量。本公开的方法克服基于视频标签对视频观看量进行预测无法表征空间特性之外的特性的缺陷,基于时域特性预测视频观看量并使预测结果达到精确至视频播放时间的时域细粒度要求。

Processing Method and Device, Media and Electronic Equipment of Video Data

【技术实现步骤摘要】
视频数据的处理方法及装置、介质及电子设备
本公开涉及数据处理,特别涉及用于预测视频观看量的视频数据的处理方法及装置、信息推荐方法、计算机存储介质以及实现该处理方法的电子设备。
技术介绍
随着互联网视频的发展,获取用户对视频的关注度数据的需求越来越高。视频关注度可以通过视频观看量表征,视频提供者可以基于视频观看量有针对性地在最受关注的视频或视频片段上投放广告。当前的解决方案主要对整个视频或某一类剧集视频做流行度(popularity)或者有趣度(interestingness)进行视频观看量的预测估计。使用流行度或有趣度的视频整体观看量预测,针对基于视频关键帧生成的由视频标签表征的视频或视频片段,获取用户对不同视频的观看量和收藏量,统计或使用模型分析用户对视频的关注程度,从而向用户进行视频推荐或视频搜索,并在热点视频或热点视频片段中投放相关的广告。视频标签与视频关键帧中的图像内容或特征相关,通过对视频标签进行扩展可以包括更多的视频片段或视频关键帧的特征。另外还可以在视频标签中增加时间权重以体现流行度或有趣度随时间的变化趋势。但是,上述视频观看量的预测方法均基于视频关键帧中的内容或图像特征的视频标签,体现的是视频的空间特性。因此对视频观看量进行细粒度预测时无法表征空间特性之外的视频特性。用户对于同一个视频,观看量在不同的时刻差异很大。对于有些较无趣的视频片段,用户会选择快进,而对于有些时刻的视频片段则会有大量用户观赏。上述基于视频标签的观看量预测方案只能对整个视频或视频片段作出基于视频空间特性的流行度或者有趣度的预测估计,不能基于视频的时域特性考虑同一个视频观看量内部在不同时段的差异性。进一步,基于视频标签的观看量预测方案无法获得在时域上的细粒度预测结果,从而无法改善在热点时间投放广告的效果。因此,存在对用于预测视频观看量的视频数据的处理方法进行改进的需求。
技术实现思路
本公开的目的在于,克服基于视频标签对视频观看量进行预测的方法无法表征视频空间特性之外的特性的缺陷,采用视频的时域特性对视频观看量进行预测,将视频观看量的预测精确到视频的预定播放时间以达到时域细粒度要求,以便提高在视频的热点时间进行信息推荐的效果。根据本公开的一方面,提出一种视频数据的处理方法,包括:提取视频在预定播放时间的图像特征;提取所述视频在所述预定播放时间的音频特征;融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征;基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量。根据本公开的实施例,融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征包括:对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征。根据本公开的实施例,在对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征之前还包括:对所述图像特征和所述音频特征进行内容过滤。根据本公开的实施例,对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括:对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征。根据本公开的实施例,对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括:对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征;获取所述图像特征的高阶图像特征;获取所述音频特征的高阶音频特征;对所述融合特征、所述高阶图像特征和所述高阶音频特征再次进行拼接以获取所述视频在所述预定播放时间的新的融合特征。根据本公开的实施例,对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括:基于所述视频在所述预定播放时间之前的播放时间的图像特征获取在所述预定播放时间的图像特征的高阶图像特征;基于所述视频在所述预定播放时间之前的播放时间的音频特征获取在所述预定播放时间的音频特征的高阶音频特征;对所述高阶图像特征和所述高阶音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征。根据本公开的实施例,基于所述视频在所述预定播放时间之前的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量包括:基于所述视频在所述预定播放时间之前的视频观看量和所述融合特征的平均值预测所述视频在所述预定播放时间的视频观看量。根据本公开的实施例,通过循环神经网络融合所述图像特征和所述音频特征以及预测所述视频在所述预定播放时间的视频观看量,所述循环神经网络的每层包括:内容门网络层,设置为对所述图像特征和所述音频特征进行内容过滤;多模态特征融合层,设置为对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征;以及观看量预测层,设置为基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量。根据本公开的实施例,通过循环神经网络融合所述图像特征和所述音频特征以及预测所述视频在所述预定播放时间的视频观看量,所述循环神经网络的每层包括:内容门网络层,设置为对所述图像特征和所述音频特征进行内容过滤;多模态特征融合层,设置为对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征;获取所述图像特征的高阶图像特征;获取所述音频特征的高阶音频特征;以及对所述融合特征、所述高阶图像特征和所述高阶音频特征再次进行拼接以获取所述视频在所述预定播放时间的新的融合特征;以及观看量预测层,设置为基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述新的融合特征预测所述视频在所述预定播放时间的视频观看量。根据本公开的实施例,通过循环神经网络融合所述图像特征和所述音频特征以及预测所述视频在所述预定播放时间的视频观看量,所述循环神经网络的每层包括:内容门网络层,设置为对所述图像特征和所述音频特征进行内容过滤;多模态特征融合层,设置为基于所述视频在所述预定播放时间之前的播放时间的图像特征获取在所述预定播放时间的图像特征的高阶图像特征;基于所述视频在所述预定播放时间之前的播放时间的音频特征获取在所述预定播放时间的音频特征的高阶音频特征;对所述高阶图像特征和所述高阶音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征;以及观看量预测层,设置为基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量。根据本公开的另一方面,提出一种信息推荐方法,基于根据如上所述的处理方法中预测的所述视频在所述预定播放时间的视频观看量进行信息推荐。根据本公开的实施例,所述预定播放时间为预定时间段或预定时间点。根据本公开的又一方面,提出一种视频数据的处理装置,包括:图像特征提取单元,设置为提取视频在预定播放时间的图像特征;音频特征提取单元,设置为提取所述视频在所述预定播放时间的音频特征;特征融合单元,设置为融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征;预测单元,设置为基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述融合特征本文档来自技高网
...

【技术保护点】
1.一种视频数据的处理方法,其特征在于,包括:提取视频在预定播放时间的图像特征;提取所述视频在所述预定播放时间的音频特征;融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征;基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量。

【技术特征摘要】
1.一种视频数据的处理方法,其特征在于,包括:提取视频在预定播放时间的图像特征;提取所述视频在所述预定播放时间的音频特征;融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征;基于所述视频在所述预定播放时间之前的播放时间的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量。2.根据权利要求1所述的处理方法,其特征在于,融合所述图像特征和所述音频特征以获取所述视频在所述预定播放时间的融合特征包括:对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征。3.根据权利要求2所述的处理方法,其特征在于,在对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征之前还包括:对所述图像特征和所述音频特征进行内容过滤。4.根据权利要求3所述的处理方法,其特征在于,对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括:对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征。5.根据权利要求3所述的处理方法,其特征在于,对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括:对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征;获取所述图像特征的高阶图像特征;获取所述音频特征的高阶音频特征;对所述融合特征、所述高阶图像特征和所述高阶音频特征再次进行拼接以获取所述视频在所述预定播放时间的新的融合特征。6.根据权利要求3所述的处理方法,其特征在于,对所述图像特征和所述音频特征进行多模态特征融合以获取所述视频在所述预定播放时间的融合特征包括:基于所述视频在所述预定播放时间之前的播放时间的图像特征获取在所述预定播放时间的图像特征的高阶图像特征;基于所述视频在所述预定播放时间之前的播放时间的音频特征获取在所述预定播放时间的音频特征的高阶音频特征;对所述高阶图像特征和所述高阶音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征。7.根据权利要求3所述的处理方法,其特征在于,基于所述视频在所述预定播放时间之前的视频观看量和所述融合特征预测所述视频在所述预定播放时间的视频观看量包括:基于所述视频在所述预定播放时间之前的视频观看量和所述融合特征的平均值预测所述视频在所述预定播放时间的视频观看量。8.根据权利要求4所述的处理方法,其特征在于,通过循环神经网络融合所述图像特征和所述音频特征以及预测所述视频在所述预定播放时间的视频观看量,所述循环神经网络的每层包括:内容门网络层,设置为对所述图像特征和所述音频特征进行内容过滤;多模态特征融合层,设置为对所述图像特征和所述音频特征进行拼接以获取所述视频在所述预定播放时间的融合特征;以及观看量预测层,设置为基于所述视频在所述...

【专利技术属性】
技术研发人员:陈新鹏陈静远马林刘威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1