用于表征视频内容的深度强化学习框架制造技术

技术编号:26074946 阅读:33 留言:0更新日期:2020-10-28 16:49
视频场景中的视频信息被表示为每帧描绘的特征序列。通过时间步距t的视频信息和来自前一时间步距t‑1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态。利用由机器学习算法控制的代理对步距t的帧采取动作A(t),其中动作A(t)的输出表示时间步距t的帧的情感标签预测。将预测动作池转变成下一时间步距t+1的预测情感历史。包括预测情感历史作为下一时间步距t+1的所述环境状态的一部分。通过将到当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较,关于预测动作生成奖励R。

【技术实现步骤摘要】
【国外来华专利技术】用于表征视频内容的深度强化学习框架优先权要求本申请要求2017年10月27日提交的美国临时专利申请62/577,970号的优先权权益,其全部内容通过引用并入本文中。
技术介绍
随着视频点播移动电话应用和网站(如youtube.com)的普及,人们可以从不同的在线来源获得前所未有的视频量。因此,提取视频元数据(例如,电影场景标注)在方便高效搜索和推荐中起着重要作用。例如,电影推荐系统需要识别电影剪辑场景情感信息,并基于用户的请求或兴趣将其推荐给对应的用户。然而,大多数可靠的电影标注仍然是手动生成的,因为电影场景情感标签,例如场景是否好笑,通常在较长的时间尺度上表现出来。当人类标注者试图识别电影场景的情感标签时,他们需要考虑更长的上下文。使用一种特定的算法来模拟人类标注过程的这种复杂的非线性性质并不容易。此外,电影情感标签预测是比使用准备充分的标准情绪数据库的情绪预测更具挑战性和更复杂的任务。此外,场景级情感标签通常由多种模态生成。例如,电影包含来自视觉、听觉和词汇渠道的信息。当标注者将一个电影场景标记为好笑时,评估可能是因为演员的面部表情、他们使用的文字记录或者只是背景音乐。更一般地说,标注者通常将所有这些信息组合在一起,来评估一个场景是否好笑。尽管有大量的电影音频资源可用,但由于版权和标注成本的原因,那些具有精确场景级标注的资源通常在数量上受到严重限制。因此,电影场景的情感分类无论是在技术算法上还是在数据收集上都是一项复杂且具有挑战性的任务。许多相关的研究工作都集中在电影情感内容的分析上。最近,深度学习方法,如卷积神经网络(CNN)被用来提取中层代表,并将其应用于情感视频的理解。该领域的大多数相关研究工作都使用了监督机器学习方法。本公开的各方面正是在这种背景下出现的。附图说明图1是示出根据本公开的各方面的关于电影情感标签预测的提议的RL框架的示意图。图2是示出根据本公开的各方面的提议的电影序列生成方法的示意图。图3是示出用于执行包括根据本公开的各方面的视频场景的序列级预测的方法的流程图。图4是示出包括根据本公开的各方面的用于执行视频场景的序列级预测的系统的框图。具体实施方式引言在高层级上,本公开背后的概念是使用人工智能(AI)方法来改进用于通过试错机制用情感标签标注视频内容的系统。强化学习(RL)是一种经验驱动的自主学习方法的框架。随着深度学习在RL(所定义的领域)中的应用,“深度强化学习”(DRL)在机器学习领域发挥着革命性的作用。DRL的崛起主要来自两个方面。第一个方面是深度神经网络(DNN)强大的函数逼近和表示学习特性。使用DNN,可以从高维数据(例如,图像、音频和文本)中获得低维特征表示,这允许DRL用高维状态和动作空间来解决决策问题。第二个方面是RL的“探索和开发”特性。探索与收集更多信息相关,这意味着系统将探索不同的可能试验,看它们是否比以前试验过的更好。探索确保系统在给定当前信息的情况下做出最佳决策,这意味着系统会记住过去最有效的策略。这两个优点相对于许多其他传统的监督学习方法是显著的进步。本公开的各方面针对一种新颖的方法,该方法使用深度强化学习(DRL)例如在视频内容(例如电影、电视节目等)中执行序列级预测。基础事实标签形式的监督仅在序列的末尾提供,标签本身属于整个序列。这个问题可以被公式化为一个游戏,在这个游戏中,DRL代理试图在仅给出到当前时间步距为止的数据的情况下“猜测”全局标签。这种“猜测”代表了代理对标签的内在信念,并影响代理做出的任何进一步决策。这种信念还被用来计算奖励函数,该函数有助于训练DRL算法。不同的计算奖励函数的策略已经被探索,并且表明弱监督的方法如DRL在诸如情绪预测的任务中可能是有用的,在该任务中在全局层级上标注可能更容易。根据本公开的一个方面的一个实现方式包括用于实现电影场景情感标签预测的算法。在这个示例中,该算法使用预先训练的卷积网络从场景中演员的面部捕捉复杂的人类情感信息,以理解特定电影场景是否好笑。传统的DRL框架不能直接应用于这项任务。在传统的DRL中,每帧生成的决策必须与改变其状态的环境交互,例如,在乒乓球游戏或AlphaGO中。由于电影场景数据序列已经确定,所以每个帧的预测情感标签决策不能与环境交互。由该算法实现的稍微修改过的DRL框架使得DRL代理与环境状态交互成为可能。这将在下面详细描述。方法学电影场景剪辑可以被视为沿着不同模态的数据样本序列。例如,从语音模态中,剪辑可以包含音频信号,从视觉模态中,在每个电影场景剪辑中可以有一系列图像帧。对于情感标签预测任务,人类标注者需要处理动态的时间情感信息来获得正确的标签。对于RL应用,代理的动作决策还包含很强的时间相关性,当前的动作决策加上奖励也取决于先前的步距。因此,我们尝试使用RL来预测电影剪辑的情感标签。作为示例而非限制,焦点可以被限制为使用来自一组视频帧的图像序列作为输入的视频数据。修改过的DRL算法试图基于对每个电影帧中一个或多个演员面部的分析来预测情感场景标签。提议方法的框架根据本公开的各方面,新的DRL框架包括环境状态和代理动作之间的交互。图1中示意性地示出了提议的RL框架。电影场景中的视频信息可以被表示为每帧描绘的面部序列。在每个时间步距t,环境状态有两个组成部分,时间步距t的视频帧和来自前一时间步距t-1的预测情感信息。通过共同考虑这些信息,由机器学习算法控制的代理采取动作A(t)。动作的输出表示时间步距t的情感标签预测,例如好笑或不好笑。然后,函数G被用于将迄今为止的预测动作池{A(i):i≤t}转变为下一个时间步距t+1的预测情感历史。该信息作为下一个时间步距的环境状态的一部分被包括在内,并且类似地被代理用来生成在时间t+1的下一个动作。在每个步距,通过将到当前时间步距t为止的预测动作与对应的人类标注电影场景情感标签进行比较,由函数H基于该预测动作生成奖励。在这个提议的RL结构中,我们使用函数G,将来自先前时间步距、来自代理的动作的预测添加到当前环境状态中,从而在代理的动作和环境状态之间建立连接。利用所提议的RL结构,可以为不同的应用设计不同的函数G和H。视频数据处理可以从原始视频数据(例如,原始电影)和对应的标注文件创建情感标签分类数据集。举例来说,将电影中的场景标记为好笑的或者可以集中在电影的视频信道中描绘的特定特征,特别是角色的面部。这些面部图像的序列是从视频中预先提取的,用作我们系统的输入。为了检测每个帧的面部,可以使用标准面部检测库,如dlib和openCV,从每个连续帧的原始视频中提取面部图像。如果一个帧包含多个面部,可以选择最靠近帧中心的面部。这种选择背后的直觉是,当屏幕上显示多个面部时,主要角色的面部很有可能位于屏幕的中央,以支配场景的情感信息。此外,与其他检测到的面部相比,通过该标准选择的面部通常也是面积最大的。如果一个帧中有多个面部,则可以选择最中心位置的面部,因为主要角色很可能位于屏幕的中心以支配场景的情感信息,并且通常这个所本文档来自技高网...

【技术保护点】
1.一种用于执行视频场景的序列级预测的方法,其包括:/n将所述视频场景中的视频信息表示为每帧描绘的特征序列;/n通过时间步距t的所述视频信息和来自前一时间步距t-1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态;/n利用由机器学习算法控制的代理对步距t的帧采取动作A(t),其中所述动作A(t)的输出表示所述时间步距t的所述帧的情感标签预测;/n将预测动作池转变成下一时间步距t+1的预测情感历史;/n包括所述预测情感历史作为所述下一时间步距t+1的所述环境状态的一部分;以及/n通过将到所述当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较,关于所述预测动作生成奖励R。/n

【技术特征摘要】
【国外来华专利技术】20171027 US 62/577,9701.一种用于执行视频场景的序列级预测的方法,其包括:
将所述视频场景中的视频信息表示为每帧描绘的特征序列;
通过时间步距t的所述视频信息和来自前一时间步距t-1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态;
利用由机器学习算法控制的代理对步距t的帧采取动作A(t),其中所述动作A(t)的输出表示所述时间步距t的所述帧的情感标签预测;
将预测动作池转变成下一时间步距t+1的预测情感历史;
包括所述预测情感历史作为所述下一时间步距t+1的所述环境状态的一部分;以及
通过将到所述当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较,关于所述预测动作生成奖励R。


2.根据权利要求1所述的方法,其中所述时间步距t的所述情感标签预测表示所述视频场景是好笑还是不好笑。


3.根据权利要求1所述的方法,其中所述奖励R的值是基于到所述时间步距t的所述当前帧为止的帧级情感标签预测结果的多数投票。


4.根据权利要求1所述的方法,其中所述奖励R的值是基于所述帧级结果的最小百分比投票。


5.根据权利要求1所述的方法,其中在人类标签可用时的帧之前,所述奖励R的值为零。


6.根据权利要求1所述的方法,其中所述特征序列是出现在所述视频场景中的面部序列。


7.根据权利要求6所述的方法,其中所述面部序列是所述视频场景中的单个角色的面部序列。


8.根据权利要求6所述的方法,其中所述面部序列是所述视频场景中的单个角色的面部序列,并且其中当在所述视频场景中显示多个面部时,所述面部序列是位于所述场景中心的面部序列。


9.一种用于执行视频场景的序列级预测的系统,其包括:
处理器;
耦合到所述处理器的存储器;以及
包含在所述存储器中的处理器可执行指令,所述指令被配置成在被执行时致使所述处理器执行以下操作:
将视频场景中的视频信息表示为每帧描绘的特征序列;
通过时间步距t的所述视频信息和来自前一时间步距t-1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态;
利用由机器学习算法控制的代理对步距t的帧采取动作A(t),其中所述动作A(t)的输出表示所述时间步距t的所述帧的情感标签预测;
将预测动作池转变成下一时间步距t+1的预测情感历史;
包括所述预测情感历史作为所述下一时间步距t+1的所述环境状态的一部分;以及
通过将到所述当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较,关于所述预测动作生成奖励R。


10.根据权利要求9所述的系统,其中所述时间步距t的所述情感标签预测表示所述视频场景是好笑还是不好笑...

【专利技术属性】
技术研发人员:R陈N库马尔H李
申请(专利权)人:索尼互动娱乐股份有限公司
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1