用于表征视频内容的深度强化学习框架制造技术

技术编号：26074946 阅读：33 留言：0更新日期：2020-10-28 16:49

视频场景中的视频信息被表示为每帧描绘的特征序列。通过时间步距t的视频信息和来自前一时间步距t‑1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态。利用由机器学习算法控制的代理对步距t的帧采取动作A(t)，其中动作A(t)的输出表示时间步距t的帧的情感标签预测。将预测动作池转变成下一时间步距t+1的预测情感历史。包括预测情感历史作为下一时间步距t+1的所述环境状态的一部分。通过将到当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较，关于预测动作生成奖励R。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于表征视频内容的深度强化学习框架优先权要求本申请要求2017年10月27日提交的美国临时专利申请62/577，970号的优先权权益，其全部内容通过引用并入本文中。
技术介绍
随着视频点播移动电话应用和网站(如youtube.com)的普及，人们可以从不同的在线来源获得前所未有的视频量。因此，提取视频元数据(例如，电影场景标注)在方便高效搜索和推荐中起着重要作用。例如，电影推荐系统需要识别电影剪辑场景情感信息，并基于用户的请求或兴趣将其推荐给对应的用户。然而，大多数可靠的电影标注仍然是手动生成的，因为电影场景情感标签，例如场景是否好笑，通常在较长的时间尺度上表现出来。当人类标注者试图识别电影场景的情感标签时，他们需要考虑更长的上下文。使用一种特定的算法来模拟人类标注过程的这种复杂的非线性性质并不容易。此外，电影情感标签预测是比使用准备充分的标准情绪数据库的情绪预测更具挑战性和更复杂的任务。此外，场景级情感标签通常由多种模态生成。例如，电影包含来自视觉、听觉和词汇渠道的信息。当标注者将一个电影场景标记为好笑时，评估可能是因为演员的面部表情、他们使用的文字记录或者只是背景音乐。更一般地说，标注者通常将所有这些信息组合在一起，来评估一个场景是否好笑。尽管有大量的电影音频资源可用，但由于版权和标注成本的原因，那些具有精确场景级标注的资源通常在数量上受到严重限制。因此，电影场景的情感分类无论是在技术算法上还是在数据收集上都是一项复杂且具有挑战性的任务。许多相关的研究工作都集中在电影情感内容的分析上。最近，深度学习方法，如卷积...

【技术保护点】
1.一种用于执行视频场景的序列级预测的方法，其包括：/n将所述视频场景中的视频信息表示为每帧描绘的特征序列；/n通过时间步距t的所述视频信息和来自前一时间步距t-1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态；/n利用由机器学习算法控制的代理对步距t的帧采取动作A(t)，其中所述动作A(t)的输出表示所述时间步距t的所述帧的情感标签预测；/n将预测动作池转变成下一时间步距t+1的预测情感历史；/n包括所述预测情感历史作为所述下一时间步距t+1的所述环境状态的一部分；以及/n通过将到所述当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较，关于所述预测动作生成奖励R。/n

【技术特征摘要】
【国外来华专利技术】20171027 US 62/577,9701.一种用于执行视频场景的序列级预测的方法，其包括：
将所述视频场景中的视频信息表示为每帧描绘的特征序列；
通过时间步距t的所述视频信息和来自前一时间步距t-1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态；
利用由机器学习算法控制的代理对步距t的帧采取动作A(t)，其中所述动作A(t)的输出表示所述时间步距t的所述帧的情感标签预测；
将预测动作池转变成下一时间步距t+1的预测情感历史；
包括所述预测情感历史作为所述下一时间步距t+1的所述环境状态的一部分；以及
通过将到所述当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较，关于所述预测动作生成奖励R。

2.根据权利要求1所述的方法，其中所述时间步距t的所述情感标签预测表示所述视频场景是好笑还是不好笑。

3.根据权利要求1所述的方法，其中所述奖励R的值是基于到所述时间步距t的所述当前帧为止的帧级情感标签预测结果的多数投票。

4.根据权利要求1所述的方法，其中所述奖励R的值是基于所述帧级结果的最小百分比投票。

5.根据权利要求1所述的方法，其中在人类标签可用时的帧之前，所述奖励R的值为零。

6.根据权利要求1所述的方法，其中所述特征序列是出现在所述视频场景中的面部序列。

7.根据权利要求6所述的方法，其中所述面部序列是所述视频场景中的单个角色的面部序列。

8.根据权利要求6所述的方法，其中所述面部序列是所述视频场景中的单个角色的面部序列，并且其中当在所述视频场景中显示多个面部时，所述面部序列是位于所述场景中心的面部序列。

9.一种用于执行视频场景的序列级预测的系统，其包括：
处理器；
耦合到所述处理器的存储器；以及
包含在所述存储器中的处理器可执行指令，所述指令被配置成在被执行时致使所述处理器执行以下操作：
将视频场景中的视频信息表示为每帧描绘的特征序列；
通过时间步距t的所述视频信息和来自前一时间步距t-1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态；
利用由机器学习算法控制的代理对步距t的帧采取动作A(t)，其中所述动作A(t)的输出表示所述时间步距t的所述帧的情感标签预测；
将预测动作池转变成下一时间步距t+1的预测情感历史；
包括所述预测情感历史作为所述下一时间步距t+1的所述环境状态的一部分；以及
通过将到所述当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较，关于所述预测动作生成奖励R。

10.根据权利要求9所述的系统，其中所述时间步距t的所述情感标签预测表示所述视频场景是好笑还是不好笑...

【专利技术属性】
技术研发人员：R陈，N库马尔，H李，
申请(专利权)人：索尼互动娱乐股份有限公司，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人