本申请公开一种运动模式识别方法及其装置、设备、介质、产品,所述方法包括:获取直播视频流中的当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息;采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;采用预先训练至收敛状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式。本申请能准确识别直播视频流中的人体图像的动作行为相对应的运动模式。应的运动模式。应的运动模式。
【技术实现步骤摘要】
运动模式识别方法及其装置、设备、介质、产品
[0001]本申请涉及网络直播
,尤其涉及一种运动模式识别方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
技术介绍
[0002]行为识别是计算机视觉中极其重要也非常活跃的研究方向,它已经被研究了数十年。因为人们可以用动作来处理事情、表达感情,因此行为识别有非常广泛但又未被充分解决的应用领域,例如智能监控系统、人机交互、虚拟现实、机器人等。以往的方法中都使用RGB图像序列,深度图像序列,视频或者这些模态的特定融合(例如RGB+光流)也取得了超出预期的结果。
[0003]网络直播领域中也尝试使用相关技术对多种用户动作行为实施识别,但对于部分实时性要求较高的动作行为而言,目前的现有方案均收益甚微。例如,对于直播时用户跳舞、武术等行为的识别,其实时性要求极高(秒级别),以往的技术方案都过于复杂,常需数秒才能获得识别结果,因此,难以落地。
[0004]究其原因,网络直播场景的现有行为识别模型,所采用的方法中都使用8帧以上的RGB图像序列、深度图像序列,或者这些多模态的特定融合(例如RGB+光流)。此类现有方法往往部署的时候因为复杂度高而无法满足实时性的要求,比如多帧的RGB图像需要累积多个时刻,深度图或者光流图无法实时获取,这些都导致这些方案无法在实时性极高的直播领域落地。
[0005]有鉴于此,本申请人作为本领域的先行者,尝试做出相关探索。
技术实现思路
[0006]本申请的首要目的在于解决上述问题至少之一而提供一种运动模式识别方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
[0007]为满足本申请的各个目的,本申请采用如下技术方案:
[0008]适应本申请的目的之一而提出的一种运动模式识别方法,包括如下步骤:
[0009]获取直播视频流中的当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息;
[0010]采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;
[0011]采用预先训练至收敛状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;
[0012]采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式。
[0013]具体化的实施例中,获取直播视频流中的当前视频帧相对应的帧差信息图像,包括如下步骤:
[0014]从媒体服务器处理的直播视频流中获取非连续的两个视频帧,包括在先视频帧和当前视频帧;
[0015]生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息。
[0016]扩展的实施例中,获取直播视频流中的当前视频帧相对应的帧差信息图像的步骤之前,包括如下的训练过程:
[0017]获取由同一运动模式视频采样获得的两个样本视频帧作为训练样本,所述两个样本视频帧包括当前视频帧及其时序在先的在先视频帧,所述运动模式为舞蹈表演;
[0018]生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息;
[0019]采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;
[0020]采用处于训练状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;
[0021]采用处于训练状态的分类器将所述综合特征信息映射到分类空间,获得相应的分类标签;
[0022]基于所述训练样本相对应的监督标签计算所述分类标签的损失值,当该损失值达到预设阈值时,终止训练任务,否则调用下一训练样本实施迭代训练。
[0023]深化的实施例中,生成当前视频帧相对应的帧差信息图像,包括如下步骤:
[0024]计算在先视频帧与当前视频帧的像素级差值,获得当前视频帧相对应的第一帧差信息;
[0025]对第一帧差信息进行平滑滤波处理获得第二帧差信息以突出其中的边缘信息;
[0026]将当前视频帧与所述第二帧差信息进行点乘运算,获得综合了当前视频帧相对于所述在先视频帧的运动信息的运动模式显著图;
[0027]合并所述运动模式显著图与所述在先视频帧的灰度图构成帧差信息图像。
[0028]具体化的实施例中,采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式,包括如下步骤:
[0029]采用预设分类器将所述综合特征信息映射到分类空间,获得二值化分类结果;
[0030]根据所述分类结果,当该分类结果表征真值结果时,判定当前视频帧内人物图像处于特定运动模式;
[0031]当处于特定运动模式时,为提供所述直播视频流的直播间添加高光标签,提升该直播间在所述特定运动模式相对应的展示列表中的排序优先级。
[0032]扩展的实施例中,获取直播视频流中的当前视频帧相对应的帧差信息图像的步骤之前,包括如下的训练过程:
[0033]随机初始化两个所述的图像特征提取模型以待训练,其中一个图像特征提取模型作为训练目标,另一图像特征提取模型作为监督目标;
[0034]获取样本图片分为两路分别做随机数据增强处理,获得两个数据增强视图,所述样本图片为帧差信息图像;
[0035]将两个数据增强视图分别输入两个所述的图像特征提取模型的表示层进行表示
学习,获得两个相应的中间特征信息;
[0036]将两个相应的中间特征信息分别经两个图像特征提取模型的多层感知机提取语义信息,获得相应的两个图像特征信息;
[0037]根据所述监督目标的图像特征信息计算所述训练目标的图像特征信息的损失值,根据该损失值对所述训练目标实施梯度更新,迭代训练直至所述训练目标达致收敛状态。
[0038]适应本申请的目的之一而提供的一种运动模式识别装置,包括:帧差获取模块、表示学习模块、记忆梳理模块,以及分类判定模块,其中,所述帧差获取模块,用于获取直播视频流中的当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息;所述表示学习模块,用于采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;所述记忆梳理模块,用于采用预先训练至收敛状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;所述分类判定模块,用于采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式。
[0039]具体化的实施例中,所述帧差获取模块,包括:图像采样本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种运动模式识别方法,其特征在于,包括如下步骤:获取直播视频流中的当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于与其非连续的在先视频帧的运动信息;采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;采用预先训练至收敛状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;采用预设分类器将所述综合特征信息映射到分类空间,根据分类结果判定当前视频帧内人物图像的运动模式。2.根据权利要求1所述的运动模式识别方法,其特征在于,获取直播视频流中的当前视频帧相对应的帧差信息图像,包括如下步骤:从媒体服务器处理的直播视频流中获取非连续的两个视频帧,包括在先视频帧和当前视频帧;生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息。3.根据权利要求1所述的运动模式识别方法,其特征在于,获取直播视频流中的当前视频帧相对应的帧差信息图像的步骤之前,包括如下的训练过程:获取由同一运动模式视频采样获得的两个样本视频帧作为训练样本,所述两个样本视频帧包括当前视频帧及其时序在先的在先视频帧,所述运动模式为舞蹈表演;生成当前视频帧相对应的帧差信息图像,所述帧差信息图像包含当前视频帧的状态信息及当前视频帧相对于所述在先视频帧的运动信息;采用预先训练至收敛状态的图像特征提取模型对所述帧差信息图像进行表示学习,获得图像特征信息;采用处于训练状态的语义记忆模型对所述图像特征信息参考所述在先视频帧相对应的图像特征信息进行上下文梳理,获得综合特征信息;采用处于训练状态的分类器将所述综合特征信息映射到分类空间,获得相应的分类标签;基于所述训练样本相对应的监督标签计算所述分类标签的损失值,当该损失值达到预设阈值时,终止训练任务,否则调用下一训练样本实施迭代训练。4.根据权利要求2所述的运动模式识别方法,其特征在于,生成当前视频帧相对应的帧差信息图像,包括如下步骤:计算在先视频帧与当前视频帧的像素级差值,获得当前视频帧相对应的第一帧差信息;对第一帧差信息进行平滑滤波处理获得第二帧差信息以突出其中的边缘信息;将当前视频帧与所述第二帧差信息进行点乘运算,获得综合了当前视频帧相对于所述在先视频帧的运动信息的运动模式显著图;合并所述运动模式显著图与所述在先视频帧的灰度图构成帧差信息图像。5.根据权利要求1所述的运动模式识别方法,其特征在于,采用预设分类器将所述综合特征...
【专利技术属性】
技术研发人员:苏正航,陈增海,贺亮亮,
申请(专利权)人:广州方硅信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。