时序动作提名的生成方法、装置、设备及存储介质制造方法及图纸

技术编号：23446446 阅读：13 留言：0更新日期：2020-02-28 20:27

本申请公开了一种时序动作提名的生成方法、装置、设备及存储介质，方法包括：获取视频中的多个视频帧；调用时序动作提名生成模型对多个视频帧进行预测处理，得到视频对应的时序边界置信图和动作完整度概率图，将时序边界置信图和动作完整度概率图进行融合，得到融合特征图；根据融合特征图输出视频的时序动作提名。由于基于稠密边界的两个时序边界置信图和动作完整度概率图是基于全局的提名级别信息(L*L维度)来对时序动作提名的边界进行预测，而非类似于BMN仅基于局部信息对时序动作提名的边界进行预测，因此在时序动作提名的生成任务中能够预测出较为准确的边界。

Generation method, device, device and storage medium of sequential action nomination

全部详细技术资料下载

【技术实现步骤摘要】
时序动作提名的生成方法、装置、设备及存储介质
本申请涉及机器学习领域，特别涉及一种时序动作提名的生成方法、装置、设备及存储介质。
技术介绍
时序动作提名的生成任务是指：给未裁剪的长视频生成一定数量的时序动作提名，一个时序动作提名即是一个可能包含动作片段的时序区间(从开始边界到结束边界)。高质量的时序动作提名应该具备几点特质：(1)灵活的时序长度；(2)精确的时序边界；(3)可靠的置信度分数。时序动作提名是动作检测、视频分析等各种任务的关键步骤。相关技术中采用基于边界的方法(boundary-basedmethods)来完成该生成任务。典型的基于边界的方法包括：用于时序动作提名生成的边界敏感网络(Boundary-SensitiveNetwork，BSN)和边界匹配网络(Boundary-MatchingNetwork，BMN)。BSN包括两个处理阶段：(1)定位时序边界，通过组合边界生成动作提名；(2)构造时序动作提名的特征，根据该特征预测对应时序动作提名的置信度。BMN将BSN改进为端到端(end-to-end)的方法。主要通过边界匹配层改进BSN的第二步，对所有的动作提名预测置信度。但是上述BMN仍然难以预测较高精度的边界。特别地，对视频中存在复杂动作、杂乱背景、边界模糊和时序跨度较大的动作的情况，BMN预测的边界精度较差。
技术实现思路
本申请实施例提供了一种时序动作提名的生成方法、装置、设备及存储介质，可以解决相关技术中的BMN在某些场景下预测的边界精度较差的问题。所述技术方案如下：>根据本申请的一个方面，提供了一种时序动作提名的生成方法，所述方法包括：获取视频中的多个视频帧；调用时序动作提名生成模型对所述多个视频帧进行预测处理，得到所述视频对应的时序边界置信图和动作完整度概率图，所述时序边界置信图用于预测时序动作提名的开始边界和结束边界，所述动作完整度概率图用于表征同一个时序动作提名的开始边界和结束边界的动作完整度概率；将所述时序边界置信图和所述动作完整度概率图进行融合，得到融合特征图；根据所述融合特征图输出所述视频的时序动作提名。根据本申请的一个方面，提供了一种时序动作提名的生成装置，所述装置包括：获取模块，用于获取视频中的多个视频帧；调用模块，用于调用时序动作提名生成模型对所述多个视频帧进行预测处理，得到所述视频对应的时序边界置信图和动作完整度概率图；所述时序边界置信图用于预测时序动作提名的开始边界和结束边界，所述动作完整度概率图用于表征同一个时序动作提名的开始边界和结束边界的动作完整度概率；融合模块，用于将所述时序边界置信图和所述动作完整度概率图进行融合，得到融合特征图；输出模块，用于根据所述融合特征图输出所述视频的时序动作提名。根据本申请的一个方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的时序动作提名的生成方法。根据本申请的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的时序动作提名的生成方法。本申请实施例至少存在如下有益效果:通过对视频中的多个视频帧进行预测处理，得到该视频对应的两个时序边界置信图和动作完整度概率图，将时序边界置信图和动作完整度概率图进行融合得到融合特征图，根据融合特征图输出视频的时序动作提名。由于基于稠密边界的融合特征图是在全局维度(L*L)对时序动作提名的边界进行预测，而非类似于BMN仅基于局部信息对时序动作提名的边界进行预测，因此在时序动作提名的生成任务中能够预测出较为准确的边界。附图说明为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1是本申请一个示意性实施例提供的视频分析系统的框图；图2是本申请另一个示意性实施例提供的时序动作提名的生成方法的流程图；图3是本申请另一个示意性实施例提供的时序动作提名的生成模型的原理示意图；图4是本申请另一个示意性实施例提供的时序动作提名的生成模型的结构框图；图5是本申请另一个示意性实施例提供的时序动作提名的生成模型的网络架构图；图6是本申请另一个示意性实施例提供的时序动作提名的生成方法的流程图；图7是本申请另一个示意性实施例提供的时序动作提名的生成方法的流程图；图8是本申请另一个示意性实施例提供的时序动作提名的生成方法的流程图；图9是本申请另一个示意性实施例提供的时序动作提名的生成方法的流程图；图10是本申请另一个示意性实施例提供的时序动作提名的生成模型的框图；图11是本申请另一个示意性实施例提供的时序动作提名的生成装置的框图；图12是本申请另一个示意性实施例提供的计算机设备的框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。首先对本申请涉及的若干个名词进行介绍：人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。计算机视觉技术(ComputerVision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等本文档来自技高网...

【技术保护点】
1.一种时序动作提名的生成方法，其特征在于，所述方法包括：/n获取视频中的多个视频帧；/n调用时序动作提名生成模型对所述多个视频帧进行预测处理，得到所述视频对应的时序边界置信图和动作完整度概率图，所述时序边界置信图用于预测时序动作提名的开始边界和结束边界，所述动作完整度概率图用于表征同一个时序动作提名的开始边界和结束边界的动作完整度概率；/n将所述时序边界置信图和所述动作完整度概率图进行融合，得到融合特征图；/n根据所述融合特征图输出所述视频的时序动作提名。/n

【技术特征摘要】
1.一种时序动作提名的生成方法，其特征在于，所述方法包括：
获取视频中的多个视频帧；
调用时序动作提名生成模型对所述多个视频帧进行预测处理，得到所述视频对应的时序边界置信图和动作完整度概率图，所述时序边界置信图用于预测时序动作提名的开始边界和结束边界，所述动作完整度概率图用于表征同一个时序动作提名的开始边界和结束边界的动作完整度概率；
将所述时序边界置信图和所述动作完整度概率图进行融合，得到融合特征图；
根据所述融合特征图输出所述视频的时序动作提名。

2.根据权利要求1所述的方法，其特征在于，所述时序动作提名生成模型包括：稠密边界时序动作生成器，所述稠密边界时序动作生成器包括：双流基网络、动作完整度回归模块和时序边界分类模块；
所述调用时序动作提名生成模型对所述多个视频帧进行预测处理，得到所述视频对应的时序边界置信图和动作完整度概率图，包括：
调用所述双流基网络对所述多个视频帧的视频特征进行处理，得到动作概率特征和双流特征；
调用所述动作完整度回归模块对所述动作概率特征进行第一预测处理，得到所述视频对应的所述动作完整度概率图；
调用所述时序边界分类模块对所述双流特征进行第二预测处理，得到所述视频对应的所述时序边界置信图。

3.根据权利要求2所述的方法，其特征在于，所述双流基网络包括：第一卷积层网络、第二卷积层网络、相加层、三个预测卷积层和平均层；
所述调用所述双流基网络对所述多个视频帧的视频特征进行处理，得到动作概率特征和双流特征，包括：
获取所述多个视频帧中每个视频帧的红绿蓝RGB特征和光流特征；
调用所述第一卷积层网络对所述视频帧的RGB特征进行卷积处理，得到空间特征；调用所述第二卷积层对所述视频帧的光流特征进行卷积处理，得到时间特征；
调用所述相加层将所述空间特征和所述时间特征进行元素和操作，得到双流特征；
调用所述三个预测卷积层对所述空间特征、所述时间特征和所述双流特征分别进行预测，得到与所述空间特征对应的第一动作概率、与所述时间特征对应的第二动作概率和与所述双流特征对应的第三动作概率；
调用所述平均层对所述第一动作概率、所述第二动作概率和所述第三动作概率进行平均，得到所述动作概率特征。

4.根据权利要求2所述的方法，其特征在于，所述动作完整度回归模块包括：第一动作提名特征生成层和动作卷积网络；
所述调用所述动作完整度回归模块对所述动作概率特征进行第一预测处理，得到所述视频对应的所述动作完整度概率图，包括：
调用所述第一动作提名特征生成层将所述动作概率特征转化为矩阵形式的第一特征图；
调用所述动作卷积网络对所述矩阵形式的第一特征图进行卷积处理，得到所述视频对应的...

【专利技术属性】
技术研发人员：李剑，林楚铭，王亚彪，汪铖杰，李季檩，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人