使用深度嵌入聚类的动作分类制造技术

技术编号:31734756 阅读:20 留言:0更新日期:2022-01-05 16:08
描述了一种通过应用深度嵌入聚类进行动作识别的系统。对于输入视频的各个图像帧,所述系统计算基于骨骼关节的位姿特征,所述位姿特征表示该图像帧中的人类的动作。执行所述位姿特征到嵌入动作空间中的非线性映射。执行所述动作的时间分类并获得基于分类姿势的标签的集合。基于分类姿势的标签的集合被用于控制机器的移动。机器的移动。机器的移动。

【技术实现步骤摘要】
【国外来华专利技术】使用深度嵌入聚类的动作分类
[0001]相关申请的交叉引用
[0002]本申请是2019年7月10日在美国提交的名称为“Action Classification Using Deep Embedded Clustering”的美国临时申请No.62/872,630的非临时申请,其全部内容通过引用并入本文。
[0003]专利技术背景
(1)

[0004]本专利技术涉及一种用于动作识别的系统,并且更具体地,涉及一种通过应用深度嵌入聚类来进行动作识别的系统。
[0005](2)相关技术描述
[0006]当前的无监督动作识别技术依赖于图像空间或位姿空间(pose space)中的聚类技术。动作识别技术可以分为两个类别:基于图像的和基于骨骼关节的。在基于图像的技术中,输入特征是根据被跟踪人员的视觉外观计算的,而在基于骨骼关节的技术中,输入特征是关节位置的关节星座(二维(2D)或三维(3D))(参见并入的参考文献列表中的参考文献No.1至No.5)。
[0007]在参考文献No.3中,Ofli等人利用一系列信息最丰富的关节来定义各个动作,所述关节捕获了不同人类动作的不变性。在各个实例中,他们基于各个动作的关节角度轨迹的均值和方差,将关节总数修减(prune down)为一个更小但信息丰富的子集。在给定关节之间的角速度的情况下,他们应用支持向量机(SVM)和K最近邻(KNN)来对动作进行分类。
[0008]Evangelidis等人定义了对相对关节位置进行编码的动作描述符(参见参考文献No.2)。在获得视图不变的骨骼表示后,他们使用fisher向量来对特征进行编码,并应用SVM分类器对动作进行分类。除了关节位置之外,Sung等人在应用层级最大熵马尔可夫模型来表示动作时,考虑了运动、手部位置和外观特征(参见参考文献No.1)。他们使用动态编程方法对两层图进行推理。
[0009]Yang等人(在参考文献No.4中)提出了基于视频帧内和跨视频帧的关节位置之间的差异的新的动作描述符,来定义本征关节特征,然后是非参数朴素贝叶斯最近邻分类器,以在动作之间进行判别。Wang等人将关节位置与深度数据结合起来,并构建了actionlet集成模型来捕获身体部位与环境之间的关系(参见参考文献No.6)。Wang等人解决了动作识别中的噪声和遮挡问题(参见参考文献No.7)。他们引入了基于随机占用模式(ROP)的特征,并使用稀疏编码进行稳健编码。
[0010]在参考文献No.5中,Xia等人利用来自动作深度序列的3D关节位置的直方图表示姿态。然后,他们使用线性判别分析(LDA)对这些特征进行投影,并将它们聚类成k个姿态视觉词。然后他们使用隐马尔可夫模型(HMM)对这些视觉词的时间相关性进行建模。他们的技术的新颖之处在于使用了球坐标系,这使得他们的技术视图不变。在参考文献No.8中,Yang等人将深度图投影到三个正交平面上,并使用高斯直方图(HOG)特征来表示动作。在参考文献No.10中,Liu等人提出了关节动作分组/建模并定义了具有如下两个子任务的非凸优化
问题;多任务学习和任务相关性发现。在参考文献No.9中,Xie等人提出了数据的非线性映射,使得嵌入空间中的动作高度可分离。基于视觉的动作识别受到建模信息不丰富信号(诸如背景或位姿信息不足)的影响。它们也容易受到身体部位的部分遮挡的影响。
[0011]因此,仍然需要通过将位姿特征映射到动作模式更可区分的嵌入动作空间中来提高动作识别性能的方法。

技术实现思路

[0012]本专利技术涉及一种用于动作识别的系统,并且更具体地,涉及一种通过应用深度嵌入聚类来进行动作识别的系统。所述系统包括非暂时性计算机可读介质和一个或更多个处理器,所述非暂时性计算机可读介质上编码有可执行指令,使得当执行所述可执行指令时,所述一个或更多个处理器执行多个操作。对于输入视频的各个图像帧,所述系统计算基于骨骼关节的位姿特征,所述位姿特征表示所述图像帧中的人类(human)的动作。执行所述位姿特征到嵌入动作空间中的非线性映射。执行所述动作的时间分类并获得基于分类姿势的标签的集合。基于所述基于分类姿势的标签的集合来控制机器的移动。
[0013]在另一方面,所述位姿估计技术是部分亲和字段(PAF)特征生成技术。
[0014]在另一方面,所述嵌入动作空间是循环神经网络(RNN)框架。
[0015]在另一方面,所述RNN框架包括:第一循环层,所述第一循环层对关节位置集之间的一阶相关性进行编码,以对所述动作进行建模;以及第二循环层,所述第二循环层对所述关节位置集之间的更高阶相关性进行编码。
[0016]在另一方面,时间分类是使用长短期记忆(LSTM)来执行的。
[0017]在另一方面,非线性映射是使用所述RNN框架中的深度嵌入聚类来执行的。
[0018]在另一方面,所述机器是自主车辆。
[0019]在另一方面,所述图像帧中的所述人类的所述动作包括在交通环境中指挥交通的人类的手势,并且所述基于分类姿势的标签的集合是基于指挥交通的所述人类的所述手势的,并且所述系统对通过所述交通环境的所述自主车辆的导航进行控制。
[0020]最后,本专利技术还包括计算机程序产品和计算机实现的方法。所述计算机程序产品包括被存储在非暂时性计算机可读介质上的计算机可读指令,所述计算机可读指令可以由具有一个或更多个处理器的计算机执行,使得在执行所述指令时,所述一个或更多个处理器执行本文列出的操作。另选地,计算机实现的方法包括使计算机执行这些指令并执行所得操作的动作。
附图说明
[0021]根据本专利技术的各个方面的以下详细描述,结合参考以下附图,本专利技术的目的、特征和优点将显而易见,在附图中:
[0022]图1是描绘了根据本公开的一些实施方式的用于动作识别的系统的部件的框图;
[0023]图2是根据本公开的一些实施方式的计算机程序产品的例示图;
[0024]图3是根据本公开的一些实施方式的用于按顺序建模的具有部分亲和字段(PAF)特征和循环神经网络(RNN)的动作表示的例示图;
[0025]图4是根据本公开的一些实施方式的具有深度循环嵌入聚类(DREC)的动作的无监
督学习的例示图;
[0026]图5是根据本公开的一些实施方式的使用长短期记忆(LSTM)对来自位姿或集群质心标签的时间序列的动作进行分类的例示图;
[0027]图6A是根据本公开的一些实施方式的具有发光二极管(LED)标记物(marker)的RGB数据和三维(3D)深度图的例示图;
[0028]图6B是根据本公开的一些实施方式的用于数据收集的摄像头设置的例示图;
[0029]图7是根据本公开的一些实施方式的具有LSTM和不具有LSTM的测试过程的例示图;
[0030]图8A是根据本公开的一些实施方式的例示了动作识别准确度的实验结果的曲线图;
[0031]图8B是根据本公开的一些实施方式的例示了位姿分类成动作的准确度的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于动作识别的系统,所述系统包括:非暂时性计算机可读介质和一个或更多个处理器,所述非暂时性计算机可读介质上编码有可执行指令,使得当执行所述可执行指令时,所述一个或更多个处理器执行以下操作:对于输入视频的各个图像帧,计算基于骨骼关节的位姿特征,所述位姿特征表示所述图像帧中的人类的动作;执行所述位姿特征到嵌入动作空间中的非线性映射;执行所述动作的时间分类并获得基于分类姿势的标签的集合;以及基于所述基于分类姿势的标签的集合来控制机器的移动。2.根据权利要求1所述的系统,其中,所述位姿估计技术是部分亲和字段(PAF)特征生成技术。3.根据权利要求1所述的系统,其中,所述嵌入动作空间是循环神经网络(RNN)框架。4.根据权利要求3所述的系统,其中,所述RNN框架包括:第一循环层,所述第一循环层对关节位置集之间的一阶相关性进行编码,以对所述动作进行建模;以及第二循环层,所述第二循环层对所述关节位置集之间的更高阶相关性进行编码。5.根据权利要求1所述的系统,其中,时间分类是使用长短期记忆(LSTM)来执行的。6.根据权利要求3所述的系统,其中,非线性映射是使用所述RNN框架中的深度嵌入聚类来执行的。7.一种用于动作识别的计算机实现的方法,所述方法包括以下动作:使一个或更多个处理器执行在非暂时性计算机可读介质上编码的指令,使得当执行所述指令时,所述一个或更多个处理器执行以下操作:对于输入视频的各个图像帧,计算基于骨骼关节的位姿特征,所述位姿特征表示所述图像帧中的人类的动作;执行所述位姿特征到嵌入动作空间中的非线性映射;执行所述动作的时间分类并获得基于分类姿势的标签的集合;以及基于所述基于分类姿势的标签的集合来控制机器的移动。8.根据权利要求7所述的方法,其中,所述位姿估计技术是部分亲和字段(PAF)特征生成技术。9.根据权利要求7所述的方法,其中,所述嵌入动作空间是循环神经网络(RNN)框架。10.根据权利要求9所述的方法,其中,所述RNN框架包括:第一循环层,所述第一循环层对关节位置集之间的一阶相关性进行...

【专利技术属性】
技术研发人员:A
申请(专利权)人:赫尔实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1