当前位置: 首页 > 专利查询>中山大学专利>正文

无监督的动作迁移和发现方法、系统、设备和介质技术方案

技术编号:37051295 阅读:13 留言:0更新日期:2023-03-29 19:29
本发明专利技术公开了一种无监督的动作迁移和发现方法、系统、设备和介质,方法包括:获取无标签的目标数据集;构建分解动作流的卷积网络模型,对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作;构建完整动作流的卷积网络模型,用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作;分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习,使得模型能发现新的动作类型并学习到更精确的分解动作信息。本发明专利技术可以在无监督条件下完成动作识别任务,并利用迁移学习方法提高动作识别准确率和整体算法效率。算法效率。算法效率。

【技术实现步骤摘要】
无监督的动作迁移和发现方法、系统、设备和介质


[0001]本专利技术属于动作识别的
,具体涉及一种无监督的动作迁移和发现方法、系统、设备和介质。

技术介绍

[0002]无监督动作迁移旨在将已预训练好的网络应用在无监督的目标数据集中,完成动作识别这项任务,现有的技术包括有两个方面:(1)无监督动作识别。完全监督动作识别已经发展了很多年,对目前来说最具代表性意义的工作为双流网络,该双流网络包含帧卷积网络和光流卷积网络,给动作识别赋予了时序运动信息。现有技术中还探索并研究出了高效的3D卷积网络,实现了对空间位置和动作信息关系的建模。无监督动作识别则主要提出了一些自监督标注的方法,通过精心设计的无监督代理任务对模型预训练,再用目标数据集已有的标签对模型进行精细化训练。
[0003](2)无监督迁移学习。在迁移学习中,训练数据来自两个不同的域,即源域和目标域。迁移学习的主要任务是利用源数据集训练来提高目标数据集的模型性能。较为流行的迁移学习方法是无监督领域自适应UDA(unsupervised domain adaptation)。UDA 应用于有标注的源数据集和无标注的目标数据集,且源任务与目标任务一致(如动作类型一致)。大部分UDA工作专注于最小化领域差异。
[0004]在大型数据集下进行预训练得到的网络模型迁移到小数据集上,并只针对目标数据集做精细化完全监督训练,可以显著提高目标数据集上的动作识别性能(与随机初始化训练相比)。然而,在实际生活应用中,很难轻易得到用以精细化有监督训练的手动标签。无监督动作识别目前主要的工作都是自监督训练的方法,仍然需要利用有标注的数据进行全监督的精细化调整,无法将预训练模型直接迁移到无标注的目标数据集上使用。在迁移学习部分,传统UDA方法并不完全适用与无监督迁移学习,因为目标任务常常出现与源任务不一致。

技术实现思路

[0005]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种无监督的动作迁移和发现方法、系统、设备和介质,在无监督条件下完成动作识别任务,并利用迁移学习方法提高动作识别准确率和整体算法效率。
[0006]为了达到上述目的,本专利技术采用以下技术方案:第一方面,本专利技术提供了一种无监督的动作迁移和发现方法,包括下述步骤:获取无标签的目标数据集,对所述目标数据集为采集到的视频;构建分解动作与完整动作双向学习MUSIC模型,所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型;所述分解动作流的卷积网络模型是对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作;所述完整动作流的卷积网络模型是用聚类算法计
算出所有完整视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作;分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习,得到训练好的MUSIC模型;在相互学习过程中,给分解动作流和完整动作流之间添加完整性约束,使得完整动作的表达是由已被学习到的分解动作构造而成,并采用相似完整动作区分策略对相似性完整动作进行区分,所述相似完整动作区分策略是如果分解动作不同,则其所属的完整动作被划分到不同的类别中,最后引入分解动作对齐策略,使得分解动作流的卷积网络模型和完整动作流的卷积网络模型都学习共享的分解动作;利用学习好的MUSIC模型在无监督条件下完成动作识别任务。
[0007]作为优选的技术方案,所述分解动作流的卷积网络模型的动作学习包括分解动作流的聚类步骤和分解动作流的学习步骤;在分解动作流的聚类步骤中,提取全部视频切片的特征,并将全部视频切片的特征用聚类算法聚类成多个分解动作,得到分解动作特征集合A,所述分解动作特征集合A的提取方法如下所示:,,其中,N表示视频总数,是并集操作,表示第个视频的第个切片所提取到的分解动作特征,是第i个视频的第b帧到第b+l

1帧所构成的视频切片,表示分解动作流的卷积网络模型,表示分解动作流的卷积网络的参数,表示切片长度,是视频切片起始帧构成的集合,表示每隔帧对视频进行切片采样,表示第个视频的总帧数,则表示一个视频的总切片数量;用聚类算法对分解动作特征集合A做聚类,得到所有切片分解动作的伪标签集合和聚类中心集合,其中表示第个视频的第b个切片的伪标签,表示第个视频,,N表示视频总数,表示第b个切片,表示表示一个视频的总切片数量,T
i
表示第个视频的总帧数,δ表示第δ帧,表示第个聚类的聚类中心特征,表示分解动作聚类簇的下标序号,表示分解动作聚类簇的总数。
[0008]作为优选的技术方案,在分解动作流的学习步骤中,对所有视频都进行随机切片特征采样并计算每个切片特征的分类概率,计算公式如下:,其中,是第个视频第个切片的动作预测概率向量,表示的第列,即预测概率向量中对第个聚类簇的预测概率,表示深度学习网络训练得到的softmax参数,每次迭代会重置;是实数域[
]的矩阵;表示分解动作第个视频第个切片的特征向量;令表示所有切片的预测向量的集合,伪标签给第个切片提供了自监督信息,训练得到损失函数如下:,其中,是指示函数。
[0009]作为优选的技术方案,所述完整动作流的卷积网络模型的动作学习包括完整动作流的聚类步骤和完整动作流的学习步骤;在完整动作流的聚类步骤中,完整动作的特征提取如下:,,其中,表示第i个视频的完整特征,是任何类型的聚合函数,表示第i个视频第m个片段提取到的部分特征,表示第m个视频片段的起始帧,表示视频片段综述,是第i个视频的第帧到第帧构成的视频片段,l表示视频片段长度,示完整动作流的卷积网络,是完整动作流卷积网络的参数,并令V表示所有视频的完整动作特征集合;用聚类算法对完整动作特征集合V做聚类,得到所有视频完整动作的伪标签集合,其中表示第个视频的伪标签,表示第个视频,,N表示视频总数。
[0010]作为优选的技术方案,所述完整性约束的实现如下:,,其中,表示完整特征对各个聚类簇的预测概率向量,表示训练后得到的softmax参数且每次迭代重置。
[0011]作为优选的技术方案,所述相似完整动作区分策略具体为:通过最具代表性的分解动作来区分完整动作,所述代表性的分解动作由视频各个片段的分解动作预测概率取均值最大值而得,具体如下:,其中,是对最大值取下标的函数,表示对分解动作的预测概率,表示当前视频的片段总数;根据所述代表性的分解动作来给完整动作分类,即包含不同代表性分解动作的完
整动作,应该被识别为不同的动作类型并聚类到不同的簇中,具体来说,完整动作聚类集合如下:,其中,表示符合完整动作聚类集合公式条件下的一个子集,,,表示完整动作的聚类数量,;然后得到了一个新的完整动作聚类标签,表示第个视频的完整动作在中的聚类标签,最后,利用对进行训练,得损失函数如下:,其中,表示在应用相似完整动作区分策略后的聚类标签总数,表示视频 的完整动作特征被预测为动作的概率。
[0012]作为优选的技术方案,所述分解动作对齐策略具体为:强制分解动作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.无监督的动作迁移和发现方法,其特征在于,包括下述步骤:获取无标签的目标数据集,对所述目标数据集为采集到的视频;构建分解动作与完整动作双向学习MUSIC模型,所述MUSIC模型包括分解动作流的卷积网络模型和完整动作流的卷积网络模型;所述分解动作流的卷积网络模型是对所有视频都做切片处理,用聚类算法计算出所有切片的聚类中心作为切片动作的伪标签,并以这些伪标签学习视频切片表达的分解动作;所述完整动作流的卷积网络模型是用聚类算法计算出所有完整视频的聚类中心作为视频动作的伪标签,并以这些伪标签学习完整视频表达的完整动作;分解动作流的卷积网络模型和完整动作流的卷积网络模型相互学习,得到训练好的MUSIC模型;在相互学习过程中,给分解动作流和完整动作流之间添加完整性约束,使得完整动作的表达是由已被学习到的分解动作构造而成,并采用相似完整动作区分策略对相似性完整动作进行区分,所述相似完整动作区分策略是如果分解动作不同,则其所属的完整动作被划分到不同的类别中,最后引入分解动作对齐策略,使得分解动作流的卷积网络模型和完整动作流的卷积网络模型都学习共享的分解动作;利用学习好的MUSIC模型在无监督条件下完成动作识别任务。2.根据权利要求1所述的无监督的动作迁移和发现方法,其特征在于,所述分解动作流的卷积网络模型的动作学习包括分解动作流的聚类步骤和分解动作流的学习步骤;在分解动作流的聚类步骤中,提取全部视频切片的特征,并将全部视频切片的特征用聚类算法聚类成多个分解动作,得到分解动作特征集合A,所述分解动作特征集合A的提取方法如下所示:,,其中,N表示视频总数,是并集操作,表示第个视频的第个切片所提取到的分解动作特征,是第i个视频的第b帧到第b+l

1帧所构成的视频切片,表示分解动作流的卷积网络模型,表示分解动作流的卷积网络的参数,表示切片长度,是视频切片起始帧构成的集合,表示每隔帧对视频进行切片采样,表示第个视频的总帧数,则表示一个视频的总切片数量;用聚类算法对分解动作特征集合A做聚类,得到所有切片分解动作的伪标签集合和聚类中心集合,其中表示第个视频的第b个切片的伪标签,表示第个视频,,N表示视频总数,表示第b个切片,表示表示一个视频的总切片数量,T
i
表示第个视频的总帧数,δ表示第δ帧,表示第个聚类的聚类中心特征,表示分解动作聚类簇的下标序号,表示分解动作聚类簇的总数。3.根据权利要求2所述的无监督的动作迁移和发现方法,其特征在于,在分解动作流的
学习步骤中,对所有视频都进行随机切片特征采样并计算每个切片特征的分类概率,计算公式如下:,其中,是第个视频第个切片的动作预测概率向量,表示的第列,即预测概率向量中对第个聚类簇的预测概率,表示深度学习网络训练得到的softmax参数,每次迭代会重置;是实数域[]的矩阵;表示分解动作第个视频第个切片的特征向量;令表示所有切片的预测向量的集合,伪标签给第个切片提供了自监督信息,训练得到损失函数如下:,其中,是指示函数。4.根据权利要求1所述的无监督的动作迁移和发现方法,其特征在于,所述完整动作流的卷积网络模型的动作学习包括完整动作流的聚类步骤和完整动作流的学习步骤;在完整动作流的聚类步骤中,完整动作的特征提取如下:,,其中,表示第i个视频的完整特征,是任何类型的聚合函数,表示第i个视频第m个片段提取到的部分特征,表示第m个视频片段的起始帧,表示视频片段综述,是第i个视频的第帧到第帧构成的视频片段,l表示视频片段长度,示完整动作流的卷积网络,是完整动作流卷积网络的参数,并令V表示所有视频的完整动作特征集合;用聚类算法对完整动作特征集合V做聚类,得到所有视频完整动作的伪标签集合,其中表示第个视频的伪标签,表示第个视频, ,N表示视频总数。5.根据权利要求1所述的无监督的动作迁移和发现方法,其特征在于,所述完整性约束的实现...

【专利技术属性】
技术研发人员:张恺成陈泽林郑伟诗
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1