System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机视觉、视频理解方法,具体涉及应用于跨领域场景的多模型协同学习行为识别方法。
技术介绍
1、近十年来,随着视频数据量飞速增长,视频理解等相关产业蓬勃发展。这其中,视频行为识别技术以“人”作为视频数据核心,致力于运用算法自动地识别、理解人体行为,在智能安防、人机交互以及工业生产等领域应用广泛。截至目前,多数行为识别算法基于深度学习技术取得了优良的识别效果,在特定场景下能够基本满足实际应用要求。
2、然而,基于深度学习的行为识别技术往往基于大量视频数据进行监督学习来获得精度提升。这些算法在训练视频和实际应用视频处于同种数据分布时表现较好,而当面对光照、背景等存在差异的跨领域视频时,识别精度大幅下降。在传统监督学习模式中,工程人员需不断加入带人工标注的训练视频来提升跨域识别精度。但考虑到费时费力的视频标注工作,基于监督学习的行为识别方法难以实现算法的快速迭代更新。
3、基于此背景,无监督领域自适应的行为识别算法逐渐进入研究者们的视野,此类方法首先通过已经存在的带标签公开视频数据集(称为源域)训练行为识别模型,而后利用后续收集的无标注跨域视频数据(称为目标域)来辅助网络训练,最终实现目标域视频数据的精确识别。在整个流程中,带有领域差异的目标域视频数据均不带有人工标注,在实际应用中极大程度上提升了算法开发、迭代效率,更符合实际应用需求。
4、由于缺少目标域样本的标签信息,多数现有跨域行为识别方法利用伪标签技术来辅助分布对齐。在该技术中,算法不断将高置信度的目标域样本预测结果直接当作无标
5、(1)现有的伪标签评估方法大多直接依据源域模型输出的置信度信息来评选目标域伪标签集。然而,由于数据分布差异问题,目标域样本置信度普遍偏低,且还存在预测结果不稳定的现象。以上情况降低了目标域伪标签质量,在很大程度上影响跨域行为识别算法精度。
6、(2)现有跨域行为识别方法仅使用单一结构模型对跨域视频样本进行特征提取,跨域视频特征表征能力较弱,直接影响了跨域行为识别算法性能。尽管部分方法通过融合光流特征来进行特征增强,但耗时耗力的光流提取操作并不适用于实际应用场景。
7、由此,本申请主要基于无监督领域自适应相关技术,提出一种适用于跨领域场景的视频行为识别方法及其部署方案。
技术实现思路
1、专利技术目的:本专利技术目的是提供一种更优的跨域行为识别效果的应用于跨领域场景的多模型协同学习行为识别方法。
2、技术方案:本专利技术提供的应用于跨领域场景的多模型协同学习行为识别方法,包括如下步骤:
3、s1、模型预训练;
4、s2、输出伪标签集;
5、s3、模型更新,如果结束则进入下一步,如果没结束则返回,循环上述步骤;
6、s4、模型部署。
7、进一步地,所述步骤s1包括:所有源域带标签视频被送入行为识别模型进行监督学习,采用基于3d cnn和2d cnn的两种行为识别模型进行特征提取,所有源域视频使用间隔采样法采样n个视频帧,并分别送入两个网络使用标准交叉熵损失进行有监督训练,结束时,得两个预训练的源域模型。
8、进一步地,所述步骤s2包括:增加产生目标域伪标签的准确性,一方面通过融合历史预测信息来缓解目标域样本预测结果不稳定的现象;另一方面,还通过跨模型伪标签重组,充分利用不同结构模型的互补信息,进一步提升伪标签质量。
9、进一步地,模型级伪标签生成:在上一阶段的模型训练过程中,目标域视频也会随源域视频样本同步输入两个模型进行预测,所有目标域视频的历史预测信息将被有效记录,当采用2d cnn时,假设目标域视频vtj的历史预测被表示为其中ij表示2d cnn模型对目标域视频vtj的历史预测结果,里面的每个元素代表预测的类别分数,nj表示预测总次数,于是,所有目标域视频的历史预测信息可进一步表示为其中nt为目标域视频个数,挑选最优的伪标签集,
10、以历史预测中第一个预测信息为例,首先通过如下方式得到该次预测的类别信息:
11、
12、式中,表示的预测类别,δd(·)表示提取对应特征向量的第d维元素的值。依照相同方法,可得到视频vtj所有历史预测类别的集合,记为最终针对该视频,各类别的权重系数可通过下式获得:
13、
14、其中,代表视频vtj的类别预测权重,η(b,b)返回集合b中b元素出现的次数,d表示类别数量,nj为预测总次数,d为类别数量,在该过程中,为方便进行样本间的横向对比,得到的类别预测权重经过了归一化处理,最终,wj中最大元素所对应的索引被认为是目标域视频vtj的预测类别,当wj中最大元素不唯一时,则通过式3计算该样本的平均预测分数,并将最大值所对应的索引确定为预测类别,
15、
16、最终,视频vtj的伪标签及其对应的预测权重,可用如下两式表示:
17、
18、
19、式中,表示融合了历史预测信息的最终预测标签;swj表示预测类别所对应的预测权重,此外,为应对不同视频间类别权重相等的特殊情况,本申请还依据平均概率分数计算模型对vtj的平均熵值θj,平均信息熵θj反映了模型对该样本的不确定程度,也是进行伪标签筛选的重要参考指标:
20、
21、根据以上信息遍历所有目标域样本,则目标域视频集可被重新表示为其中j=0,1,...,nt,在生成当前模型的伪标签集时,将以类别为单位,每个类别生成k个目标域伪标签,挑选预测权重最大的样本赋予伪标签,当预测权重相同时,再挑选平均熵值较小的样本,最终生成包含k×d个目标域视频的模型级伪标签视频集m1,d为类别数,
22、对于3d cnn模型,使用相同的方法得出模型级伪标签集m2,后续m1与m2将通过类别级筛选,最终生成跨模型的伪标签集,进一步提升伪标签质量,
23、进一步地,跨模型伪标签集:从m1与m2中有选择性地抽取两个模型最擅长的目标域类别,进而组成跨模型伪标签集,产生高质量伪标签,
24、假设m1与m2中伪标签为τ的视频分别被表示为m1[τ]={vt1j},m2[τ]={vt2j},其中j=1,2,...,k,两个集合中视频对应的平均熵值集合分别表示为和本申请通过下式分别计算上述集合中所有元素的平均值,记为与
25、
26、
27、最终,生成的跨模型伪标签集中伪标签为τ的目标域视频集,将按照最小熵原则从m1和m2中自适应抽取,即:
28、
29、其中,m[τ]表示生成的跨模型伪标签集中,伪标签为τ视频集合,以此方法遍历所有目标域类别,可得到完整的跨模型伪标签集m={m[0],m[1],...,m[d]},m将加入后续阶段的模型更新中,此外本文档来自技高网...
【技术保护点】
1.一种应用于跨领域场景的多模型协同学习行为识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的应用于跨领域场景的多模型协同学习行为识别方法,其特征在于,所述步骤S1包括:所有源域带标签视频被送入行为识别模型进行监督学习,采用基于3D CNN和2D CNN的两种行为识别模型进行特征提取,所有源域视频使用间隔采样法采样N个视频帧,并分别送入两个网络使用标准交叉熵损失进行有监督训练,结束时,得两个预训练的源域模型。
3.根据权利要求2所述的应用于跨领域场景的多模型协同学习行为识别方法,其特征在于,所述步骤S2包括:增加产生目标域伪标签的准确性,一方面通过融合历史预测信息来缓解目标域样本预测结果不稳定的现象;另一方面,还通过跨模型伪标签重组,充分利用不同结构模型的互补信息,进一步提升伪标签质量。
4.根据权利要求3所述的应用于跨领域场景的多模型协同学习行为识别方法,其特征在于,模型级伪标签生成:在上一阶段的模型训练过程中,目标域视频也会随源域视频样本同步输入两个模型进行预测,所有目标域视频的历史预测信息将被有效记录,当采用2DCNN时,假设
5.根据权利要求4所述的应用于跨领域场景的多模型协同学习行为识别方法,其特征在于,跨模型伪标签集:从m1与m2中有选择性地抽取两个模型最擅长的目标域类别,进而组成跨模型伪标签集,产生高质量伪标签,
6.根据权利要求5所述的应用于跨领域场景的多模型协同学习行为识别方法,其特征在于,所述步骤S3包括:所有源域视频、目标域视频、当前阶段伪标签视频集m同时加入网络进行训练,包括模型自训练以及跨模型互蒸馏两个阶段。
7.根据权利要求6所述的应用于跨领域场景的多模型协同学习行为识别方法,其特征在于,首先,所有源域视频和带伪标签的目标域视频将利用交叉熵损失进行网络训练,假设2D CNN模型和3D CNN模型分别被表示为和,以模型为例,具体损失函数表达如下:
8.根据权利要求7所述的应用于跨领域场景的多模型协同学习行为识别方法,其特征在于,所述步骤S4包括:步骤S3结束时,将分别得到两个行为识别模型G2D与G3D,为了满足实际应用中实时处理的需要,本申请将充分利用各类推理加速技术减小模型推理速度,,两个经训练得到的模型文件将使用TensorRT进行PTQ量化,在此过程中,部分从源域数据集中挑选出的带标签视频数据将作为校准集,以确保量化后模型的识别精度,最终输出两个经序列化的int8模型文件。
...【技术特征摘要】
1.一种应用于跨领域场景的多模型协同学习行为识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的应用于跨领域场景的多模型协同学习行为识别方法,其特征在于,所述步骤s1包括:所有源域带标签视频被送入行为识别模型进行监督学习,采用基于3d cnn和2d cnn的两种行为识别模型进行特征提取,所有源域视频使用间隔采样法采样n个视频帧,并分别送入两个网络使用标准交叉熵损失进行有监督训练,结束时,得两个预训练的源域模型。
3.根据权利要求2所述的应用于跨领域场景的多模型协同学习行为识别方法,其特征在于,所述步骤s2包括:增加产生目标域伪标签的准确性,一方面通过融合历史预测信息来缓解目标域样本预测结果不稳定的现象;另一方面,还通过跨模型伪标签重组,充分利用不同结构模型的互补信息,进一步提升伪标签质量。
4.根据权利要求3所述的应用于跨领域场景的多模型协同学习行为识别方法,其特征在于,模型级伪标签生成:在上一阶段的模型训练过程中,目标域视频也会随源域视频样本同步输入两个模型进行预测,所有目标域视频的历史预测信息将被有效记录,当采用2dcnn时,假设目标域视频vtj的历史预测被表示为其中ij表示2d cnn模型对目标域视频vtj的历史预测结果,里面的每个元素代表预测的类别分数,nj表示预测总次数,于是,所有目标域视频的历史预测信息可进一步表示...
【专利技术属性】
技术研发人员:刘丹,李秋燕,包震伟,沈周立,彭爱,夏学敏,马致远,米金鹏,唐宋,
申请(专利权)人:上海理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。