System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于模式识别,具体涉及一种面向视频的自进化目标识别方法。
技术介绍
1、随着视频监控技术的迅猛发展,对于面向视频目标识别的需求日益增长。视频监控系统广泛应用于城市安防、智能交通、工业生产等领域,以实时捕捉和分析视频中的(运动)目标,为决策制定和事件响应提供关键信息。
2、传统的视频目标识别方法主要依赖于静态数据集进行离线训练,对于系统运行过程中新出现的目标缺乏有效应对机制。然而,在实际应用中,监控场景的变化、新的目标类别的出现以及环境条件的波动可能导致现有分类模型的性能下降,因为这些变化往往超出了模型先前训练时的考虑范围。
3、为了解决这一问题,自进化学习技术逐渐引起关注。该技术通过不断地从新数据中学习,动态地调整模型参数,从而使模型能够适应不断变化的场景。面向视频的自进化目标识别技术就是在这一背景下应运而生的,旨在提高视频监控系统对新(运动)目标的自适应能力,减轻分类模型遗忘问题,同时保持对已知目标的准确分类。
4、在这样的背景下,开发一种面向视频的自进化目标识别技术变得至关重要。目前,传统的基于内存管理策略的自进化学习技术,无法满足视频监控系统对于实时性,异或是由于过强的正则化减轻分类模型遗忘的同时但又导致分类模型很难学习新任务,这些方法所存在的问题导致其在工程应用上不切实际。
技术实现思路
1、为了克服现有技术的不足,本专利技术提供了一种面向视频的自进化目标识别方法,首先利用分类模型实时响应服务,然后再利用标注后的临时缓冲区对分类
2、本专利技术解决其技术问题所采用的技术方案如下:
3、步骤1:将输入视频转化为视频帧,运用vibe检测算法提取运动目标的检测框;如果存在运动目标,则将检测框从视频帧中裁剪出来并缩放为224*224大小的待处理的预分类图像;
4、步骤2:将预处理的待分类图像送入分类模型中,然后通过分类模型的前向传播预测出最终类别,并为运动目标的检测框打上预测的类别标签返回结果;由于自进化技术中存在未见过的类别或不同域的同标签样本,模型存在预测错误的情况,因此,再将步骤1的待处理的预分类图像转存至未标注标签的临时缓冲区中,用于后续人工标注的自进化训练。
5、步骤3:当未标注标签的临时缓冲区中图片数量累积超过n张后,对该缓冲区中的图片进行人工标注,并划分为m个批次,m<n,m为新类批次;然后首先拷贝在线预测的分类模型的副本至本地,接着将人工标注过的样本逐批次地对分类模型副本进行更新优化;
6、步骤4:设步骤3中的每个新类批次为bi,并从内存缓冲区中检索出内存批次样本然后对批次bi和进行数据增强操作,分别得到bi和bcat;所述内存缓冲区指已标注的图片且缓存部分历史图片;所述数据增强包括随机裁剪和随机翻转;
7、步骤5:用分类模型副本中的特征提取网络fθ分别提取批次bi的原始特征ei和批次bcat的原始特征ecat,随后将特征和特征分别送入transformer encoder layer做批次注意力机制上的非线性交叉融合,得到虚拟特征和
8、步骤6:和进行拼接得到ei,和进行拼接得到ecat,对原始特征和虚拟特征执行共享分类器即经过同一分类层;然后分别计算特征ei和ecat在基于logit mask下的交叉熵损失和
9、步骤7:筛选出内存批次样本的旧类样本-即不属于当前任务标签集合的样本作为新的批次bold,并用特征提取网络fθ提取对应的特征eold;
10、步骤8:利用eold与对应标签的累积更新的类原型做特征蒸馏,并得到对应的损失如果不存在对应标签的累积更新的类原型,则设置并等待步骤11更新后,再进行特征蒸馏;
11、步骤9:将上述步骤的损失进行加权得到最终损失并进行随机梯度下降更新模型;
12、步骤10:最后利用蓄水池更新算法,将新类批次样本bi更新到内存缓冲区中;
13、步骤11:如果当前新类批次为最后一个批次,则利用内存缓冲区中的所有样本来更新每个相应类别的类原型;否则,跳过此步骤;
14、步骤12:保持步骤2中的分类模型实时对检测出的运动目标进行类别预测;然后用标注的运动目标批次数据,对分类模型副本重复步骤2至步骤10的训练更新,直至处理完所有标注的批次,随后将该模型副本更新至步骤2中的分类模型;通过这种缓解类别不平衡的自进化学习技术,极大地保留了分类模型的先前学习到的知识,还保证了它能够学习区分新类别。
15、进一步地,所述步骤5具体为:
16、步骤5-1:设用特征提取网络fθ提取的批次特征为其中d为特征维度;
17、步骤5-2:对当前提取的特征e进行维度扩展操作,使得transformer encoderlayer的注意力机制能够运用至当前特征的批次维度上;其操作公式化表示为:
18、
19、步骤5-3:将步骤5-2中扩展维度后的特征送入单层的transformer encoderlayer执行批次维度上的注意力机制,使得特征在批次内进行交叉融合;其操作公式化表示为:
20、
21、步骤5-4:对进行维度压缩操作,其操作公式化表示为:
22、
23、进一步地,所述步骤6中,基于logit mask的交叉熵损失的公式化表述为:
24、
25、其中,特征e对应的标签为ccur为标签y的唯一集合,wc为全连接层中类别c的权重,为全连接层中类别yi的权重,biasc为全连接层中类别c的偏置项,为全连接层中类别yi的偏置项;b为当前批次的大小;ei表示第i个样本的特征。
26、进一步地,所述步骤8的特征蒸馏的公式化表述为:
27、
28、其中,protoc是类别c的累积更新类原型,是类别yi的累积更新类原型,在计算余弦相似度之前会对特征分别做一次余弦归一化;yold表示特征eold中每个旧类样本特征所对应的标签。
29、进一步地,所述步骤11中更新对应的类原型的具体步骤为:
30、步骤11-1:首先计算内存缓冲区每个类别当前的类均值,其公式化表示为:
31、
32、其中,1{·}是指示函数,当且仅当括号内的条件满足时值为1;在内存缓冲区中标签为类别c的样本数量有mc个;μc表示这mc个样本所计算出的类别mc均值特征;(xi,yi)表示内存缓冲区中的每个样本的图像和标签;
33、步骤11-2:将内存的类均值累加至类原型中,其公式化表示为:
34、
35、其中,protoc是类别c的累积更新类原型,nc是截止目前protoc由多少个样本特征计算的;
36、步骤11-3:更新计数数组本文档来自技高网...
【技术保护点】
1.一种面向视频的自进化目标识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种面向视频的自进化目标识别方法,其特征在于,所述步骤5具体为:
3.根据权利要求2所述的一种面向视频的自进化目标识别方法,其特征在于,所述步骤6中,基于logit mask的交叉熵损失的公式化表述为:
4.根据权利要求3所述的一种面向视频的自进化目标识别方法,其特征在于,所述步骤8的特征蒸馏的公式化表述为:
5.根据权利要求4所述的一种面向视频的自进化目标识别方法,其特征在于,所述步骤11中更新对应的类原型的具体步骤为:
【技术特征摘要】
1.一种面向视频的自进化目标识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种面向视频的自进化目标识别方法,其特征在于,所述步骤5具体为:
3.根据权利要求2所述的一种面向视频的自进化目标识别方法,其特征在于,所述步骤6中,基于logit m...
【专利技术属性】
技术研发人员:梁国强,陈肇杰,张世周,苏仕斌,胡嘉豪,张艳宁,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。