一种类别增量行为识别模型构建方法及行为识别方法技术

技术编号:37179211 阅读:32 留言:0更新日期:2023-04-20 22:46
本发明专利技术公开了一种基于知识重要性的类别增量行为识别模型构建方法以及行为识别方法。本发明专利技术针对增量学习过程中灾难性遗忘和长尾数据集中类别不平衡的问题,首次提出了利用权重子集获得混合权重从而使教师模型自主识别重要性知识的判断方法,达到保留旧数据中的重要性知识,实现了在增量学习过程中,学生网络可以根据教师网络的判别效果自动更新自适应,从而在一定程度上缓解了灾难性遗忘问题;同时通过限制权重子集的范围,也解决了长尾数据集中类别不平衡的问题。中类别不平衡的问题。中类别不平衡的问题。

【技术实现步骤摘要】
一种类别增量行为识别模型构建方法及行为识别方法


[0001]本专利技术涉及人工智能领域,进一步涉及机器学习和行为识别领域,具体 涉及基于知识重要性的类别增量行为识别模型构建及行为识别方法。

技术介绍

[0002]传统的可穿戴行为识别主要采用固定识别模型,也就是利用已有的有标 签数据离线训练分类模型,并利用该分类模型对个体行为进行分类识别。这 类模型在很多方面都是固定的,比如划定的类别数等。但是在真实环境中, 人们面临的场景是动态的,随着时间的延续,遇到的类别是在不断增加的, 比如个体这段时间学会了跑步,过一段时间后又学会了游泳。如何在开放环 境中完成用户在不断学习、识别新的行为的过程中,保存对已学过的行为的 记忆是在行为识别领域的一个重要挑战。
[0003]增量学习是适应开放场景下动态变化的一种有效方法,其模型构建方式 类似于人类对新事物的学习适应能力。增量学习是指在学得模型后,当新的、 之前从没见过的训练数据出现时,模型仅需要对新数据的特征进行适度的更 新,而不必重新训练整个模型,并且先前学习到的有效信息不会遗忘。理想 情况下的增量学习应满足:无需存储旧数据;对旧知识有足够的稳定性;对 新知识有足够的可塑性。但是在目前的研究过程中,灾难性遗忘是增量学习 中仍未完全解决的一大难题。
[0004]现有技术针对类别增量的行为识别大多都没有充分利用增量过程中新 旧知识之间的互补关系,例如中国专利CN201810354381.1提出了一种基于 随机森林实现行为识别中类别增量的方法,但是该方法并没有很好的解决增 量中灾难性遗忘的问题;中国专利CN201911325203.7设计了一种应用在机 器人上的自适应学习方法,可以通过机器人自适应过程中实现行为识别;中 国专利CN201810102422.8采用多源数据融合和室内定位的方法实现行为识 别;中国专利CN112990280

A在图像分类问题上采用了类别增量的方法。 美国专利US2020302230

A1则是将类别增量学习应用到了目标检测领域上。 但是这些方法也都没有解决增量中灾难性遗忘的问题。
[0005]传统的基于知识蒸馏的方法在b
th
增量步骤中,使用上一步学到的参数初 始化模型,并添加新的输出节点,其中,全连接层的权重是随机初始化的。 之后,模型会在输入数据为新数据D
b
和一部分旧数据的情况下学会分别 新类,并同时保留对原有类别的判断能力,其中新数据D
b
来自新类C
b
,旧 数据来自旧类其中
[0006]传统的基于知识蒸馏的方法采用交叉熵损失(Cross

Entropy Loss)L
CE
和 知识蒸馏损失(Knowledge Distillation Loss)L
KD

[0007]然而,即便是采用了基于知识蒸馏和交叉熵损失技术,基于类别增量的 行为识别技术在实际应用中仍存在增量学习过程中产生灾难性遗忘的问题 等挑战。目前广泛采用的将蒸馏损失与交叉熵损失共同作为损失函数的方法 具有以下缺点:1.没有充分判断教师模型对旧知识的处理能力。2.由于增量 过程中新旧类存在类别不平衡的问题,可能会导
致模型对新数据的学习效果 特别好,而同时增加了对旧知识的遗忘程度。3.由于增量过程中新旧类之间 不仅存在差异,也存在一定的联系性,如何更有效的学习新知识也是当前亟 需解决的一个问题。
[0008]所以研究如何在增量过程中平衡新旧类、减少模型对旧知识的遗忘程度, 在学习新知识的同时从新旧类之间的联系上更好地学习新知识是有重要意 义和应用价值的。需要一种鲁棒性更高,能够在缓解灾难性遗忘的情况下学 习新知识并同时对新知识有较好的学习效果的模型。

技术实现思路

[0009]针对上述问题,本专利技术提供了一种基于知识重要性的类别增量行为识别 方法和系统,针对增量学习过程中灾难性遗忘和长尾数据集中类别不平衡的 问题,采用了一种使教师模型自主识别重要性知识的判断方法,达到保留旧 数据中的重要性知识,并由此动态调整对新旧知识的学习程度的目的;同时 也实现了解决长尾数据集中类别不平衡问题的效果,最终使模型能够在增量 学习的过程中通过获得旧知识中的重要性知识,达到比目前最先进的方法更 有效的缓解灾难性遗忘问题的效果。
[0010]一方面,本专利技术提供一种基于知识重要性的类别增量行为识别模型构 建方法,其特征在于,所述方法包括:
[0011]步骤(1)、获取适于进行增量学习并且经过训练的第一模型;
[0012]步骤(2)、对于原有数据{D1,

,D
b
‑1}中的每个样例,计算所述第一模 型对每个样例的预测值,对所述预测值进行校验,获得所述第一模型关于 每一类样例的判断准确度,并基于所述第一模型关于每一类样例的判断准 确度形成所述第一模型对原有数据{D1,

,D
b
‑1}的知识重要性因子β;
[0013]步骤(3)、基于所述知识重要性因子β构建损失函数,将所述损失函 数代入所述第一模型,根据目标增量类别数目,对所述第一模型进行类别 增量,作为第二模型。
[0014]在一种优选实现方式中,所述第一模型基于下式计算其对每个样例的 预测值:
[0015][0016]其中,T是超参数,表示为蒸馏的温度值;是中 的元素,表示所述第一模型对样例x进行预测时的该样 例属于各个类别的概率输出。
[0017]在另一种优选实现方式中,所述知识重要性因子β为: 其中,表示教师模型对每个样 例的预测值,代表在b
th
增量步骤中旧数据的类别数。
[0018]在另一种优选实现方式中,所述方法还包括对于基于样例所提取的特 征向量进
行余弦归一化。
[0019]在另一种优选实现方式中,所述损失函数为:
[0020]L(x,y)=(1

β)L
CE
(x,y)+βL
KD
(x),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0021]其中,L
CE
表示交叉熵损失、L
KD
表示知识蒸馏损失。
[0022]在另一种优选实现方式中,所述方法还包括对于任意样例,若所述第 一模型对其的预测值小于0,则将其预测值置为0。
[0023]在另一种优选实现方式中,每次进行类别增量后,重复步骤(2)

(3), 并且将上一循环中的第二模型作为第一模型。
[0024]根据本专利技术的另一方面,提供了一种利用所述方法构建的模型进行行 为识别的方法,包括:
[0025]将新样例数据代入所述第二模型进行行为识别,并且将新的样例数据 更新到所述原有数据中,并重复所述步骤(2)

(3)。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识重要性的类别增量行为识别模型构建方法,其特征在于,所述方法包括:步骤(1)、获取适于进行增量学习并且经过训练的第一模型;步骤(2)、对于原有数据{D1,

,D
b
‑1}中的每个样例,计算所述第一模型对每个样例的预测值,对所述预测值进行校验,获得所述第一模型关于每一类样例的判断准确度,并基于所述第一模型关于每一类样例的判断准确度形成所述第一模型对原有数据{D1,

,D
b
‑1}的知识重要性因子β;步骤(3)、基于所述知识重要性因子β构建损失函数,将所述损失函数代入所述第一模型,根据目标增量类别数目,对所述第一模型进行类别增量,作为第二模型。2.根据权利要求1所述的方法,其特征在于,所述第一模型基于下式计算其对每个样例的预测值:其中,T是超参数,表示为蒸馏的温度值;是中的元素,表示所述第一模型对样例x进行预测时的该样例属于各个类别的概率输出。3.根据权利要求2所述的方法,其特征在于,所述知识重要性因子β为:其中,表示第一模型对每个样例的预测值,代表在b
th
增量步骤中旧数据的类别数。4.根据权利要求1所述的方法,其特征在于,所述方法还包括对于基于样例所提取的特征向量进行余弦归一化。5.根据权利要求3所述的方法,其特征在于...

【专利技术属性】
技术研发人员:谷洋郭帅陈益强王记伟文世杰马媛
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1