基于伪增益类别再平衡的半监督目标检测方法及平台技术

技术编号：34391401 阅读：23 留言：0更新日期：2022-08-03 21:20

本发明专利技术公开了一种基于伪增益类别再平衡的半监督目标检测方法及平台，所述方法包括：建立训练数据集S0，所述训练数据集S0包括：标注样本和若干未标注样本；基于所述标注样本进行监督学习，得到目标检测器M0；根据目标检测器M

全部详细技术资料下载

【技术实现步骤摘要】
基于伪增益类别再平衡的半监督目标检测方法及平台

[0001]本专利技术属于目标检测
，涉及一种基于伪增益类别再平衡的半监督目标检测方法及平台。

技术介绍

[0002]将基于深度学习的计算机视觉研究成果应用于生产数据处理逐渐成为大势所趋。网民规模的稳定增长与互联网商业模式的持续创新使得社交平台中的图片规模呈爆炸式增长，这些带丰富信息的数据集，能够帮助网络学习到可区别性的特征。其中，目标检测用于解决图像中目标的定位与分类问题，既能直接获取图像信息表层的语义信息，也可以分配给对应的下游任务进一步分析，如人脸聚类、场景识别等。目标检测算法通常分为单阶段或双阶段，区别在于是否将候选区的生成作为独立环节，但主流的检测算法大多面向监督学习，需要大量的人力标注数据以提升模型泛化性。
[0003]主动学习与半监督学习为数据标注引起的人力成本和性能束缚开出了良方。其中主动学习通过优先选择信息价值最高的原始样本进行标注，以尽可能少的标注样本量达到预期的模型性能，半监督学习采用少量的有标签数据和大量的无标签数据，对有标签数据继续套用监督学习范式，并逐步将无标签数据的信息传递给模型。
[0004]尽管主动学习与半监督学习是深度学习的重要支柱，但相关工具开发受到的重视程度却远不及相关的算法研究，现有的标注训练工具或系统没有充分将主动学习与半监督学习的优势结合。
[0005]此外，面临目标检测任务需求变化，待检测目标范围扩充，现有的主动学习方案未充分考虑对新增类实例的收集，当新增类别的数据收集不充分，新旧类别数据量悬...

【技术保护点】

【技术特征摘要】
1.一种基于伪增益类别再平衡的半监督目标检测方法，所述方法包括：建立训练数据集S0，所述训练数据集S0包括：标注样本和若干未标注样本；基于所述标注样本进行监督学习，得到目标检测器M0；根据目标检测器M
i
对训练数据集S
i
中未标注样本的推理结果，计算训练数据集S
i
中各未标注样本的伪增益分数，以对K个未标注样本进行人工标注后，得到训练数据集S
i+1
，其中所述目标检测器M
i
基于所述训练数据集S
i
对目标检测器M
i
‑1进行半监督训练得到，i为训练轮数；直至标注完所有未标注样本后，获取目标检测器M；基于所述目标检测器M对待检测图片进行目标检测。2.如权利要求1所述的方法，其特征在于，所述目标检测器M
i
基于所述训练数据集S
i
对目标检测器M
i
‑1进行半监督训练得到，包括：基于所述训练数据集S
i
中的标注数据，对所述目标检测器M
i
‑1进行监督训练，得到目标检测器M
′
i
‑1；复制所述目标检测器M
′
i
‑1，得到目标检测器与目标检测器目标检测器与目标检测器对所述训练数据集S
i
中每一未标注样本的弱数据增强版本与强数据增强版本分别进行前向计算；目标检测器通过指数移动平均方法，将训练后的参数传递给训练后的目标检测器以得到所述目标检测器M
i
。3.如权利要求1所述的方法，其特征在于，所述根据目标检测器M
i
对训练数据集S
i
中未标注样本的推理结果，计算训练数据集S
i
中各未标注样本的伪增益分数，包括：基于推理结果，计算训练数据集S
i
中未标注样本被选中并标注，为所述训练数据集S
i
带来的伪增益；针对训练数据集S
i
中任一未标注样本的推理结果，基于在各类别上的置信度，计算所述推理结果中各实例的熵；根据各实例的熵，计算未标注样本的熵不确定分数；基于所述伪增益与熵不确定分数，计算该未标注样本的伪增益分数。4.如权利要求3所述的方法，其特征在于，所述计算未标注样本的熵不确定...

【专利技术属性】
技术研发人员：宛思穆，马灿，王伟平，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人