一种基于半监督变分自编码器的主动众包图像学习方法技术

技术编号：28943439 阅读：21 留言：0更新日期：2021-06-18 21:52

本发明专利技术公开了一种基于半监督变分自编码器的主动众包图像学习方法，具体为：获取图片集，随机抽选一定比例的图像，将其分发给网络上的标注者进行标注，获得众包标记；搭建基于半监督变分自编码器的众包学习网络模型；将数据集输入模型，构造损失函数；基于随机梯度下降，端到端地对模型进行训练；选择预测真实标记的熵最大的图像，查询真实标记；与上一轮迭代所使用的训练集组合，生成新的数据集，返回第三步，直到当前迭代次数到达阈值为止；删去模型重构部分和众包映射层部分，将网络的剩余部分作为分类器。本发明专利技术同时利用众包数据和无标记数据，降低数据的标注成本。并通过引入少量真实标记，来缓解模型对于噪声的过拟合，提高模型的泛化性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于半监督变分自编码器的主动众包图像学习方法
本专利技术涉及一种基于半监督变分自编码器的主动众包图像学习方法，属于图像标注

技术介绍
传统的监督学习需要大量的专家图像，需要比较高的标注成本。为了降低成本，人们提出了多种方法，比如众包学习、半监督学习和主动学习。众包学习的流程是首先发布标注任务在网络平台上，任何人都可以进行这个标注任务，所收集到的数据比专家标注噪声比例更多。为了解决众包中非专家标注者的不确定性，通常会让每张图像由多个标注者进行标注，即重复标注。如何利用这种具有噪声和重复标记的众包数据成为了众包学习的关键点。代表性的方式有从每张图像的多个标签集估计其真实标记的真实标记推断，其中最为简单的是Majority-voting，对每个标注者的可靠度进行建模的DS模型及其变种，使用EM式算法联合学习分类器模型和标注者噪声模型,使用预测模型来提高数据质量，与主动学习结合等。其中，尽管众包学习中的标签聚合方法可以与任何类型的机器学习算法结合使用，但与同样联合学习分类器本身的方法相比，它们是次优的。半监督学习通过引入大量的无标记数据，这些无标记数据和有标记数据是同分布的，通过无标记数据来对模型进行约束，缓解模型的过拟合，提高它的性能同时降低对专家标记数量的需求。不过，将众包学习和半监督学习结合起来的工作都没有考虑过引入少量的额外监督信息来缓解模型对于众包数据中噪声的拟合。主动学习则是通过某种指标或策略选择出无标记数据中最具有信息量的图像，之后询问专家这些图像的标记。将众包学习和主动学...

【技术保护点】
1.一种基于半监督变分自编码器的主动众包图像学习方法，其特征在于，包括如下步骤：/n步骤1，获取图像集

【技术特征摘要】
1.一种基于半监督变分自编码器的主动众包图像学习方法，其特征在于，包括如下步骤：
步骤1，获取图像集X，将图像集X按照预设比例随机划分为第一图像集和第二
图像集，将第一图像集分发给网络上的标注者进行标注，获得相应的众包
标记；
步骤2，搭建半监督众包学习网络模型，所述半监督众包学习网络模型包括半监督变分自编码器、众包映射层和主动学习框架；
步骤3，将第一图像集、第二图像集、众包标记、第三图像集和真实标记集作为训练集，输入半监督众包学习网络模型，基于训练集和网络参数
构造变分下界损失函数；第一次迭代时，和均为空集；
步骤4，基于随机梯度下降方法，端到端地对半监督众包学习网络模型进行训练，得到训练好的半监督众包学习网络模型；
步骤5，利用训练好的半监督众包学习网络模型对第二图像集中每幅图像的
真实标记概率进行预测，从第二图像集中选择真实标记概率预测值的熵最大的图
像，获取图像的真实标记；
步骤6，将图像加入第三图像集，将真实标记加入真实标记集，返回步骤
3，直到当前迭代次数达到阈值为止，得到最终的半监督众包学习网络模型；
步骤7，对最终的半监督众包学习网络模型，删掉重构部分和众包映射层部分，将剩余部分作为众包图像分类器；
步骤8，利用众包图像分类器对待标注图像进行标注，得到众包学习标记。

2.根据权利要求1所述基于半监督变分自编码器的主动众包图像学习方法，其特征在于，步骤2所述众包映射层，具体形式如下：

其中，表示第r个标注者的众包标记，表示第r个众包映射层，y表示真实
标记，，R为标注者的数量。

3.根据权利要求1所述基于半监督变分自编码器的主动众包图像学习方法，其特征在于，步骤3所...

【专利技术属性】
技术研发人员：李绍园，侍野，黄圣君，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人