本发明专利技术提供了一种基于正样本和无标签样本学习的图像语义分割方法,属于计算机视觉技术领域,其中方法包括:数据准备步骤、数据预处理步骤、深度卷积神经网络构建步骤、基于PU‑Learning的损失函数设计步骤、损失函数的优化学习步骤,迭代执行训练步骤直至所述图像语义分割模型的训练结果满足预定收敛条件。本发明专利技术采用深度神经网络提取待分割的图像特征,在此基础上,本发明专利技术设计了一种基于PU‑Learning的交叉熵损失函数,可以在只有部分像素级标注的情况下训练优化语义分割模型,本发明专利技术方案既可以端到端的训练优化语义分割模型,同时在一定程度上保留了像素级别的直接监督,在保证了良好的语义分割质量的同时,提升了数据的标注速度。
【技术实现步骤摘要】
一种基于PU-Learning的图像语义分割方法
本专利技术涉及计算机视觉
,具体为一种基于PU-Learning的图像语义分割方法。
技术介绍
随着大数据技术,第五代移动通信技术,物联网技术等技术的不断发展,图像、视频等多媒体资源的采集、汇聚和存储越来越方便,目前,在一些应用场景(如自动驾驶,医疗影像等)中,人们需要对所采集到的图像进行语义分割,图像语义分割是计算机视觉领域的一个经典问题,其目的是让计算机对图像中每个像素的类别进行预测,即给每个像素打上类别标签。现有的基于监督学习的图像分割技术中,人们往往需要为训练样本提供像素级的类别标注,即需要手动为图像中的每个像素点打上类别标签,统计数据表明,对一幅图像进行像素级标注的时间平均为15分钟,可见这个标注过程费时费力,代价不菲,为此,人们提出了一种基于弱监督的图像语义分割方法。该方法的训练样本不需要像素级标注,而只利用图像级标注的训练图像或参考图像进行语义分割,相比于其它系统需要对训练图像进行繁重的像素级标注而言,这种对图像的粗略标注会更快也会更容易获得,但是,因为没有准确的像素级标注作为模型学习的参考,使得这类弱监督语义分割问题非常具有挑战性,语义分割的质量难以保证。综上所述,兼顾语义分割质量和数据标注速度成为制约图像语义分割方法获得大数据支持、得到更进一步发展的重要问题。
技术实现思路
针对现有技术的不足,本专利技术提供了一种基于PU-Learning的图像语义分割方法,解决了
技术介绍
中提到的问题。为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于PU-Learning的图像语义分割方法,包括以下步骤:S1、数据准备,且待训练的图像数据库中,每一种类别的像素级图像标注都至少有一个;S2、接收图像,对所述图像进行数据预处理,进行减均值除以标准差的操作,控制样本的数值分布,且在样本不足的情况下,需要进行数据增广操作,包括对图片进行旋转一定角度、水平翻转、模糊噪声、多尺度缩放,最后把图像的宽高调整至相同的大小;S3、构建深度卷积神经网络,利用深度学习的全卷积神经网络作为语义分割的模型,使用全卷积神经网络进行预测,通过多个卷积层/非线性激活层/池化层学习中间表示的参数,得到训练图像的语义分割的初步结果;S4、损失函数的设计,其中:yi,pi分别表示该像素点被分到第i类的的真实概率和预测概率,真实概率可依据像素点的标签获得,预测概率可将语义分割模型的输出经过softmax函数获得,γ和α分别是两个超参数,其中γ的值一般设置为2,α的值应小于负样本占全部样本的比例,可以在实际应用中调节。k表示有标签样本的类别共有k个;S5、损失函数的优化学习,依据所述初步结果,利用损失函数计算本初步结果与对应图像标注的误差,采用随机梯度下降的方法对所述语义分割模型的模型参数进行修正调优;S6、迭代执行所述训练,直至所述语义分割模型的训练结果满足预定收敛条件。进一步地,所述S1至S5为训练步骤,迭代执行S1至S5训练步骤,得到经训练的语义分割模型。本专利技术与现有技术相比具备以下有益效果:(1)、本专利技术基于交叉熵损失函数以及PU-Learning,设计了一种新颖的损失函数,可以在只有部分像素级标注的情况下训练优化语义分割模型。(2)、本专利技术方案既可以端到端的训练优化语义分割模型,同时在一定程度上保留了像素级别的直接监督,在保证了良好的语义分割质量的同时,提升了数据的标注速度。在图像语义分割领域快速发展的现状下。(3)、本专利技术适用于现有的各种深度图像语义分割模型,因而可以被用于大规模的图像语义分割场景。附图说明图1为本专利技术的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种基于PU-Learning的图像语义分割方法,包括以下步骤:S1、数据准备,且待训练的图像数据库中,每一种类别的像素级图像标注都至少有一个(需要统一地将无标签样本的标签设置为0,其他不同类别样本的标签从1开始标注);S2、接收图像,对图像进行数据预处理,进行减均值除以标准差的操作,控制样本的数值分布,且在样本不足的情况下,需要进行数据增广操作,包括对图片进行旋转一定角度、水平翻转、模糊噪声、多尺度缩放,最后把图像的宽高调整至相同的大小;S3、构建深度卷积神经网络,利用深度学习的全卷积神经网络作为语义分割的模型,使用全卷积神经网络进行预测,通过多个卷积层/非线性激活层/池化层学习中间表示的参数,得到训练图像的语义分割的初步结果;S4、损失函数的设计,其中:yi,pi分别表示该像素点被分到第i类的的真实概率和预测概率,真实概率可依据像素点的标签获得,预测概率可将语义分割模型的输出经过softmax函数获得,γ和α分别是两个超参数,其中γ的值一般设置为2,α的值应小于负样本占全部样本的比例,可以在实际应用中调节。k表示有标签样本的类别共有k个;S5、损失函数的优化学习,依据初步结果,利用损失函数计算本初步结果与对应图像标注的误差,采用随机梯度下降的方法对语义分割模型的模型参数进行修正调优;S6、迭代执行训练,直至语义分割模型的训练结果满足预定收敛条件。S1至S5为训练步骤,迭代执行S1至S5训练步骤,得到经训练的语义分割模型,具体地,训练步骤迭代执行直至语义分割模型的训练结果满足预定收敛条件。例如,预定收敛条件为达到预定迭代次数,当迭代次数达到预定迭代次数时,迭代过程结束。工作时,在S1至S6的步骤中,对于S3,以FCN全卷积网络为例,具体示例如下:1.输入层2.<=1卷积层1_1(3*3*64)3.<=2非线性激活ReLU层4.<=3卷积层1_2(3*3*64)5.<=4非线性激活ReLU层6.<=5池化层(3*3/2)7.<=6卷积层2_1(3*3*128)8.<=7非线性激活ReLU层9.<=8卷积层2_2(3*3*128)10.<=9非线性激活ReLU层11.<=10池化层(3*3/2)12.<=11卷积层3_1(3*3*256)13.<=12非线性激活ReLU层14.<=13卷积层3_2(3*3*256)15.<=14非线性激活ReLU层16.<=15卷积层3_3(3*3*256)17.<=16非线性激活ReLU层18.<=17池化层(3*3/2)19.<=18卷积层4_1(3*3*5本文档来自技高网...
【技术保护点】
1.一种基于PU-Learning的图像语义分割方法,其特征在于:包括以下步骤:/nS1、数据准备,且待训练的图像数据库中,每一种类别的像素级图像标注都至少有一个;/nS2、接收图像,对所述图像进行数据预处理,进行减均值除以标准差的操作,控制样本的数值分布,且在样本不足的情况下,需要进行数据增广操作,包括对图片进行旋转一定角度、水平翻转、模糊噪声、多尺度缩放,最后把图像的宽高调整至相同的大小;/nS3、构建深度卷积神经网络,利用深度学习的全卷积神经网络作为语义分割的模型,使用全卷积神经网络进行预测,通过多个卷积层/非线性激活层/池化层学习中间表示的参数,得到训练图像的语义分割的初步结果;/nS4、损失函数的设计,
【技术特征摘要】
1.一种基于PU-Learning的图像语义分割方法,其特征在于:包括以下步骤:
S1、数据准备,且待训练的图像数据库中,每一种类别的像素级图像标注都至少有一个;
S2、接收图像,对所述图像进行数据预处理,进行减均值除以标准差的操作,控制样本的数值分布,且在样本不足的情况下,需要进行数据增广操作,包括对图片进行旋转一定角度、水平翻转、模糊噪声、多尺度缩放,最后把图像的宽高调整至相同的大小;
S3、构建深度卷积神经网络,利用深度学习的全卷积神经网络作为语义分割的模型,使用全卷积神经网络进行预测,通过多个卷积层/非线性激活层/池化层学习中间表示的参数,得到训练图像的语义分割的初步结果;
S4、损失函数的设计,其中:yi,pi分别表示该像素点被分到第i类的...
【专利技术属性】
技术研发人员:汪聪,浦剑,
申请(专利权)人:复旦大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。