基于深度卷积特征和语义近邻的多标签图像补全方法技术

技术编号:23986751 阅读:33 留言:0更新日期:2020-04-29 13:55
本发明专利技术公开了一种基于深度卷积特征和语义近邻的多标签图像补全方法,首先,通过改进卷积神经网络的损失函数,构建一个融合深度卷积特征和语义近邻的卷积神经网络(CNN‑KNN)模型,然后,将CNN的预分类结果输入到语义近邻算法中利用图像标注词间的依赖或共生关系对网络模型输出结果进行改善,最后,优化多标签重要性排序算法,将改善的结果按此算法排序并分配与图像内容表述一致的标注词预测图像的最终标注结果。采用基准数据集iaprtc12进行实验,验证了该方法能有效地补全图像标签语义。

Multi label image completion method based on deep convolution feature and semantic nearest neighbor

【技术实现步骤摘要】
基于深度卷积特征和语义近邻的多标签图像补全方法
本文专利技术一种基于深度卷积特征和语义近邻的多标签图像补全方法,属于图像处理领域。
技术介绍
随着移动互联网的迅猛发展与智能移动设备的不断普及,图像数据产生和获取的成本逐渐降低,基于图像标注的算法也获得了蓬勃发展。在传统的图像标注算法中,每个样本只标注一个标签。然而在一些实际应用中,图像往往包含复杂多样的语义信息,加上图像的视觉特征与人类图像识别之间存在着巨大语义鸿沟,使得多标签分类比传统的分类问题更为复杂。近年来,在图像标注领域出现了大量的多标签标注算法,如:组合分类器链(ECC)算法、Binaryrelevance(BR)算法、多类标注算法(SupervisedMulticlassLabeling,SML)、多标签SVM等。尽管这些多标签学习算法在某些领域有着较好的应用,但也存在着一些不足:如待定参数过多、标签不完备和泛化能力差。其中,标签不完备对图像标注和检索影响尤为明显,主要表现在用户只能获取到与关键词匹配的部分图像。在图像数量不大的情况下这种不足表现的不是很明显,但是在图像数量爆炸式增长、图像来源不断扩大、图像种类日益繁多的现实条件下,这种不足尤为明显。因此,完备的图像文本标签在图像标注和图像检索领域起着关键性的作用,如何快速有效地提高图像标签的完备性,成为大数据时代图像自动标注研究的新挑战。随着大数据时代的到来,含更多隐含层的深度卷积神经网络具有更复杂的网络结构,与传统机器学习方法相比具有更强大的特征学习和特征表达能力。使用深度学习算法训练的卷积神经网络模型,自提出以来就在计算机视觉领域的多个大规模识别任务上取得了令人瞩目的成绩。卷积神经网络(ConvolutionalNeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeuralNetworks),是深度学习(deeplearning)的代表算法之一。现在,CNN已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,从图像像素中提取图像特征,这种处理方式更加接近人类大脑视觉系统的处理方式。另外,卷积神经网络的权值共享属性和池化层使网络需要训练的参数大大减小,简化了网络模型,提高了训练的效率,因而在图像多标签标注领域得到了更为广泛的应用。K最近邻(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。由于KNN方法主要依靠周围有限邻近的样本,而不是靠判别类域的方法来确定所属类别,因此对于标签之间的依赖或共生来说,KNN方法较其他方法更为适合。因此,基于卷积神经网络的特征提取,融合KNN标签间的依赖共生关系,结合多标签重要性排序算法,在多标签图像补全问题上具有重要的研究价值。
技术实现思路
针对社会化图像初始标注不完备、不准确的问题,通过融合深度卷积特征和语义近邻的方法实现社会化图像的标签补全工作,解决了由于标签不完备导致基于图像的检索结果不完整问题。本专利技术首先,在AlexNex通用模型基础上,改进AlexNex模型参数并设计多标签损失函数,同时基于K最近邻(k-NearestNeighbor,KNN)构建语义近邻模型;接着,融合前面构建的两个模型构建融合深度卷积特征和语义近邻的CNN-KNN模型;然后,将等补全社会化图像输入到CNN-KNN,模型输出的标签集依次经带权无向图邻接矩阵滤噪算法、多标签重要性排序算法过滤噪声标签后输出候选标签集;最后,从候选标签集中选择排序前5的标签作为最终补全结果。一种基于深度卷积特征和语义近邻的多标签图像补全方法,其内容包括改进AlexNex模型参数,设计AlexNex模型的损失函数;构建基于KNN的语义近邻模型;融合AlexNex和KNN构建CNN-KNN模型;优化多标签重要性排序算法。1、在AlexNex通用模型基础上,改进AlexNex模型参数并设计多标签损失函数(1)所有卷积层中卷积核的间隔与池化间隔都设置为2,同时加入一个动量项为0.9的异步随机梯度,并将网络初始的学习速率设为0.001;(2)设计多标签损失函数,假设每个标签之间都是相互独立的,那么这些标签可以组成一个标签向量y∈R1×c,其中c为图像集中标签的总数,R∈{0,1},yj=1表示图像包含第j个标签,yj=0表示图像不包含第j个标签,通过正则化y得到图像xi与标签j的概率设计损失函数其中n为图像数量;2、构建基于KNN的语义近邻模型(1)划分语义组构建语义近邻,将每个标签包含的所有图像看成一个语义组,所有标签对应的语义组集表示为其中wi表示标签,表示与标签wi关联的所有图像,(2)将图像补全预测问题转化为求后验概率问题,定义条件概率p(I|wi)表示标签wi和图像I的概率关系,由概率转换公式可知,图像标签的预测值为其中p(wi)和p(I)为先验概率;(3)构建待补全图像的邻域图像集,令表示标签wi对应的语义组,对于待标注图像I,从Gi中选出与图像I视觉相似度最高的k幅图像得到局部子集其中k为正整数,当所有语义组的局部子集都获取后,合并子集,最终得到待标注图像I的邻域图像集(4)对贡献值排序完成标签预测,对于给定标签它与图像I构成的概率关系表示为其中表示图像Ii对于图像I的贡献值,p(wi|Ii)∈{0,1}用于控制在图像Ii中标签需要增加的贡献值。3、带权无向图的邻接矩阵滤噪(1)定义候选标签间关系,标签与标签之间的关系表示为Rn×n:label×label,其中label为候选标签列表,Rn×n(ci)={w1,w2,w3},其中ci∈label,n为候选标签数量,wi为标签来源权重的平均值,其中cnn输出权重为4,knn输出权重为3,原标注权重为3;(2)确定多标签候选比,在邻接矩阵Rn×n中,对于第i个标签,在多标签中的候选比为其中Hi表示第i标签在所有标签中的候选比,wij表示邻接矩阵中第i个标签的权重;(3)根据固定阈值过滤掉候选比小的标签,选取的标签作为候选标签,其中为固定阈值,取值为0.4。4、多标签重要性排序并确定最终补全结果(1)使用数据集中图像与标签的关系,构建标签关系矩阵,对其进行非负矩阵分解,得到标签的社团关系矩阵,令Wn×k表示标签节点所属社团关系矩阵,对于第i个标签节点,多标签社团的结点贡献比表示为其中n表示标签总数,Ci表示标签对构成各个社团的支持力度,wij表示标签所属社团的关系矩阵中第i个标签的贡献,k表示社团个数;(2)根据标签间的社团关系及各个标签的重要性程度对候选标签排序,从排序结果选择排序前5的标签作为最终标签结果。5、本专利技术的有益效果对于社会化图像,由于标注者情感、文化背景等原因导致互联网上的图像存在标签不完备、不准确的问题。社会化图像标签不完备致使基于图像的检索结果不全面,不完整,甚至出现检索错误的情形,这往往给图像检索者带来困本文档来自技高网
...

【技术保护点】
1.一种基于深度卷积特征和语义近邻的多标签图像补全方法,其特征是包括下述内容:/n(1)在AlexNex通用模型基础上,改进AlexNex模型参数并设计多标签损失函数;/n(2)基于K最近邻构建语义近邻模型;/n(3)融合上述两个模型构建的模型构建融合深度卷积特征和语义近邻的CNN-KNN模型,将等补全社会化图像输入到CNN-KNN,模型输出候选标签集经带权无向图邻接矩阵滤噪算法过滤噪声标签,输出粗选标签集;/n(4)利用CNN-KNN的多标签重要性排序算法对第3步输出的粗选标签集再次过滤噪声标签,并确定最终补全结果。/n

【技术特征摘要】
1.一种基于深度卷积特征和语义近邻的多标签图像补全方法,其特征是包括下述内容:
(1)在AlexNex通用模型基础上,改进AlexNex模型参数并设计多标签损失函数;
(2)基于K最近邻构建语义近邻模型;
(3)融合上述两个模型构建的模型构建融合深度卷积特征和语义近邻的CNN-KNN模型,将等补全社会化图像输入到CNN-KNN,模型输出候选标签集经带权无向图邻接矩阵滤噪算法过滤噪声标签,输出粗选标签集;
(4)利用CNN-KNN的多标签重要性排序算法对第3步输出的粗选标签集再次过滤噪声标签,并确定最终补全结果。


2.根据权利要求1所述一种基于深度卷积特征和语义近邻的多标签图像补全方法,其特征是改进AlexNex模型参数并设计多标签损失函数步骤是:
步骤1:所有卷积层中卷积核的间隔与池化间隔都设置为2,同时加入一个动量项为0.9的异步随机梯度,并将网络初始的学习速率设为0.001;
步骤2:设计多标签损失函数,假设每个标签之间都是相互独立的,那么这些标签可以组成一个标签向量y∈R1×c,其中c为图像集中标签的总数,R∈{0,1},yj=1表示图像包含第j个标签,yj=0表示图像不包含第j个标签,通过正则化y得到图像xi与标签j的概率设计损失函数其中n为图像数量。


3.根据权利要求1所述一种基于深度卷积特征和语义近邻的多标签图像补全方法,其特征是构建基于KNN的语义近邻模型方法是:
针对社会化图像中存在视觉相似但语义不相同的问题,本文从语义上对图像特征加以区分,以提高图像的补全效果。首先,划分语义组构建语义近邻;然后,通过视觉相似度构建视觉近邻;最后,根据距离值确定各标签的贡献值,通过对贡献值排序完成标签预测。
符号定义为,图像集I={I1,I2,...,In},Ii∈Rd表示图像,其中n为图像数量,d为标签数量,R为d维向量,R∈{0,1}d;标签集W={w1,w2,...,wm},其中m为标签数量,wi为标签;训练集Ω={(I1,W1),(I2,W2),...,(In,Wn)},其中Wi为m维向量,Wi∈{0,1}M,当Wij=1时,表示图像i包含标签wj,当Wij=0时,表示图像i不含标签wj,步骤包括:
步骤1:划分语义组构建语义近邻,将每个标签包含的所有图...

【专利技术属性】
技术研发人员:张素兰邓建国
申请(专利权)人:太原科技大学
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1