基于深度卷积特征和语义近邻的多标签图像补全方法技术

技术编号：23986751 阅读：33 留言：0更新日期：2020-04-29 13:55

本发明专利技术公开了一种基于深度卷积特征和语义近邻的多标签图像补全方法，首先，通过改进卷积神经网络的损失函数，构建一个融合深度卷积特征和语义近邻的卷积神经网络(CNN‑KNN)模型，然后，将CNN的预分类结果输入到语义近邻算法中利用图像标注词间的依赖或共生关系对网络模型输出结果进行改善，最后，优化多标签重要性排序算法，将改善的结果按此算法排序并分配与图像内容表述一致的标注词预测图像的最终标注结果。采用基准数据集iaprtc12进行实验，验证了该方法能有效地补全图像标签语义。

Multi label image completion method based on deep convolution feature and semantic nearest neighbor

全部详细技术资料下载

【技术实现步骤摘要】
基于深度卷积特征和语义近邻的多标签图像补全方法
本文专利技术一种基于深度卷积特征和语义近邻的多标签图像补全方法，属于图像处理领域。
技术介绍
随着移动互联网的迅猛发展与智能移动设备的不断普及，图像数据产生和获取的成本逐渐降低，基于图像标注的算法也获得了蓬勃发展。在传统的图像标注算法中，每个样本只标注一个标签。然而在一些实际应用中，图像往往包含复杂多样的语义信息，加上图像的视觉特征与人类图像识别之间存在着巨大语义鸿沟，使得多标签分类比传统的分类问题更为复杂。近年来，在图像标注领域出现了大量的多标签标注算法，如：组合分类器链(ECC)算法、Binaryrelevance(BR)算法、多类标注算法(SupervisedMulticlassLabeling，SML)、多标签SVM等。尽管这些多标签学习算法在某些领域有着较好的应用，但也存在着一些不足：如待定参数过多、标签不完备和泛化能力差。其中，标签不完备对图像标注和检索影响尤为明显，主要表现在用户只能获取到与关键词匹配的部分图像。在图像数量不大的情况下这种不足表现的不是很明显，但是在图像数量爆炸式增长、图像来源不断扩大、图像种类日益繁多的现实条件下，这种不足尤为明显。因此，完备的图像文本标签在图像标注和图像检索领域起着关键性的作用，如何快速有效地提高图像标签的完备性，成为大数据时代图像自动标注研究的新挑战。随着大数据时代的到来，含更多隐含层的深度卷积神经网络具有更复杂的网络结构，与传统机器学习方法相比具有更强大的特征学习和特征表达能力。使用深度学习算法训练的...

【技术保护点】
1.一种基于深度卷积特征和语义近邻的多标签图像补全方法，其特征是包括下述内容：/n(1)在AlexNex通用模型基础上，改进AlexNex模型参数并设计多标签损失函数；/n(2)基于K最近邻构建语义近邻模型；/n(3)融合上述两个模型构建的模型构建融合深度卷积特征和语义近邻的CNN-KNN模型，将等补全社会化图像输入到CNN-KNN，模型输出候选标签集经带权无向图邻接矩阵滤噪算法过滤噪声标签，输出粗选标签集；/n(4)利用CNN-KNN的多标签重要性排序算法对第3步输出的粗选标签集再次过滤噪声标签，并确定最终补全结果。/n

【技术特征摘要】
1.一种基于深度卷积特征和语义近邻的多标签图像补全方法，其特征是包括下述内容：
(1)在AlexNex通用模型基础上，改进AlexNex模型参数并设计多标签损失函数；
(2)基于K最近邻构建语义近邻模型；
(3)融合上述两个模型构建的模型构建融合深度卷积特征和语义近邻的CNN-KNN模型，将等补全社会化图像输入到CNN-KNN，模型输出候选标签集经带权无向图邻接矩阵滤噪算法过滤噪声标签，输出粗选标签集；
(4)利用CNN-KNN的多标签重要性排序算法对第3步输出的粗选标签集再次过滤噪声标签，并确定最终补全结果。

2.根据权利要求1所述一种基于深度卷积特征和语义近邻的多标签图像补全方法，其特征是改进AlexNex模型参数并设计多标签损失函数步骤是：
步骤1：所有卷积层中卷积核的间隔与池化间隔都设置为2，同时加入一个动量项为0.9的异步随机梯度，并将网络初始的学习速率设为0.001；
步骤2：设计多标签损失函数，假设每个标签之间都是相互独立的，那么这些标签可以组成一个标签向量y∈R1×c，其中c为图像集中标签的总数,R∈{0,1}，yj＝1表示图像包含第j个标签，yj＝0表示图像不包含第j个标签，通过正则化y得到图像xi与标签j的概率设计损失函数其中n为图像数量。

3.根据权利要求1所述一种基于深度卷积特征和语义近邻的多标签图像补全方法，其特征是构建基于KNN的语义近邻模型方法是：
针对社会化图像中存在视觉相似但语义不相同的问题，本文从语义上对图像特征加以区分，以提高图像的补全效果。首先，划分语义组构建语义近邻；然后，通过视觉相似度构建视觉近邻；最后，根据距离值确定各标签的贡献值，通过对贡献值排序完成标签预测。
符号定义为，图像集I＝{I1,I2,...,In}，Ii∈Rd表示图像，其中n为图像数量，d为标签数量，R为d维向量，R∈{0,1}d；标签集W＝{w1,w2,...,wm}，其中m为标签数量，wi为标签；训练集Ω＝{(I1,W1),(I2,W2),...,(In,Wn)}，其中Wi为m维向量，Wi∈{0,1}M，当Wij＝1时，表示图像i包含标签wj，当Wij＝0时，表示图像i不含标签wj，步骤包括：
步骤1：划分语义组构建语义近邻，将每个标签包含的所有图...

【专利技术属性】
技术研发人员：张素兰，邓建国，
申请(专利权)人：太原科技大学，
类型：发明
国别省市：山西;14

全部详细技术资料下载我是这个专利的主人