大规模跨媒体数据分布式半监督内容识别分类方法及装置制造方法及图纸

技术编号：10489634 阅读：182 留言：0更新日期：2014-10-03 17:44

本发明专利技术公开了一种大规模跨媒体数据分布式半监督内容识别分类方法及装置，其根据不同模态特征之间数据的内在联系，既利用有便签的数据又考虑无标签的数据，挖掘出其间共存的信息，通过二值化约束来加速计算，并通过多分类的回归模型，调整基于共存信息的回归系数，使模型更准确的预测出分类标签。为了减少二值化变换所带来的信息损失，我们在共存信息上施加软约束条件，通过多次迭代逐步使数据趋向于二值化。相比于现有的快速学习分类技术，本发明专利技术提出的分类方法在准确率，效率和处理的数据规模上都有了很大的提高。

全部详细技术资料下载

【技术实现步骤摘要】
大规模跨媒体数据分布式半监督内容识别分类方法及装置
本专利技术属于分布式计算和分类
，特别涉及一种基于学习跨媒体数据域子空间的分布式半监督内容识别的快速分类方法及装置。
技术介绍
在目前的网络时代，数据集的增长速度越来越快，已经进入了大规模数据处理时代。传统的数据挖掘处理方法通常有比较高的计算复杂度，导致其只能在数据量小的数据集上计算。不仅数据量急剧增大，数据的类型也越来越丰富，比如文本数据，图像数据，音频数据，视频数据等等。而且往往一个数据样本就会同时存在这种多类型数据特征的形式。比如一个特定的新闻事件，在互联网上会有一个网页来进行报道，其中会有文字上对这个新闻事件的描述，会有现场的图片以及视频，还会有一些现场声音或者评论员声音的内容。这样就是一个跨媒体数据样本，这样的数据虽然描述的同一件事情，但其特征结构却往往是十分复杂的。这样一种大规模跨媒体数据广泛存在于现实生活中，已经和当今的时代密不可分。但是这种跨媒体数据却存在着处理速度和处理难度上的双重困难，是一个十分有意义也十分有挑战性的任务。传统的处理方法或者只关注小数据样本，或者标签只有两个类另O，或者只有单一类型的数据特征的分类问题，不能解决多类型特征多类别标签的大规模跨媒体数据分类问题。在大规模网络数据中，大部分数据都是无标签的原始数据。也就是说我们能利用的数据基本都没有标准的类别信息，有标签的数据相比于无标签的数据是非常少的。这是因为网络数据基本都是用户在网上的行为产生的，这些行为都是杂乱无章的。即使有一部分数据是有关联的，但是这种关联关系往往也无法形成一个确...
大规模跨媒体数据分布式半监督内容识别分类方法及装置

【技术保护点】
一种大规模跨媒体数据分布式半监督内容识别分类方法，包括如下步骤： S10：对分类样本的各种类型数据的特征进行抽取，将跨媒体数据转化成可用于分类的数值型数据； S20：对步骤S10中输入的转化后的数值型数据以及相应的标签信息，建立数学模型； S30：对S20中建立的数学模型，推导各个变量的更新公式，以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示； S40：利用S30中得到的分类器系数和一致性特征空间映射向量，对尚未分类的测试数据进行分类。

【技术特征摘要】
1.一种大规模跨媒体数据分布式半监督内容识别分类方法，包括如下步骤: SlO:对分类样本的各种类型数据的特征进行抽取，将跨媒体数据转化成可用于分类的数值型数据； S20:对步骤SlO中输入的转化后的数值型数据以及相应的标签信息，建立数学模型； S30:对S20中建立的数学模型，推导各个变量的更新公式，以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示； S40:利用S30中得到的分类器系数和一致性特征空间映射向量，对尚未分类的测试数据进行分类。2.根据权利要求1所述的分类方法，步骤S20包括: 5201:将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入，将有标签数据和无标签数据联合建立成一个数据矩阵； 5202:将输入的联合数据矩阵映射成一致性特征表示，并将标签信息矩阵加入到模型中联合优化，最后得到一个跨媒体数据的半监督内容识别模型； 5203:对空间变换映射矩阵施加二值化的正则项约束，以降低不同空间映射的计算复杂度; 5204:对分类系数变量施加L2范数约束，以提高系统的鲁棒性； 5205:将步骤S202得到的分类模型和步骤S203、S204中得到的各个正则项整合起来，得到统一的数学模型。3.根据权利要求1中所述的分类方法，步骤S30包括: 5301:在保持其他变量不变的前提下，更新各类型特征空间的映射向量； 5302:根据S301得到的各类型特征空间的映射向量，更新数据在一致性特征空间中新的特征表示； 5303:根据S301得到的各类型特征空间的映射向量和S302得到的一致性特征空间中的特征表示，更新分类器系数。4.根据权利要求1或2或3中所述的分类方法，步骤S40包括: 5401:对尚未分类的测试数据计...

【专利技术属性】
技术研发人员：赵学义，张晨逸，张仲非，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人