当前位置: 首页 > 专利查询>浙江大学专利>正文

大规模跨媒体数据分布式半监督内容识别分类方法及装置制造方法及图纸

技术编号:10489634 阅读:168 留言:0更新日期:2014-10-03 17:44
本发明专利技术公开了一种大规模跨媒体数据分布式半监督内容识别分类方法及装置,其根据不同模态特征之间数据的内在联系,既利用有便签的数据又考虑无标签的数据,挖掘出其间共存的信息,通过二值化约束来加速计算,并通过多分类的回归模型,调整基于共存信息的回归系数,使模型更准确的预测出分类标签。为了减少二值化变换所带来的信息损失,我们在共存信息上施加软约束条件,通过多次迭代逐步使数据趋向于二值化。相比于现有的快速学习分类技术,本发明专利技术提出的分类方法在准确率,效率和处理的数据规模上都有了很大的提高。

【技术实现步骤摘要】
大规模跨媒体数据分布式半监督内容识别分类方法及装置
本专利技术属于分布式计算和分类
,特别涉及一种基于学习跨媒体数据域子空间的分布式半监督内容识别的快速分类方法及装置。
技术介绍
在目前的网络时代,数据集的增长速度越来越快,已经进入了大规模数据处理时代。传统的数据挖掘处理方法通常有比较高的计算复杂度,导致其只能在数据量小的数据集上计算。不仅数据量急剧增大,数据的类型也越来越丰富,比如文本数据,图像数据,音频数据,视频数据等等。而且往往一个数据样本就会同时存在这种多类型数据特征的形式。比如一个特定的新闻事件,在互联网上会有一个网页来进行报道,其中会有文字上对这个新闻事件的描述,会有现场的图片以及视频,还会有一些现场声音或者评论员声音的内容。这样就是一个跨媒体数据样本,这样的数据虽然描述的同一件事情,但其特征结构却往往是十分复杂的。这样一种大规模跨媒体数据广泛存在于现实生活中,已经和当今的时代密不可分。但是这种跨媒体数据却存在着处理速度和处理难度上的双重困难,是一个十分有意义也十分有挑战性的任务。传统的处理方法或者只关注小数据样本,或者标签只有两个类另O,或者只有单一类型的数据特征的分类问题,不能解决多类型特征多类别标签的大规模跨媒体数据分类问题。 在大规模网络数据中,大部分数据都是无标签的原始数据。也就是说我们能利用的数据基本都没有标准的类别信息,有标签的数据相比于无标签的数据是非常少的。这是因为网络数据基本都是用户在网上的行为产生的,这些行为都是杂乱无章的。即使有一部分数据是有关联的,但是这种关联关系往往也无法形成一个确定的标签信息。对于这样的数据,采用聚类分析的方法是可以自动的学习出来标签结果。但是这样得到的标签结果是依赖聚类模型的,而且得到的标签也不是很准确的。简单的采用聚类结果作为标签是不明智的,也容易得到不准确的分类结果。因此,给网络上的数据加上标签基本都要专业的人手工添加。这样的代价是十分高的,也是十分慢的,因为网络数据样本基本都是数以百万计的。所以目前的网络数据面临着只有少部分有标签的数据和大量无标签的数据的分类问题。基于这样的数据形式,设计一种半监督分类方法显得更加实用。半监督的方法能够在利用有标签数据做分类的同时,考虑无标签数据中存在的样本内在的结构信息,最大限度的利用数据样本的内在属性信息,得到更好的分类结果。 在现有的文献里,很多处理跨媒体的数据处理方法都是基于有标签数据的,或者只是同时利用少量无标签的数据。这些方法只能在小量样本的数据集上使用,一旦数据量变得很大,处理方法就变得十分耗时,无法在实际应用场景下使用。因此,提出一种高效的跨媒体数据的分布式半监督内容识别的分类方法变得十分重要。
技术实现思路
本专利技术提供了一种大规模跨媒体数据分布式半监督内容识别分类方法,此分类技术可应用于跨媒体数据内容识别领域。在训练数据中既有一些有标签数据和大量无标签数据的多种类型多分类任务下,我们利用快速非监督分类方法得到所需的分类器,在分类性能上可以达到满意的效果。 为实现上述目的,本专利技术的技术方案为: —种大规模跨媒体数据分布式半监督内容识别分类方法,包括如下步骤: SlO:对分类样本的各种类型数据的特征进行抽取,将跨媒体数据转化成可用于分类的数值型数据; S20:对步骤SlO中输入的数值型数据以及相应的标签信息,建立数学模型; S30:对S20中建立的数学模型,推导各个变量的更新公式,以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示; S40:利用S30中得到的分类器系数和一致性特征空间映射向量,对尚未分类的测试数据进行分类。 进一步的,步骤S20包括: S201:将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入。将有标签数据和无标签数据联合建立成一个数据矩阵。 S202:将输入的联合数据矩阵映射成一致性特征表示,并将标签信息矩阵加入到模型中联合优化,最后得到一个跨媒体数据的半监督内容识别模型; S203:对空间变换映射矩阵施加二值化的正则项约束,以降低不同空间映射的计算复杂度 S204:对分类系数变量施加L2范数约束,以提高系统的鲁棒性。 S205:将步骤S202得到的分类模型和步骤S203,S204中得到的各个正则项整合起来,得到统一的数学模型。 进一步的,步骤S30包括: S301:在保持其他变量不变的前提下,更新各类型特征空间的映射向量; S302:根据S301得到的各类型特征空间的映射向量,更新数据在一致性特征空间中新的特征表示; S303:根据S301得到的各类型特征空间的映射向量和S302得到的一致性特征空间中的特征表示,更新分类器系数; 进一步的,步骤S40包括: S401:对尚未分类的测试数据计算各类型特征空间的映射向量; S402:综合多特征空间下的表示向量,得到一致性特征空间下的特征表示; S403:根据分类器系数,得到尚未分类的测试数据的分类标签。 本专利技术的另一目的还在于提供一种大规模跨媒体数据分布式半监督内容识别分类装置,包括: 数据预处理模块:对分类样本的各种类型特征进行抽取,将跨媒体数据转化成可用于分类的数值型数据; 建模模块:根据转化后的数值型数据以及相应的标签信息,建立数学模型;结合跨媒体数据的分布式半监督内容识别模型、空间映射加速约束及提高模型鲁棒性约束,建立统一的数学模型并输出; 参数迭代更新模块:根据建模模块输出的数学模型,推导各个变量的更新公式,以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示; 跨媒体数据分类模块:利用参数迭代更新模块中得到的分类器系数和一致性特征空间映射向量,对尚未分类的测试数据进行分类。 进一步的,所述建模模块包括: 将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入。将有标签数据和无标签数据联合建立成一个数据矩阵。 将输入的联合数据矩阵映射成一致性特征表示,并将标签信息矩阵加入到模型中联合优化,最后得到一个跨媒体数据的半监督内容识别模型; 对空间变换映射矩阵施加二值化的正则项约束,以降低不同空间映射的计算复杂度 对分类系数变量施加L2范数约束,以提高系统的鲁棒性。 将得到的分类模型和各个正则项整合起来,得到统一的数学模型。 进一步的,所述跨媒体数据分类模块包括: 对尚未分类的测试数据计算各类型特征空间的映射向量; 综合多特征空间下的表示向量,得到一致性特征空间下的特征表示; 根据分类器系数,得到尚未分类的测试数据的分类标签。 本专利技术构思及优点:根据不同模态特征之间数据的内在联系,既利用有便签的数据又考虑无标签的数据,挖掘出其间共存的信息,通过二值化约束来加速计算,并通过多分类的回归模型,调整基于共存信息的回归系数,使模型更准确的预测出分类标签。为了减少二值化变换所带来的信息损失,我们在共存信息上施加软约束条件,通过多次迭代逐步使数据趋向于二值化。我们设计了基于MapReduce的分布式系统的并行计算方法,利用多台机器同时计算方法之间不相关的数据内容,使计算速度大幅提升。相比于现有的快速学习分类技术,本专利技术提出的分类本文档来自技高网
...
大规模跨媒体数据分布式半监督内容识别分类方法及装置

【技术保护点】
一种大规模跨媒体数据分布式半监督内容识别分类方法,包括如下步骤: S10:对分类样本的各种类型数据的特征进行抽取,将跨媒体数据转化成可用于分类的数值型数据; S20:对步骤S10中输入的转化后的数值型数据以及相应的标签信息,建立数学模型; S30:对S20中建立的数学模型,推导各个变量的更新公式,以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示; S40:利用S30中得到的分类器系数和一致性特征空间映射向量,对尚未分类的测试数据进行分类。

【技术特征摘要】
1.一种大规模跨媒体数据分布式半监督内容识别分类方法,包括如下步骤: SlO:对分类样本的各种类型数据的特征进行抽取,将跨媒体数据转化成可用于分类的数值型数据; S20:对步骤SlO中输入的转化后的数值型数据以及相应的标签信息,建立数学模型; S30:对S20中建立的数学模型,推导各个变量的更新公式,以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示; S40:利用S30中得到的分类器系数和一致性特征空间映射向量,对尚未分类的测试数据进行分类。2.根据权利要求1所述的分类方法,步骤S20包括: 5201:将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入,将有标签数据和无标签数据联合建立成一个数据矩阵; 5202:将输入的联合数据矩阵映射成一致性特征表示,并将标签信息矩阵加入到模型中联合优化,最后得到一个跨媒体数据的半监督内容识别模型; 5203:对空间变换映射矩阵施加二值化的正则项约束,以降低不同空间映射的计算复杂度; 5204:对分类系数 变量施加L2范数约束,以提高系统的鲁棒性; 5205:将步骤S202得到的分类模型和步骤S203、S204中得到的各个正则项整合起来,得到统一的数学模型。3.根据权利要求1中所述的分类方法,步骤S30包括: 5301:在保持其他变量不变的前提下,更新各类型特征空间的映射向量; 5302:根据S301得到的各类型特征空间的映射向量,更新数据在一致性特征空间中新的特征表示; 5303:根据S301得到的各类型特征空间的映射向量和S302得到的一致性特征空间中的特征表示,更新分类器系数。4.根据权利要求1或2或3中所述的分类方法,步骤S40包括: 5401:对尚未分类的测试数据计...

【专利技术属性】
技术研发人员:赵学义张晨逸张仲非
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1