大规模文本数据的外部聚类方法及系统技术方案

技术编号:2822763 阅读:237 留言:0更新日期:2012-04-11 18:40
一种应用于信息技术领域中的一种大规模文本数据的外部聚类方法及系统,设计的聚类系统,包括一候选分析器、关系生成器、关系选取和聚类部件,每个样本点都作为一个簇,通过检索技术为每个样本挑选出候选的具有联系的候选点集合,利用关系生成器计算样本与候选关系样本间的关系,按递增/递减顺序输出到外部存储空间;方法的主要步骤包括:对输入文本集的预处理,生成文本集的倒排索引和特征向量;采用检索技术检索每一文档的候选关系集合;利用关系计算方法对有候选关系的文档进行关系计算;排序输出大于一定阈值的计算结果;聚类算法再依照排序结果,反复迭代合并具有第一直接关系的文本对,最终达到对文本集合的聚类输出。该装置构思新颖科学、聚类过程占用空间小、容量大的外部存储器,对处理过程进行分化处理。

【技术实现步骤摘要】

本专利技术涉及信息
中一种利用外部存储器进行大规模文本数据聚类 的方法及实现,基于检索技术的外部文档聚类方法,克服现有方法在处理问题规 模和时间上的不足的大规模文本数据的外部聚类方法及系统。 -
技术介绍
近10年,以信息为基础的组织或知识型企业焕发勃勃生机,创造和传播知 识己经成为检验企业核心能力的关键要素,知识的创造和应用能力成为不折不 扣的企业核心竞争力的强力支撑。知识除储存于员工的大脑中外,还根植于企 业长期积累的各种文档,以及其他应用系统的数据当中。如何在企业庞杂的信 息数据中挖掘出知识,则首先需要将数据归类分析,本专利技术则是其中一种归类方 法——聚类。聚类是按照事物的某些属性、特征把事物聚集成类,使得类间的 相似性最小,类内的相似性尽量大。由于聚类是一种无指导的学习方法,无需 -耗费大量的人力、物力,因此文本的自动聚类技术已成为最有效的突破信息处 理的最主要手段。例如,基于聚类技术的搜索引擎,通过聚类技术可以对每个 用户的检索结果进行归类,当用户检索"软件"时,可以将结果归类为"病毒"、 "办公"等类别,这样用户可以更系统地掌握、分析检索结果。聚类能够消耗大量存储器和处理器资源,因为每个数据必须和其它数据逐 一比较,以便识别数据间的类别关系。然而随着数据的不断积累,处理数据的 规模成为了现有的聚类系统的最主要问题。参考文献中有涉及一些处理规模较大的方法,如CURE和CURD, CURE是一种自底向上的层次聚类算法,首先将输 -入的每个点作为一个聚类,然后合并相似的聚类,直到聚类的个数为k时为止。 在CURE中指出,基于中心点的方法和所有的点的距离计算方法都不适合非球形 或任意形状的聚类,因此CURE采用了折衷的方法,即用固定数目的点表示一个 聚类,从而提高了算法挖掘任意形状的聚类的能力。CURE算法的时间复杂性为 0(n*n)(低维数据)和0(r^r^logn)(高维数据),算法在处理大量数据时必须基于抽样、划分等技术。CURD算法受CURE算法的启发,不同的是采用了密度的方法 屏蔽异常数据(噪音)对算法的影响,具有和K-MEANS算法相同的时间复杂性,效率较高。由此可以看到现有的方法,只是在通过一种縮减的手段,利用少数的特点 来代替大规模数据。但往往为了保证系统的性能,其选择的代表点不能过少, 因此从本质上上述方法还是没有解决由于处理规模的空间复杂度而造成的不可 计算问题。因此研制一种大规模文本数据的外部聚类方法及系统是国内外急需 -解决的新课题。
技术实现思路
本专利技术的目的是提供一种新的利用外存进行聚类方法,在确保空间复杂度 较低的前提下,利用最少的内、外存交互,实现一个处理数据规模大,执行效 率高的聚类方法,对海量的杂乱的非结构化数据,进行有用资源正确提取,标明 属性,抽象特征,区分类别,使资源重新有序化,并实现跨来源、跨类别的广 泛关联的大规模文本数据的外部聚类方法及系统。本专利技术的目的是这样实现的大规模文本数据的外部聚类方法及系统,方法'的主要歩骤包括对输入文本集的预处理,生成文本集的倒排索引和特征向量;采用检索技术检索每一文档的候选关系集合;利用关系计算方法对有候选关系的文档进行关系计算;排序输出大于一定阈值的计算结果;聚类算法再依照排序结果,反复迭代合并具有第一直接关系的文本对,最终达到对文本集合的聚类输出;大规模文本数据的外部聚类方法设计的聚类系统,包括一候选分析器、关系生成器、关系选取和聚类部件,聚类的基本过程,首先每个样本点都作为一个簇,通过检索技术为每个样本挑选出候选的具有联系的候选点集合,而后利'用关系生成器计算样本与候选关系样本间的关系,并按递增/递减顺序输出到外部存储空间,然后在关系选取和聚类部件的控制下在外部存储中反复地对样本关系文件进行删除合并,直到关系文件为空;基于文本检索技术的样本关系候选计算方法,该方法通过对描述数据的特征建立倒排索引,然后对于每一样本 '都检索出与其有共同特征的样本作为候选样本集合;聚类是一种消耗大量存储 器和处理器资源的方法,因为每个样本必须和其它样本进行逐一比较,以便识 别出样本间的类别关系;利用高效的倒排检索技术可以最大程度地减少样本关 系计算中所占用的存储器和处理器资源;这种过滤的过程可被称为筛选, 一些 传统聚类方法都有利用筛选,但是本专利技术中基于检索技术的筛选尤其有效;当 所有样本计算出候选关系序列后,便需要计算样本与样本间的关系,这里称之 为距离或相似度;这个距离或相似度的值可以衡量两个样本的相似程度,是诸 '衡量两个具有一定数量的特征和权值的数据的相似程度的方法或组合;各样本 间的距离或相似度通过一定阈值加以控制,如果距离/相似度低于/高于所对应 的阈值,则这个关系则被按升序或降序保存到关系文件中;这种按顺序保存的 样本关系可以减小其后的聚类中合并和选取的复杂度,减小磁盘交互带来的时 间开销;通过排序的关系文件进行外部聚类的方法,该方法每次从存储于外存 的关系文件依次合并具有最先关系的样本,而后在合并的基础对现有关系进行 裁剪;当关系文件为空时聚类过程结束,并将合并样本集合作为结果进行输出。本专利技术的要点在-f它的聚类方法及系统。iri:作原理足,采用自然语言处理技术对文本进行处理生成可计算的数据格式,并存储于计算的外部储存器中 构成文档库,并通过检索技术建立索引库。对于每一文本都通过筛选器,检索 出与其有共同特征的样本作为候选样本集合,縮小文本间相似/相关度计算的空 间,原始的计算频度由Wn/2,变化为n*k,其中k《n/2。在文本相似度计算的候选空间中可以通过现有的文本相似度计算方法对文本间的关系进行量化,并 保证其关系量化的数值在0到1之间。同时为了确保排序算法的时间复杂度, 根据数据规模大小在设定不同区间m (m〉0)将文本关系划分到不同的外部关系 文件中。同时采用哈希排序的方法,对每个外部关系文件进行递增排序,并合并存储于外部关系文件中。最后针对该排序的数据关系文件,采用本专利技术的聚 类算法,耗费最少的I/O交互,并且占用较小的内存空间,实现数据的聚类处理。大规模文本数据的外部聚类方法及系统与现有技术相比,具有构思新颖科 学,聚类过程占用空间小,执行效率高,适用于大规模文档的聚类,使用成本 低、容量大的外部存储器,对处理过程进行分化处理等优点,将广泛地应用于 信息
中。附图说明下面结合附图及实施例对本专利技术进行详细说明。 图l是本专利技术的一个聚类过程说明原理图。图2是本专利技术的外部聚类算法每次的数据合并流程原理图。图3是本专利技术的聚类系统中计算两个样本集合的空间距离说明原理图。图4是本专利技术的采用外部存储的聚类系统原理图。 图5关系选择和聚类部件的主要过程原理图。具体实施例方式参照附图,大规模文本数据的外部聚类方法及系统,方法的主要步骤包括对输入文本集的预处理,生成文本集的倒排索引和特征向量;采用检索技术检 索每一文档的候选关系集合;利用关系计算方法对有候选关系的文档进行关系 计算;排序输出大于一定阈值的计算结果;聚类算法再依照排序结果,反复迭 代合并具有第一直接关系的文本对,最终达到对文本集合的聚类输出;大规模 文本数据的外部聚类方法设计的聚类系统,包括一候选分析器、关系生成器、 关系选取和聚类部件,聚类本文档来自技高网
...

【技术保护点】
一种大规模文本数据的外部聚类方法及系统,其特征在于:方法的主要步骤包括:对输入文本集的预处理,生成文本集的倒排索引和特征向量;采用检索技术检索每一文档的候选关系集合;利用关系计算方法对有候选关系的文档进行关系计算;排序输出大于一定阈值的计算结果;聚类算法再依照排序结果,反复迭代合并具有第一直接关系的文本对,最终达到对文本集合的聚类输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:季铎蔡东风张桂平尹宝生苗雪雷周俏丽白羽
申请(专利权)人:沈阳格微软件有限责任公司
类型:发明
国别省市:89[中国|沈阳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1