一种快速文档聚类方法技术

技术编号:2915832 阅读:208 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种快速文档聚类方法,它通过下述步骤实现:1.利用词频统计从每篇文档中抽取出一组关键词;2.将文档表示为其包含的关键词在特征空间上的相应维度的索引值的集合;3.将自组织映射模型中的神经元表示为特征空间上的向量;4.依次输入文档,并计算其与所有神经元之间的相似度;5.累加值最大的神经元为获胜神经元,其和其邻域的神经元向当前文档方向调整权值;6.在调整神经元与输入文档匹配的个别维的同时,对其他维的权值进行弱化;7.所有文档输入完毕后,结束。本发明专利技术利用自组织映射聚类模型,在文档量化表示和相似度计算等环节进行革新,使得在处理文档数目相同且聚类质量得以保持的情况下,计算效率获得大幅提升。

【技术实现步骤摘要】
(一)
本专利技术涉及一种文档聚类技术,具体涉及一种快速文档聚类方法。(二)
技术介绍
随着网络的日益普及和信息资讯建设取得的显著成效,人们经常需要面对数目惊人的自然语言文档,突出的问题是如何对其中包含的丰富信息和知识进行迅速有效的组织、浓缩和融合等处理,以提高人类把握这些海量信息的能力,改善认知水平。特别是近年来受到广泛关注的用户个人文档自动整理、网络大规模信息舆情监控、话题跟踪与检测技术、网络舆论态势跟踪、论坛大量文档的自动分类等研究内容中,就离不开快速高质量文本聚类技术的支持。由于一般认为聚类算法的复杂度较高,并且采用广为人知的Salton向量空间模型表示自然语言文档容易导致维数灾难,当处理文档数目达到较大规模时其高昂的计算开销被公认为是文本聚类技术在实践应用中需要解决的重要问题之一。(三)
技术实现思路
本专利技术提供一种用以克服已有的聚类方法由于特征高维量化和频繁相似度计算所带来的效率及其低下问题的快速文档聚类方法。本专利技术的目的是这样实现的:它通过下述步骤实现:一、利用词频统计从每篇文档中抽取出一组关键词(如10个),用于代表该文的主要内容;二、通过一次扫描,利用抽取的所有文档的关键词构造特征向量空间,并将文档表示为其包含的关键词在特征空间上的相应维度的索引值的集合;三、将自组织映射模型中的神经元表示为特征空间上的向量;四、依次输入文档,并计算其与所有神经元之间的相似度;五、累加值最大的神经元为获胜神经元,其和其邻域的神经元向当前文档方向调整权值;六、在调整神经元与输入文档匹配的个别维的同时,对其他维的权值进行弱化,以防止其他主题的文档错误映射到该神经元上;七、所有文档输入完毕后,结束。本专利技术还有这样一些技术特征:1、所述的相似度计算方法为,计算文档关键词索引在神经元节点上的相关维度上的权值的累加值。本专利技术针对目前文本聚类由于维数较高和相似度计算比较频繁带来的效率较低的问题,利用自组织映射聚类模型,在文档量化表示和相似度计算等环节进行革新,使得在处理文档数目相同且聚类质量得以保持的情况下,计算效率获得大幅提升。-->本专利技术方法的步骤:与传统上将文档表示为高维空间向量的做法不同,本方法首先从文档中提取若干关键词(如10个关键词),关键词为对文本进行高频词统计生成的重要内容词。而后实现一次扫描,完成了利用所有文档的关键词动态构造特征空间和同时将文档则直接表示为其包含的关键词在向量空间中的索引的工作。自组织映射模型中的神经元节点表示为空间上的向量。虽然神经元节点仍为高维向量,但大量的文档则仅包含若个关键词的索引(如10个),而不是传统上表示为与神经元节点同样的高维向量(如几千维)。因此传统上聚类过程中频繁进行的文档和神经元节点之间的相似度计算被简化。文档和神经元节点之间的相似度计算方法为文档关键词索引在神经元节点上的相关维度上的权值的累加值。累加值最大的神经元为获胜神经元,其和其邻域的神经元获得了向当前文档调整权值的机会。为了防止文档向神经元的错误映射,采取了抑制其它维的办法,即在调整神经元与输入文档匹配的个别维的同时,对其他维的权值进行弱化,以防止其他主题的文档错误映射到该神经元上。本专利技术方法的本质在于规避了传统方法的大量冗余计算,特征并没有压缩,因而可以达到不影响聚类质量,大幅提升聚类效率的目的。本专利技术的潜在用户包括:1.需要进行网络大规模文本信息流的动态分析与监控的国家有关部门;2.众多从事文档信息检索和信息管理应用和研究的企业用户、图书情报机构、科研院所等单位;3.大量需要进行文档组织管理和快速检索浏览(如个人电子邮件和各类自然语言文档聚类处理)的个人用户等。本专利技术的方法将文档表示为若干关键词索引构成的集合,其数目远少于特征空间的维数,后者一般为几千维。神经元仍然延续传统的做法。由于自组织映射模型中频繁进行文档与神经元节点之间的相似度,且文档数目一般远远大于神经元节点的数目(一般可以设定为需要生成的文档簇的数目),因此节省的计算开销非常可观。注意到本专利技术方法并不是对特征进行压缩,其采用的特征与传统方法完全相同。本专利技术的特点在于通过在特征量化表示和相似度计算等环节进行改进,使得大量冗余计算得以消除,从而达到保持聚类质量,大幅提升效率的目的。聚类质量可以利用聚类F值来衡量。聚类F值的计算方法:用聚类F值对文档聚类的综合质量进行评价。对于聚类生成的某一个聚类类别r和原来的预定类别s,召回率recall和精确率precision的定义分别为:recall(r,s)=n(r,s)/ns       (1)precision(r,s)=n(r,s)/nr    (2)其中n(r,s)是聚类后的类别r和预定义类别s中的公共文档个数。nr是聚类类别r中的文-->档个数,ns是预定义类别s中的文档个数。定义F(r,s)为F(r,s)=(2*recall(r,s)*precision(r,s))/((precison(r,s)+recall(r,s))    (3)则聚类结果的总体评价函数为F=Σi=ninmax{F(i,j)本文档来自技高网...

【技术保护点】
一种快速文档聚类方法,其特征在于它通过下述步骤实现:一、利用词频统计从每篇文档中抽取出一组关键词,用于代表该文的主要内容;二、通过一次扫描,利用抽取的所有文档的关键词构造特征向量空间,并将文档表示为其包含的关键词在特征空间上的相应维度的索引值的集合;三、将自组织映射模型中的神经元表示为特征空间上的向量;四、依次输入文档,并计算其与所有神经元之间的相似度;五、累加值最大的神经元为获胜神经元,其和其邻域的神经元向当前文档方向调整权值;六、在调整神经元与输入文档匹配的个别维的同时,对其他维的权值进行弱化,以防止其他主题的文档错误映射到该神经元上;七、所有文档输入完毕后,结束。

【技术特征摘要】
1、一种快速文档聚类方法,其特征在于它通过下述步骤实现:一、利用词频统计从每篇文档中抽取出一组关键词,用于代表该文的主要内容;二、通过一次扫描,利用抽取的所有文档的关键词构造特征向量空间,并将文档表示为其包含的关键词在特征空间上的相应维度的索引值的集合;三、将自组织映射模型中的神经元表示为特征空间上的向量;四、依次输入文档,并计算其与所有神经元之间的相似度;...

【专利技术属性】
技术研发人员:刘远超刘铭王晓龙
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1