【技术实现步骤摘要】
(一)
本专利技术涉及一种文档聚类技术,具体涉及一种快速文档聚类方法。(二)
技术介绍
随着网络的日益普及和信息资讯建设取得的显著成效,人们经常需要面对数目惊人的自然语言文档,突出的问题是如何对其中包含的丰富信息和知识进行迅速有效的组织、浓缩和融合等处理,以提高人类把握这些海量信息的能力,改善认知水平。特别是近年来受到广泛关注的用户个人文档自动整理、网络大规模信息舆情监控、话题跟踪与检测技术、网络舆论态势跟踪、论坛大量文档的自动分类等研究内容中,就离不开快速高质量文本聚类技术的支持。由于一般认为聚类算法的复杂度较高,并且采用广为人知的Salton向量空间模型表示自然语言文档容易导致维数灾难,当处理文档数目达到较大规模时其高昂的计算开销被公认为是文本聚类技术在实践应用中需要解决的重要问题之一。(三)
技术实现思路
本专利技术提供一种用以克服已有的聚类方法由于特征高维量化和频繁相似度计算所带来的效率及其低下问题的快速文档聚类方法。本专利技术的目的是这样实现的:它通过下述步骤实现:一、利用词频统计从每篇文档中抽取出一组关键词(如10个),用于代表该文的主要内容;二、通过一次扫描,利用抽取的所有文档的关键词构造特征向量空间,并将文档表示为其包含的关键词在特征空间上的相应维度的索引值的集合;三、将自组织映射模型中的神经元表示为特征空间上的向量;四、依次输入文档,并计算其与所有神经元之间的相似度;五、累加值最大的神经元为获胜神经元,其和其邻域的神经元向当前文档方向调整权值;六、在调整神经元与输入文档匹配的个别维的同时,对其他维的权值进行弱化,以防止其他主题的文档错误映射到 ...
【技术保护点】
一种快速文档聚类方法,其特征在于它通过下述步骤实现:一、利用词频统计从每篇文档中抽取出一组关键词,用于代表该文的主要内容;二、通过一次扫描,利用抽取的所有文档的关键词构造特征向量空间,并将文档表示为其包含的关键词在特征空间上的相应维度的索引值的集合;三、将自组织映射模型中的神经元表示为特征空间上的向量;四、依次输入文档,并计算其与所有神经元之间的相似度;五、累加值最大的神经元为获胜神经元,其和其邻域的神经元向当前文档方向调整权值;六、在调整神经元与输入文档匹配的个别维的同时,对其他维的权值进行弱化,以防止其他主题的文档错误映射到该神经元上;七、所有文档输入完毕后,结束。
【技术特征摘要】
1、一种快速文档聚类方法,其特征在于它通过下述步骤实现:一、利用词频统计从每篇文档中抽取出一组关键词,用于代表该文的主要内容;二、通过一次扫描,利用抽取的所有文档的关键词构造特征向量空间,并将文档表示为其包含的关键词在特征空间上的相应维度的索引值的集合;三、将自组织映射模型中的神经元表示为特征空间上的向量;四、依次输入文档,并计算其与所有神经元之间的相似度;...
【专利技术属性】
技术研发人员:刘远超,刘铭,王晓龙,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:93[中国|哈尔滨]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。