一种基于MapReduce框架的网页聚类方法和系统技术方案

技术编号：10789453 阅读：90 留言：0更新日期：2014-12-17 17:54

本发明专利技术公开了一种基于MapReduce框架的网页聚类方法和系统，应用于Hadoop集群中的MapReduce框架，所述MapReduce框架包括Map模块和Reduce模块，通过MapReduce框架中的Map模块和Reduce模块进行网页聚类，能够充分利用多台机器的硬件资源，可以达到较快的执行速度，缩短了网页聚类的时间，提高了处理性能。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于MapReduce框架的网页聚类方法和系统，应用于Hadoop集群中的MapReduce框架，所述MapReduce框架包括Map模块和Reduce模块，通过MapReduce框架中的Map模块和Reduce模块进行网页聚类，能够充分利用多台机器的硬件资源，可以达到较快的执行速度，缩短了网页聚类的时间，提高了处理性能。【专利说明】-种基于MapReduce框架的网页聚类方法和系统
本专利技术涉及计算机
，具体涉及一种基于MapReduce框架的网页聚类方法和系统。
技术介绍
随着网络技术的日益普及，人们对于网络搜索的需求量也急剧增加。然而，很多网页都具有相似的内容，如果对用户搜索到的上进行分类，将具有相似内容的网页归结为统一类型，可以为用户节省搜索时间，同时也方便用户对特定类型的网页进行查看。现有技术中，通常使用单个机器进行网页聚类。然而，由于单个机器配置的局限性，且网络中的网页处于海量增长状态，单机硬件配置无法满足于TB级以上的网页聚类，会导致处理效率低下。
技术实现思路
本专利技术提供了一种基于MapReduce框架的网页聚类方法和系统，以解决现有技术中处理效率低下的缺陷。本专利技术提供了一种基于MapReduce框架的网页聚类方法，应用于Hadoop集群中的 MapReduce框架，所述MapReduce框架包括Map模块和Reduce模块，所述方法包括以下步骤： S1、所述Reduce模块选取多个网页作为中心点，生成与各个中心点对应的中...

【技术保护点】
一种基于MapReduce框架的网页聚类方法，其特征在于，应用于Hadoop集群中的MapReduce框架，所述MapReduce框架包括Map模块和Reduce模块，所述方法包括以下步骤：S1、所述Reduce模块选取多个网页作为中心点，生成与各个中心点对应的中心点向量，并将所述中心点向量写入到分布式文件系统HDFS中；S2、所述Map模块从所述HDFS中读取所述中心点向量，根据所述中心点向量以及网页向量表，确定各个网页所归属的中心点；S3、所述Reduce模块获取词表和归属同一中心点的所有网页的网页向量，并根据所述词表和获取到的网页向量，对所述中心点向量进行更新，并将更新后的中心点向量写入到所述HDFS中；S4、所述Reduce模块判断是否满足预设的收敛条件，如果是，则执行步骤S5；否则，返回步骤S2；S5、所述Map模块从所述HDFS中读取所述中心点向量，根据所述中心点向量以及所述网页向量表，确定各个网页所归属的中心点；S6、所述Reduce模块将各个网页的网页编号以及对应的中心点编号作为网页聚类结果输出。

【技术特征摘要】

【专利技术属性】
技术研发人员：宗栋瑞，郭美思，吴楠，
申请(专利权)人：浪潮北京电子信息产业有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人