一种基于MapReduce框架的网页聚类方法和系统技术方案

技术编号:10789453 阅读:82 留言:0更新日期:2014-12-17 17:54
本发明专利技术公开了一种基于MapReduce框架的网页聚类方法和系统,应用于Hadoop集群中的MapReduce框架,所述MapReduce框架包括Map模块和Reduce模块,通过MapReduce框架中的Map模块和Reduce模块进行网页聚类,能够充分利用多台机器的硬件资源,可以达到较快的执行速度,缩短了网页聚类的时间,提高了处理性能。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于MapReduce框架的网页聚类方法和系统,应用于Hadoop集群中的MapReduce框架,所述MapReduce框架包括Map模块和Reduce模块,通过MapReduce框架中的Map模块和Reduce模块进行网页聚类,能够充分利用多台机器的硬件资源,可以达到较快的执行速度,缩短了网页聚类的时间,提高了处理性能。【专利说明】-种基于MapReduce框架的网页聚类方法和系统
本专利技术涉及计算机
,具体涉及一种基于MapReduce框架的网页聚类方法 和系统。
技术介绍
随着网络技术的日益普及,人们对于网络搜索的需求量也急剧增加。然而,很多网 页都具有相似的内容,如果对用户搜索到的上进行分类,将具有相似内容的网页归结为统 一类型,可以为用户节省搜索时间,同时也方便用户对特定类型的网页进行查看。 现有技术中,通常使用单个机器进行网页聚类。然而,由于单个机器配置的局限 性,且网络中的网页处于海量增长状态,单机硬件配置无法满足于TB级以上的网页聚类, 会导致处理效率低下。
技术实现思路
本专利技术提供了一种基于MapReduce框架的网页聚类方法和系统,以解决现有技术 中处理效率低下的缺陷。 本专利技术提供了一种基于MapReduce框架的网页聚类方法,应用于Hadoop集群中的 MapReduce框架,所述MapReduce框架包括Map模块和Reduce模块,所述方法包括以下步 骤: S1、所述Reduce模块选取多个网页作为中心点,生成与各个中心点对应的中心点 向量,并将所述中心点向量写入到分布式文件系统HDFS中; S2、所述Map模块从所述HDFS中读取所述中心点向量,根据所述中心点向量以及 网页向量表,确定各个网页所归属的中心点; S3、所述Reduce模块获取词表和归属同一中心点的所有网页的网页向量,并根据 所述词表和获取到的网页向量,对所述中心点向量进行更新,并将更新后的中心点向量写 入到所述HDFS中; S4、所述Reduce模块判断是否满足预设的收敛条件,如果是,则执行步骤S5 ;否 则,返回步骤S2; S5、所述Map模块从所述HDFS中读取所述中心点向量,根据所述中心点向量以及 所述网页向量表,确定各个网页所归属的中心点; S6、所述Reduce模块将各个网页的网页编号以及对应的中心点编号作为网页聚 类结果输出。 可选地,所述步骤S1之前,还包括: 所述Map模块获取网页向量表,将所述网页向量表中的所有网页编号写入到所述 HDFS中,并对所述网页向量表进行格式转换; 所述Reduce模块选取多个网页作为中心点,具体为: 所述Reduce模块读取所述HDFS中的网页编号,根据读取到的网页编号,选取多个 网页作为中心点; 所述Reduce模块生成与各个中心点对应的中心点向量,具体为: 所述Reduce模块读取所述HDFS中的词表,获取格式转换后的网页向量表,根据所 述转换后的网页向量表和所述词表,生成与各个中心点对应的中心点向量; 所述Reduce模块获取词表,具体为: 所述Reduce模块读取所述HDFS中的词表。 可选地,其特征在于,所述Map模块获取网页向量表之前,还包括: 所述Map模块从输入文本中提取各个网页的网页编号以及各个网页中的单词; 所述Reduce模块获取各个网页的网页编号以及各个网页中的单词,根据各个网 页的网页编号以及各个网页中的单词,统计各个单词在其所在网页中出现的次数,根据各 个单词在其所在网页中出现的次数,统计各个网页的总词数以及各个单词对应的网页数; 所述Reduce模块对各个单词进行编号,生成包含各个单词及其单词编号的词表, 并将所述词表写入到所述HDFS中,根据各个单词在其所在网页中出现的次数、各个网页的 总词数、各个单词对应的网页数以及网页总数,生成所述网页向量表。 可选地,所述Map模块从所述HDFS中读取所述中心点向量,根据所述中心点向量 以及所述网页向量表,确定各个网页所归属的中心点,具体为: 所述Map模块根据各个网页的网页编号,从转换后的网页向量表中查询对应的网 页向量,计算各个网页向量与各个中心点的中心点向量之间的余弦距离,根据所述余弦距 离确定各个网页所归属的中心点。 可选地,所述步骤S4,具体为: 所述Reduce模块根据更新前后的中心点向量,判断所述中心点是否发送变化,如 果发生变化,则确定不满足预设的收敛条件;否则,确定满足预设的收敛条件; 或者, 所述Reduce模块判断所述中心点向量的更新次数是否达到预设次数,如果是,则 确定满足预设的收敛条件;否则,确定不满足预设的收敛条件。 本专利技术还提供了一种基于MapReduce框架的网页聚类系统,包括Map模块和 Reduce模块,其中, 所述Reduce模块包括: 选择子模块,用于选取多个网页作为中心点; 第一生成子模块,用于生成与所述选择子模块选择的各个中心点对应的中心点向 量,将所述中心点向量写入到分布式文件系统HDFS中,并触发第一确定子模块; 第一获取子模块,用于获取词表和归属同一中心点的所有网页的网页向量; 更新子模块,用于根据所述第一获取子模块获取到的所述词表和网页向量,对所 述中心点向量进行更新,并将更新后的中心点向量写入到所述HDFS中; 判断子模块,用于在所述更新子模块对所述中心点向量进行更新后,判断是否满 足预设的收敛条件,如果是,则触发第二确定子模块;否则,触发第一确定子模块; 输出子模块,用于根据第二确定子模块确定的各个网页所归属的中心点,将各个 网页的网页编号以及对应的中心点编号作为网页聚类结果输出; 所述Map模块,包括: 第一确定子模块,用于从所述HDFS中读取所述中心点向量,根据所述中心点向量 以及网页向量表,确定各个网页所归属的中心点,并触发所述第一获取子模块; 第二确定子模块,用于从所述HDFS中读取所述中心点向量,根据所述中心点向量 以及所述网页向量表,确定各个网页所归属的中心点。 可选地,所述Map模块,还包括: 第二获取子模块,用于获取网页向量表,将所述网页向量表中的所有网页编号写 入到所述HDFS中; 转换子模块,用于对所述第二获取子模块获取到的所述网页向量表进行格式转 换; 所述选择子模块,具体用于读取所述HDFS中的网页编号,根据读取到的网页编 号,选取多个网页作为中心点; 所述第一生成子模块,具体用于读取所述HDFS中的词表,获取格式转换后的网 页向量表,根据所述转换后的网页向量表和所述词表,生成与各个中心点对应的中心点向 量; 所述第一获取子模块,具体用于获取归属同一中心点的所有网页的网页向量,读 取所述HDFS中的词表。 可选地,所述Map模块,还包括: 提取子模块,用于从输入文本中提取各个网页的网页编号以及各个网页中的单 词; 所述Reduce模块,还包括: 统计子模块,用于获取所述提取子模块提取到的各个网页的网页编号以及各个网 页中的单词,根据各个网页的网本文档来自技高网...

【技术保护点】
一种基于MapReduce框架的网页聚类方法,其特征在于,应用于Hadoop集群中的MapReduce框架,所述MapReduce框架包括Map模块和Reduce模块,所述方法包括以下步骤:S1、所述Reduce模块选取多个网页作为中心点,生成与各个中心点对应的中心点向量,并将所述中心点向量写入到分布式文件系统HDFS中;S2、所述Map模块从所述HDFS中读取所述中心点向量,根据所述中心点向量以及网页向量表,确定各个网页所归属的中心点;S3、所述Reduce模块获取词表和归属同一中心点的所有网页的网页向量,并根据所述词表和获取到的网页向量,对所述中心点向量进行更新,并将更新后的中心点向量写入到所述HDFS中;S4、所述Reduce模块判断是否满足预设的收敛条件,如果是,则执行步骤S5;否则,返回步骤S2;S5、所述Map模块从所述HDFS中读取所述中心点向量,根据所述中心点向量以及所述网页向量表,确定各个网页所归属的中心点;S6、所述Reduce模块将各个网页的网页编号以及对应的中心点编号作为网页聚类结果输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:宗栋瑞郭美思吴楠
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1