多源、异构流态大数据分布式在线实时处理方法及系统技术方案

技术编号:21089904 阅读:86 留言:0更新日期:2019-05-11 10:05
本公开提供了一种多源、异构流态大数据分布式在线实时处理方法及系统,利用分布式爬虫去重算法对各来源的网页数据进行爬取,对爬取的页面进行预处理,利用视觉的页面分割算法构建相应的树,并根据视觉规则进行噪音节点的剪枝,对多层页面进行分类,根据不同特性确定不同类型页面下的谓词,通过规则推断出数据记录块节点与数据属性节点;利用分布式消息系统将预处理后的数据源分发,提供数据流,对数据流中的数据节点本身状态进行描述,形成状态信息;利用Hadoop分布式文件系统对数据流进行选择存储的操作,基于K‑means文本聚类方法对处理后的数据进行检测,确定与预定的敏感信息文本相似的文本,筛选出敏感信息。

Distributed Online Real-time Processing Method and System for Large Data of Multi-source and Heterogeneous Flow

【技术实现步骤摘要】
多源、异构流态大数据分布式在线实时处理方法及系统
本公开涉及一种多源、异构流态大数据分布式在线实时处理方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。以国际互联网形成为标志的网络技术革命把人类社会推向信息网络化时代,形成全新的社会生活空间——网络环境,实时映射着社会生活的方方面面。在移动网和互联网飞速发展的时代,信息高度膨胀使得当前安全形势变得更加错综复杂,网络战争已经成为非传统社会安全领域的一个重要课题。由于论坛、微博、博客、私人空间、人人网等社交网站承载着大量的数据流动,在传统安全防范手段难以有效发挥作用的电子荒野上,亿万个网民的亿万种声音,利用互联网的隐蔽性、普及性、虚拟性以及时空超越性等特点隐身,给社会安全和国家稳定带来巨大挑战。因此,如何对社交大数据中的敏感信息进行挖掘,以网络犯罪实时发现为主要目标,提出针对社会安全事件和危险观点持有者的监控和预警框架,从而为在新型战场中抑制犯罪提供技术支持已成为当前重要的研究课题和应用需求。当前国内外针对网络犯罪防控的研究主要集中于敏感话题发现、犯罪组织关系挖掘以及谣言的传播等方面。从宏观上划分,大数据分析技术在网络犯罪防控中的应用可分为犯罪活动发生之前和发生之后。在犯罪活动发生之前,通过大数据技术对新产生的海量敏感数据进行预测,以监控犯罪分子的动向,并及时做出预警。在犯罪活动发生之后,利用各种方式收集相关数据,通过大数据技术深入挖掘所掌握的敏感数据,来判别事件并锁定人员。当前的研究无论是敏感话题发现、犯罪组织关系挖掘还是针对谣言的传播,均依赖于一定量数据的积累分析,属于事后研判,其对犯罪活动整治及舆论导向起着支撑和辅助决策的作用,但却难以做到社会安全的实时监控以及预警。
技术实现思路
本公开为了解决上述问题,提出了一种多源、异构流态大数据分布式在线实时处理方法及系统。根据一些实施例,本公开采用如下技术方案:一种多源、异构流态大数据分布式在线实时处理方法,包括以下步骤:(1)利用分布式爬虫中URL去重算法对各来源的网页数据进行爬取,构建哈希表保存已经访问过的URL,并利用布隆过滤器进行地址判重;(2)对爬取的页面进行预处理,利用视觉的页面分割算法VISP构建相应的树,并根据视觉规则进行噪音节点的剪枝,对多层页面进行分类,根据不同特性确定不同类型页面下的谓词,通过规则推断出数据记录块节点与数据属性节点;(3)利用分布式消息系统将预处理后的数据源分发,提供数据流,对数据流中的数据节点本身状态进行描述,形成状态信息;(4)利用Hadoop分布式文件系统对数据流进行选择存储的操作,数据节点通过心跳协议定期向控制节点汇报其状态信息,控制节点根据状态信息作为存储策略来选择数据节点是否合适的依据,根据设定的阈值与数据节点的状态信息来确定是否选择这个数据节点,对选择的数据进行优化存储;(5)采用主从模式构建分布式数据处理模型对存储的数据进行处理,利用控制节点保存集群中计算节点信息,并建立任务调度机制、数据分片调度和追踪机制,以及并行计算状态追踪机制,利用计算节点与控制节点通信,运行控制节点分派的任务,得到分发数据结果;(6)基于K-means文本聚类方法对处理后的数据进行检测,确定与预定的敏感信息文本相似的文本,筛选出敏感信息。作为进一步的限定,所述步骤(1)中,构建多个哈希表,每个哈希表通过一个哈希函数将一个网页映射成一个位阵列中的一个点,利用布隆过滤器查看每个哈希表,只要查看对应的点是不是1就能够确定对应的集合中是否包含该网页。数据来源包括互联网社交网络、在线论坛、微博客、内容分享社区等主流网络平台。作为进一步的限定,所述步骤(2)中,对页面的实体属性抽取,利用视觉分割算法VISP将结果页面进行区域分割并构建对应的Vision树,将结果页面分为:(a)内部页面,包含同一页面内各元素及其关系;(b)详细页面,包含了具体实体的详细信息,通过内部页面的超链接访问;(c)同类页面,为同一站点下由相同模板生成,其包含实体具有一定的结构、位置和外观相似性;利用了Markov逻辑网对分类关系进行建模以实现特征的有效合并,通过对三类特征的集成,计算出所有最大谓词,完成对实体属性的推理抽取。作为进一步的限定,所述步骤(3)中,利用Kafka作为中间件进行数据源分发。作为进一步的限定,所述步骤(4)中,Hadoop分布式文件系统中只有控制节点和数据节点,控制节点负责系统控制和策略实施,数据节点负责存储数据,当客户端向HDFS文件系统中存储数据时,首先客户端和控制节点通信,控制节点根据副本系数去选择数据节点,然后返回给客户端选择的数据节点,最后客户端和这些数据节点直接通信传输数据。作为进一步的限定,所述步骤(4)中,状态信息包括成员变量、存储容量、剩余容量和最后更新时间信息,这些信息需要数据节点定期向控制节点汇报,控制节点利用这些信息作为数据存储策略的选择依据;数据节点通过定期的向控制节点发送心跳,汇报当前数据节点的状态信息,同时告诉控制节点自己还活着,控制节点通过对数据节点的心跳答复发送相应的命令信息。作为进一步的限定,所述步骤(4)中,控制节点在接收到数据节点的心跳后的算法处理过程如下:对控制节点的身份进行检查包括版本信息和注册信息;控制节点更新该数据节点的状态信息;控制节点查询该数据节点的块状态,然后生成对数据节点的命令列表;控制节点检查当前的分布式系统更新状态;控制节点将生成的命令信息发送给相应的数据节点;心跳处理完毕。作为进一步的限定,所述步骤(4)中,采用机架感知的策略来确定数据节点的位置,通过一个机架感知的过程,控制节点确定数据节点所属的机架id,默认的存储策略将副本存放在不同的机架上,将副本数据均匀的分布在集群之中。作为进一步的限定,所述步骤(4)中,控制节点存储HDFS集群中所有节点的方式为集群中的一个路由器节点包含多个路由器节点,或包含多个机架节点,一个机架节点包含多个数据节点,控制节点通过这种树状网络拓扑结构来表示集群中数据节点在物理位置上的映射。作为进一步的限定,所述步骤(4)中,存储策略选择数据节点前需要判断集群中数据节点的状态和备份系数,然后计算每个机架上的最大选择节点数;节点位置策略首先会在本地选择一个数据节点,并且使用节点选择策略判断节点是不是合适,其次会在远程选择一个数据节点,同样使用节点选择策略判断节点是不是合适,最后会在本地再选择一个数据节点,还需要使用节点选择策略判断节点是不是合适;如果副本系数大于设定值,则剩余的数据节点会在集群中随机选择,同样需要使用节点选择策略判断节点是不是合适;存储策略在返回选择的数据节点之前,需要调用节点排序策略对节点排序,之后才返回给控制节点。作为进一步的限定,所述步骤(5)中,利用一哈希函数将存储数据分割成n个桶,其中第i个桶,称为Di,完全存储在内存,其他桶当写入缓冲区写满时,数据存储到磁盘,在内存中用Reduce函数处理中间结果数据,随后其他桶依次从磁盘读取数据,一次一个,如果一个桶Di可以装入内存,则完全在内存中执行Reduce任务,否则,用另一哈希函数再对它递归的进行分割,直至可以装入内存,控制节点保存集群中计算节点信息,并建立任务调度机制、数据分片调度和本文档来自技高网
...

【技术保护点】
1.一种多源、异构流态大数据分布式在线实时处理方法,其特征是:包括以下步骤:(1)利用分布式爬虫中URL去重算法对各来源的网页数据进行爬取,构建哈希表保存已经访问过的URL,并利用布隆过滤器进行地址判重;(2)对爬取的页面进行预处理,利用视觉的页面分割算法VISP构建相应的树,并根据视觉规则进行噪音节点的剪枝,对多层页面进行分类,根据不同特性确定不同类型页面下的谓词,通过规则推断出数据记录块节点与数据属性节点;(3)利用分布式消息系统将预处理后的数据源分发,提供数据流,对数据流中的数据节点本身状态进行描述,形成状态信息;(4)利用Hadoop分布式文件系统对数据流进行选择存储的操作,数据节点通过心跳协议定期向控制节点汇报其状态信息,控制节点根据状态信息作为存储策略来选择数据节点是否合适的依据,根据设定的阈值与数据节点的状态信息来确定是否选择这个数据节点,对选择的数据进行优化存储;(5)采用主从模式构建分布式数据处理模型对存储的数据进行处理,利用控制节点保存集群中计算节点信息,并建立任务调度机制、数据分片调度和追踪机制,以及并行计算状态追踪机制,利用计算节点与控制节点通信,运行控制节点分派的任务,得到分发数据结果;(6)基于K‑means文本聚类方法对处理后的数据进行检测,确定与预定的敏感信息文本相似的文本,筛选出敏感信息。...

【技术特征摘要】
1.一种多源、异构流态大数据分布式在线实时处理方法,其特征是:包括以下步骤:(1)利用分布式爬虫中URL去重算法对各来源的网页数据进行爬取,构建哈希表保存已经访问过的URL,并利用布隆过滤器进行地址判重;(2)对爬取的页面进行预处理,利用视觉的页面分割算法VISP构建相应的树,并根据视觉规则进行噪音节点的剪枝,对多层页面进行分类,根据不同特性确定不同类型页面下的谓词,通过规则推断出数据记录块节点与数据属性节点;(3)利用分布式消息系统将预处理后的数据源分发,提供数据流,对数据流中的数据节点本身状态进行描述,形成状态信息;(4)利用Hadoop分布式文件系统对数据流进行选择存储的操作,数据节点通过心跳协议定期向控制节点汇报其状态信息,控制节点根据状态信息作为存储策略来选择数据节点是否合适的依据,根据设定的阈值与数据节点的状态信息来确定是否选择这个数据节点,对选择的数据进行优化存储;(5)采用主从模式构建分布式数据处理模型对存储的数据进行处理,利用控制节点保存集群中计算节点信息,并建立任务调度机制、数据分片调度和追踪机制,以及并行计算状态追踪机制,利用计算节点与控制节点通信,运行控制节点分派的任务,得到分发数据结果;(6)基于K-means文本聚类方法对处理后的数据进行检测,确定与预定的敏感信息文本相似的文本,筛选出敏感信息。2.如权利要求1所述的一种多源、异构流态大数据分布式在线实时处理方法,其特征是:所述步骤(1)中,构建多个哈希表,每个哈希表通过一个哈希函数将一个网页映射成一个位阵列中的一个点,利用布隆过滤器查看每个哈希表,只要查看对应的点是不是1就能够确定对应的集合中是否包含该网页。3.如权利要求1所述的一种多源、异构流态大数据分布式在线实时处理方法,其特征是:所述步骤(2)中,对页面的实体属性抽取,利用视觉分割算法VISP将结果页面进行区域分割并构建对应的Vision树,将结果页面分为:(a)内部页面,包含同一页面内各元素及其关系;(b)详细页面,包含了具体实体的详细信息,通过内部页面的超链接访问;(c)同类页面,为同一站点下由相同模板生成,其包含实体具有一定的结构、位置和外观相似性;利用了Markov逻辑网对分类关系进行建模以实现特征的有效合并,通过对三类特征的集成,计算出所有最大谓词,完成对实体属性的推理抽取。4.如权利要求1所述的一种多源、异构流态大数据分布式在线实时处理方法,其特征是:所述步骤(4)中,Hadoop分布式文件系统中只有控制节点和数据节点,控制节点负责系统控制和策略实施,数据节点负责存储数据,当客户端向HDFS文件系统中存储数据时,首先客户端和控制节点通信,控制节点根据副本系数去选择数据节点,然后返回给客户端选择的数据节点,最后客户端和这些数据节点直接通信传输数据;状态信息包括成员变量、存储容量、剩余容量和最后更新时间信息,这些信息需要数据节点定期向控制节点汇报,控制节点利用这些信息作为数据存储策略的选择依据;数据节点通过定期的向控制节点发送心跳,汇报当前数据节点的状态信息,同时告诉控制节点自己还活着,控制节点通过对数据节点的心跳答复发送相应的命令信息。5.如权利要求1所述的一种多源、异构流态大数据分布式在线实时处理方法,其特征是:所述步骤(4)中,控制节点在接收到数据节点的心跳后的算法处理过程如下:对控制节点的身份进行检查包括版本信息和注册信息;控制节点更新该数据节点的状态信息;控制节点查询该数据节点的块状态,然后生成对数据节点的命令列表;控制节点检查当前的分布式系统更新状态;控制节点将生成的命令信息发送给相应的数据节点;心跳处理完毕。6.如权利要求1所述的一种多源、异构流态大数据分布式在线实时处理方法,其特征是:所述步骤(4)中,采用机架感知的策略来确定数据节点的位置,通过一个机架感知的过程,控制节点确定数据节点所属的机架id,默认的...

【专利技术属性】
技术研发人员:于俊凤魏墨济杨子江李思思朱世伟郭建萍杨爱芹李晨刘翠芹
申请(专利权)人:山东省科学院情报研究所
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1