本发明专利技术公开一种基于大数据信息发现方法,包括:s1、数据采集,S2、数据预处理,S3、事件抽取,S4、敏感事件抽取,S5、信息展示,该方法能自动实现对互联网海量数据进行自动采集,并自动分析与用户需求相结合的信息,并关联出有此相似的信息数据进行信息聚类,以信息图表的方式展示给用户。
【技术实现步骤摘要】
本专利技术涉及数据处理领域,具体涉及一种基于大数据信息发现方法。
技术介绍
随着Web2.0技术的发展,互联网发生翻天覆地的变化。互联网由静态网页和信息,转变成为人人参与的“群体智慧”的展示平台。通过博客、微博、BBS、SNS、新闻评论等,网民可以自由发布自己的观点想法和对任何事件进行评论。此外,随着移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增长。“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。大数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD,发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量),发出的社区帖子达200万个(相当于《时代》杂志770年的文字量),卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万。进入2012年,大数据(Bigdata)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。数据正在迅速膨胀并变大,它决定着企业的未来发展、政府机构决策的方向,随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。如果能在大量非结构化和半结构化数据中采集有效的信息,无疑是大大提升了信息采集的准确性,从而提升人们工作的效率,对市场的准确把握。所以大数据信息发现也日渐成为人们关心的问题。
技术实现思路
为解决现有技术中存在的问题,本专利技术提出一种基于大数据信息发现方法,包括以下步骤:s1、数据采集,基于分布式云计算方式对互联网上的数据进行采集,所述数据采集是由网络爬虫来获取数据信息,并通过分布式存储设备存储采集的网络数据;S2、数据预处理,对步骤S1采集的网络数据进行预处理;S3、事件抽取,基于预处理后的网络数据,从中抽取出事件;S4、敏感事件抽取,从步骤S3中抽取的事件通过信息关联分析技术和信息聚合技术,对用户关注的敏感的事件和话题进行信息聚合,并且分析出事件热点和敏感点,并结合事件扩散范围进行分析并预警;S5、信息展示,将信息聚合后以信息图表的方式展示给用户。其中,步骤S3还包括:对步骤S2预处理得到的文档进行文档聚类,将每天新来到的报道作一次局部聚类,从而得出每天的局部事件,称之为候选事件集合;归并聚类,将局部聚类之后产生的候选事件集合和以往的旧事件集合进行归并,产生最新的事件集合。本专利技术采用分布式的云计算方式,能够对大规模采集的各种网络数据进行挖掘、分析;用户可通过配置自动发现策略,通过信息关联分析技术和信息聚合技术,对用户关注的敏感的事件和话题进行信息聚合。同时并且分析出事件热点和敏感点,并结合事件扩散范围进行分析并预警。通过大数据挖掘技术和信息处理技术,对互联网非关联的业务数据进行抽取、转换、分析和其他模型化处理,从中提取企业和事业单位需要决策的关键性数据和商业信息。同时针对关键词发现事件热点和敏感的事件和话题。能自动实现对互联网海量数据进行自动采集,并自动分析与用户需求相结合的信息,并关联出有此相似的信息数据进行信息聚类,以信息图表的方式展示给用户。附图说明图1是本专利技术基于大数据信息发现方法流程图。具体实施方式下面将结合本专利技术的附图,对本专利技术的技术方案进行清楚、完整地描述。参见图1,本专利技术提出的一种基于大数据信息发现方法,包括以下步骤:s1、数据采集,基于分布式云计算方式对互联网上的数据进行采集,所述数据采集是由网络爬虫来获取数据信息,并通过分布式存储设备存储采集的网络数据;S2、数据预处理,对步骤S1采集的网络数据进行预处理;S3、事件抽取,基于预处理后的网络数据,从中抽取出事件;S4、敏感事件抽取,从步骤S3中抽取的事件通过信息关联分析技术和信息聚合技术,对用户关注的敏感的事件和话题进行信息聚合,并且分析出事件热点和敏感点,并结合事件扩散范围进行分析并预警;S5、信息展示,将信息聚合后以信息图表的方式展示给用户。其中,步骤S3还包括:对步骤S2预处理得到的文档进行文档聚类,将每天新来到的报道作一次局部聚类,从而得出每天的局部事件,称之为候选事件集合;归并聚类,将局部聚类之后产生的候选事件集合和以往的旧事件集合进行归并,产生最新的事件集合。通过采用分布式的云计算方式,能够对大规模采集的各种网络数据进行挖掘、分析;用户可通过配置自动发现策略,通过信息关联分析技术和信息聚合技术,对用户关注的敏感的事件和话题进行信息聚合。同时并且分析出事件热点和敏感点,并结合事件扩散范围进行分析并预警。通过大数据挖掘技术和信息处理技术,对互联网非关联的业务数据进行抽取、转换、分析和其他模型化处理,从中提取企业和事业单位需要决策的关键性数据和商业信息。同时针对关键词发现事件热点和敏感的事件和话题。能自动实现对互联网海量数据进行自动采集,并自动分析与用户需求相结合的信息,并关联出有此相似的信息数据进行信息聚类,以信息图表的方式展示给用户。上述实施例只为说明本专利技术的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本专利技术的内容并加以实施,并不能以此限制本专利技术的保护范围,凡根据本专利技术精神实质所作的等效变化或修饰,都应涵盖在本专利技术的保护范围内。本文档来自技高网...
【技术保护点】
一种基于大数据信息发现方法,包括以下步骤:s1、数据采集,基于分布式云计算方式对互联网上的数据进行采集,所述数据采集是由网络爬虫来获取数据信息,并通过分布式存储设备存储采集的网络数据;S2、数据预处理,对步骤S1采集的网络数据进行预处理;S3、事件抽取,基于预处理后的网络数据,从中抽取出事件;S4、敏感事件抽取,从步骤S3中抽取的事件通过信息关联分析技术和信息聚合技术,对用户关注的敏感的事件和话题进行信息聚合,并且分析出事件热点和敏感点,并结合事件扩散范围进行分析并预警;S5、信息展示,将信息聚合后以信息图表的方式展示给用户。
【技术特征摘要】
1.一种基于大数据信息发现方法,包括以下步骤:s1、数据采集,基于分布式云计算方式对互联网上的数据进行采集,所述数据采集是由网络爬虫来获取数据信息,并通过分布式存储设备存储采集的网络数据;S2、数据预处理,对步骤S1采集的网络数据进行预处理;S3、事件抽取,基于预处理后的网络数据,从中抽取出事件;S4、敏感事件抽取,从步骤S3中抽取的事件通过信息关联分析技术和信息聚合技术,对用户关注的敏感的事件和话题进...
【专利技术属性】
技术研发人员:晋彤,李永康,
申请(专利权)人:广州特道信息科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。