一种基于大数据信息发现方法技术

技术编号：14705826 阅读：63 留言：0更新日期：2017-02-25 11:38

本发明专利技术公开一种基于大数据信息发现方法，包括：s1、数据采集，S2、数据预处理，S3、事件抽取，S4、敏感事件抽取，S5、信息展示，该方法能自动实现对互联网海量数据进行自动采集，并自动分析与用户需求相结合的信息，并关联出有此相似的信息数据进行信息聚类，以信息图表的方式展示给用户。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，具体涉及一种基于大数据信息发现方法。
技术介绍
随着Web2.0技术的发展，互联网发生翻天覆地的变化。互联网由静态网页和信息，转变成为人人参与的“群体智慧”的展示平台。通过博客、微博、BBS、SNS、新闻评论等，网民可以自由发布自己的观点想法和对任何事件进行评论。此外，随着移动互联网、物联网等应用的飞速发展，全球数据量出现了爆炸式增长。“大数据”在互联网行业指的是这样一种现象：互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大，以至于不能用G或T来衡量，大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。大数据到底有多大？一组名为“互联网上一天”的数据告诉我们，一天之中，互联网产生的全部内容可以刻满1.68亿张DVD，发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量)，发出的社区帖子达200万个(相当于《时代》杂志770年的文字量)，卖出的手机为37.8万台，高于全球每天出生的婴儿数量37.1万。进入2012年，大数据(Bigdata)一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数据，并命名与之相关的技术发展与创新。数据正在迅速膨胀并变大，它决定着企业的未来发展、政府机构决策的方向，随着时间的推移，人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战，也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。大数据环境下数据来源非常丰富且数据类型多样，存储和分析挖掘的数据量庞大，对数据展现的要求较高，...
一种基于大数据信息发现方法

【技术保护点】
一种基于大数据信息发现方法，包括以下步骤：s1、数据采集，基于分布式云计算方式对互联网上的数据进行采集，所述数据采集是由网络爬虫来获取数据信息，并通过分布式存储设备存储采集的网络数据；S2、数据预处理，对步骤S1采集的网络数据进行预处理；S3、事件抽取，基于预处理后的网络数据，从中抽取出事件；S4、敏感事件抽取，从步骤S3中抽取的事件通过信息关联分析技术和信息聚合技术，对用户关注的敏感的事件和话题进行信息聚合，并且分析出事件热点和敏感点，并结合事件扩散范围进行分析并预警；S5、信息展示，将信息聚合后以信息图表的方式展示给用户。

【技术特征摘要】
1.一种基于大数据信息发现方法，包括以下步骤：s1、数据采集，基于分布式云计算方式对互联网上的数据进行采集，所述数据采集是由网络爬虫来获取数据信息，并通过分布式存储设备存储采集的网络数据；S2、数据预处理，对步骤S1采集的网络数据进行预处理；S3、事件抽取，基于预处理后的网络数据，从中抽取出事件；S4、敏感事件抽取，从步骤S3中抽取的事件通过信息关联分析技术和信息聚合技术，对用户关注的敏感的事件和话题进...

【专利技术属性】
技术研发人员：晋彤，李永康，
申请(专利权)人：广州特道信息科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人