本发明专利技术提出了一种基于大数据的舆情分析方法,包括:步骤S100,数据采集,基于分布式云计算方式对网络数据进行数据采集;步骤S200,数据预处理;步骤S300,事件抽取;步骤S400,热点事件抽取;步骤S500,舆情分析。本发明专利技术采用分布式的云计算方式,能够对大规模采集的各种网络数据进行挖掘、分析。
【技术实现步骤摘要】
本专利技术设及数据处理领域,具体设及。
技术介绍
随着Web2. 0技术的发展,互联网发生翻天覆地的变化。互联网由静态网页和信 息,转变成为人人参与的"群体智慧"的展示平台。通过博客、微博、BBS、SNS、新闻评论等, 网民可W自由发布自己的观点想法和对任何事件进行评论。网络给人们提供了前所未有的 开放、便捷的信息共享与发布平台,越来越多的人通过网络来表达自己的意见、想法、情绪 和态度,其中既包括对对事件的发展有着正面、积极作用的信息,也包括一些负面、消极的 信息。同时,网络平台的开放性、直接性和隐蔽性使得网络舆论越来越重要地影响人们的意 识形态。因此,对大量舆情信息的及时有效监控分析,对维护社会稳定、促进国家发展具有 重要的现实意义。 在日常生活中,突发事件频繁发生,用户越来越习惯于利用社交网络(例如博客、 论坛、twitter,化cebook等)来发表自己的观点和情感。然而,用户对事件的情感并非保 持一成不变,而是随着时间的变化或者事件的发展而不断演化,逐渐变强或者变弱,甚至从 一种情感转化到另一种情感。如何实时在线检测用户对突发事件的情感演化过程具有十分 重要的意义。对于企业而言,可W通过对消费者购买产品后情感的持续跟进,及时发现产品 的缺点及不足。对于社会和政府工作者而言,通过分析用户对事件的情感变化情况,可对 突发事件及时做出回应,甚至预测事件的发展趋势,从而快速发现不良苗头,并进行合理引 导,将不良信息的影响程度降低到最小。 此外,随着移动互联网、物联网等应用的飞速发展,全球数据量出现了爆炸式增 长。数据量的飞速增长预示着现在已经进入了大数据时代。现有技术中对大数据的处理 采用基于化doop的平台。化doop是一个开源分布式计算平台,其核屯、包括皿FS化adoop DistributedFilesSystem,Hadoop分布式文件系统)。皿FS的众多优点(主要包括高容 错性、高伸缩性等)允许用户将化doop部署在低廉的硬件上,搭建分布式集群,构成分布式 系统。皿ase化adoopDataBase,化doop数据库)是建立在分布式文件系统皿FS之上的提 供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,主要用来存储非结构 化和半结构化的松散数据。
技术实现思路
为解决现有技术中存在的问题,本专利技术提出。 本专利技术提出的,包括: 步骤S100,数据采集,基于分布式云计算方式对网络数据进行数据采集;[000引步骤S200,数据预处理,对步骤S100采集的网络数据进行预处理; 步骤S300,事件抽取,基于预处理后的网络数据,从中抽取出事件。 其中,步骤S100包括;所述数据采集是由网络爬虫来实现的;通过分布式存储设 备存储采集的网络数据,所述分布式存储设备基于皿FS实现。 其中,步骤S200包括;首先对采集的网络数据进行分词和词性标注处理;然后, 根据停用词列表,对分词后的结果进行停用词过滤;最后得到用于表示文档的特征项 所述的基于大数据的舆情分析方法,还包括: 步骤S400,热点事件抽取,从步骤S300中抽取的事件中再次抽取出热点事件; 步骤S500,舆情分析,对步骤S400中抽取的热点事件进行演化分析,从而得到舆 情趋势。 其中,步骤S500包括; 对事件所包含的文档集合D= (di,d2,…心…},按照文档发表的时间进行聚类, 得到该事件不同时间点所对应的文档数量,将聚类结果W坐标图的形式展示给用户,坐标 横轴表示时间,坐标纵轴表示文档数量。 其中,所述网络数据包括博客、微博、论坛、新闻报道网页几个类别的数据,对于 博客、微博、论坛、新闻报道网页的数据是分别独立进行事件抽取的,假设对于博客、微博、 论坛、新闻报道网页的数据所抽取的热点事件集合分别为化OG、M-BLOG、BBS、肥WS,计 算化OG、M-BLOG、BBS、肥WS的交集,所得到的结果确定为第一热点事件集合,计算化OG、 M-BLOG、BBS、NEWS其中每S个集合的交集,所得到的所有结果的和减去第一热点事件集合 确定为第二热点事件集合,计算化〇6、1-811?、885、肥胖5其中每二个集合的交集,所得到的 所有结果的和减去第一热点事件集合W及第二热点事件集合确定为第=热点事件集合,集 合化OG、M-BLOG、BBS、肥WS的和减去第一热点事件集合、第二热点事件集合W及第S热点 事件集合的结果确定为第四热点事件集合。 本专利技术采用分布式的云计算方式,能够对大规模采集的各种网络数据进行挖掘、 分析;并通过对不同数据源数据分别进行计算分析,得到不同数据源的热点话题,进而进一 步确定话题的热度,从而能够更加客观的得到当前热点话题。本专利技术为觉政机关、大型企业 等单位和组织及时发现网络敏感信息、掌握网络舆情热点、把握网络舆情趋势、应对网络舆 情危机提供自动化、系统化和科学化的信息支持。有效提高了所述网络舆情监测系统判断 的准确性,为网络微信舆情信息的后续处理提供了更为真实、准确的基础。【附图说明】 图1为本专利技术基于大数据的舆情分析方法的流程图; 图2为基于图的文本表示的示例图。【具体实施方式】 下面将结合本专利技术的附图,对本专利技术的技术方案进行清楚、完整地描述。该里将详 细地对示例性实施例进行说明,其示例表示在附图中。下面的描述设及附图时,除非另有表 示,不同附图中的相同数字表示相同或相似的要素。W下示例性实施例中所描述的实施方 式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详 述的、本专利技术的一些方面相一致的装置和方法的例子。 参见图1,本专利技术提出的。 步骤S100,数据采集 基于分布式云计算方式对网络数据进行数据采集,所述网络数据包括博客、微博、 论坛、新闻报道网页几个类别的数据,并对所述网络数据按照博客、微博、论坛、新闻报道网 页几个类别进行标注,并按所述类别分别存储所述网络数据;其中,新闻报道网页是指腾讯 新闻、新浪新闻等口户网站W及例如人民日报等新闻媒体网站所提供的报道新闻的网页。 所述数据采集是由网络爬虫来实现的。通过分布式存储设备存储采集的网络数 据,所述分布式存储设备基于皿FS实现。 步骤S200,数据预处理,对步骤S100采集的网络数据进行预处理,首先对采集的 网络数据进行分词和词性标注处理;然后,根据停用词列表,对分词后的结果进行停用词 过滤;最后得到用于表示文档的特征项; 经过预处理之后的词汇量仍然巨大,所W仍需要进行第二个步骤,高质量词汇提 取。文档中的每一个特征项都隐含一个质量值,所谓质量值主要是基于特征项的词频特征, 反应特征项在文本中的贡献度。质量越大,说明贡献越大,可W留下用于文本聚类;反之,贝U 剔除。[002引特征项t的质量Q(t)表示为;其中,N表示所有文档的数量,f康示文档特征项t在文档i中出现的次数,1t表 示特征项t的长度, 设定阔值Q,对于Q(t)〉Q的特征项予W保留,否则删除。 步骤S300,事件抽取,基于预处理后的网络数据,从中抽取出事件。当前第1页1 2 3 4 本文档来自技高网...
【技术保护点】
一种基于大数据的舆情分析方法,包括:步骤S100,数据采集,基于分布式云计算方式对网络数据进行数据采集;步骤S200,数据预处理,对步骤S100采集的网络数据进行预处理;步骤S300,事件抽取,基于预处理后的网络数据,从中抽取出事件。
【技术特征摘要】
【专利技术属性】
技术研发人员:张鹏,
申请(专利权)人:成都布林特信息技术有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。