一种基于Storm分布式框架的食品安全网络舆情预警系统技术方案

技术编号:15228306 阅读:125 留言:0更新日期:2017-04-27 12:50
本发明专利技术公开了属于大数据处理技术领域中的一种基于storm分布式框架的食品安全网络舆情预警系统,通过爬取网络媒体的新闻网页,然后从网页文件中提取食品相关舆情信息并将其进行分布式聚类;对每个聚类结果中的舆情信息进行进一步分析以得到每个事件,并获取事件的起源、发展、高潮、结束阶段的相关信息,以达到网络监控的目的。本系统通过storm分布式框架提高了舆情数据处理的效率,解决了以往时效性较差的缺点。

【技术实现步骤摘要】

本专利技术涉及食品安全大数据处理
,具体而言,提供了一种基于storm分布式框架的食品安全网络舆情预警系统,通过爬取网络媒体的新闻网页,然后从网页文件中提取食品相关舆情信息并将其进行分布式聚类;对每个聚类结果中的舆情信息进行进一步分析以得到每个事件,并获取事件的起源、发展、高潮、结束阶段的相关信息,以达到网络监控的目的。
技术介绍
随着互联网的飞速发展和计算机的广泛普及,世界变得越来越小,网络已经成为人们表达观点、宣泄情绪的一种重要的渠道,人们借助于网络所表达和传播对于事件的各种不同态度、认识和情感的集合便形成了网络舆情。网络舆情态势作为衡量社会舆情动态的实时晴雨表在管理实践和学术研究中显得尤为重要。对于网络舆情做出正确的分析与处理,给出预警阈值以及预警等级,将会给公共事务管理者带来极大的好处,进而对舆情引导和事件治理带来正面并且积极的作用。网络舆情预警方面的研究主要包括以下三方面:建立预警指标体系。有学者认为网络舆情的发生、发展过程会通过一系列关键指标体现,并将这些指标按照一定的科学方法确定关键指标构成、指标维度、指标层次、指标量化方法等,从而建立预警指标体系。基于情感倾向性分析技术的预警。采用这种方式进行预警的学者认为网络舆情预警能力主要体现在是否能够从海量的网络言论中,发现潜在危机的隐患。这两种方法都在一定程度上解决了网络舆情预警的问题,显然也存在明显的不足之处。一是,在建立预警指标体系方面,确定指标的权重会使指标体系带有强烈的主观色彩,并且必须要等到所有末级指标的数据得到后,才能对目标进行评价,这就导致了研究有极大的主观性和不可靠性。二是,指标体系过于庞大,结果计算复杂导致了错过了最佳预警时机。三是,凭借在网络中搜集到的网民态度倾向性很难对事件做出准确的预警。到目前为止,对情感倾向性分析主要包括“赞同”、“反对”、“中立”三种态度。基于web数据挖掘的预警。web挖掘技术将数据挖掘、人工智能和自然语言处理等技术综合在一起,从网络中自动并且智能地抓取目标事件有关的数据,比如对网络数据进行网页特征提取、基于内容的网页聚类、网络间内容关联规则的发现等。然后构成目标数据集,并且利用相应的工具和技术对挖掘出的数据进行分析、解释,并通过分析结果对网络舆情进行危机预警。俗话说“民以食为天”,物质生活的富裕,更加促进了人们对健康的追求,食品安全问题作为关系到公共卫生健康的重要问题之一也日益被关注。我国目前建立了相对较完备的食品质量安全技术标准,但对于食品安全的状态评价和安全预警研究并不多。食品安全预警是整个食品安全管理战略的重要组成部分,其主要功能在于对食品安全风险的预防预测。影响食品安全的要素复杂多变,食品安全监管的难度系数也逐年上升,建立有效的食品安全网络舆情预警机制,及时发现安全隐患,对重大安全事件防患于未然是一项迫切任务。单遍法或单道法(Single-pass算法)是流式数据聚类的经典算法,对于依次到达的数据流,该算法按数据输入顺序,每次处理一个数据,对其进行聚类,依据该数据与已有类的数据进行相似度相似度大小计算,将该数据判为已有类或者新形成一个新类。用来进行事件他的提取与追踪。但聚类结果依赖数据的输入顺序,且算法精度不高。过去的十年是数据处理变革的十年,MapReduce(映射归约)模型、Hadoop(海杜普)模型以及一些相关的技术使得我们能处理的数据量比以前要大得多,Hadoop已经成为批处理的标准,但是人们对于实时处理的要求越来越高,大规模的实时数据处理已经越来越成为一种业务需求了,数据处理整个生态系统缺少一个“实时版本的Hadoop”,而Storm的出现填补的这个缺失,所以出现了Storm流式处理技术。采用Storm分布式框架,完成对海量数据的实时处理,能够对网络舆情预警提供较好的数据支撑。因此从2011年开源以后,Storm的高吞吐量、高时效性极大地提高了对大数据的处理。Twitter曾经一度用Storm实时处理每一个发布者的信息并对Twitter发布者的跟随者提供分析,目前依然使用基于StormAPI的框架Heron。阿里使用Storm实时分析用户的属性,并反馈给搜索引擎,每天能处理200万到15亿条日志。支付宝用Storm实时统计交易数量、交易金额,每天处理超过6T的数据。
技术实现思路
一种基于storm分布式框架的食品安全网络舆情预警系统,其特征在于,通过爬取食品相关舆情信息,并进行分布式聚类;分析聚类结果以得到事件信息,判断舆情变化趋势,进而进行监控和预警。在所述基于storm分布式框架的食品安全网络舆情预警系统中,拓扑结构包括控制节点和工作节点,所述控制节点上包括Nimbus组件,所述Nimbus组件负责分配工作给工作节点并且监控状态;所述工作节点包括Supervisor组件,所述Supervisor组件负责监听所辖服务器的工作,根据需要启动/关闭工作进程。在所述基于storm分布式框架的食品安全网络舆情预警系统中,spout节点从外部数据源读取数据并且随机分发给第一层bolt节点进行计算和处理,bolt节点向外继续发送本身处理后的结果给下一层bolt节点,从而将任务分成多个部分并行处理,任务拓扑在提交后会一直运行,除非显示终止。在所述基于storm分布式框架的食品安全网络舆情预警系统中,第一层bolt节点对文本进行分词和向量化,采用NLPIR汉语分词系统和食品类别表对文本进行分词处理,然后使用TF_IDF算法和自编码神经网络进行向量化,实现食品类别判断,对标题和摘要分词后的结果与食品类别表中的词进行对比,对出现频率最高的食品词汇与食品类别表中的子类别进行关联匹配,得出文本在食品类别表中的父类别,作为文本的分类,其中,文本采用向量空间模型的形式来表示如表达式:D={(t1,w1),(t2,w2),(t3,w3),…,(tn,wn),本文档来自技高网
...

【技术保护点】
一种基于storm分布式框架的食品安全网络舆情预警系统,其特征在于,通过爬取食品相关舆情信息,并进行分布式聚类;分析聚类结果以得到事件信息,判断舆情变化趋势,进而进行监控和预警。

【技术特征摘要】
1.一种基于storm分布式框架的食品安全网络舆情预警系统,其特征在于,通过爬取食品相关舆情信息,并进行分布式聚类;分析聚类结果以得到事件信息,判断舆情变化趋势,进而进行监控和预警。2.根据权利要求1所述的基于storm分布式框架的食品安全网络舆情预警系统中,其特征在于,所述系统的拓扑结构包括控制节点和工作节点,所述控制节点上包括Nimbus组件,所述Nimbus组件负责分配工作给工作节点并且监控状态;所述工作节点包括Supervisor组件,所述Supervisor组件负责监听所辖服务器的工作,根据需要启动/关闭工作进程。3.根据权利要求2所述的基于storm分布式框架的食品安全网络舆情预警系统中,其特征在于,通过spout节点从外部数据源读取数据并且随机分发给第一层bolt节点进行...

【专利技术属性】
技术研发人员:李芳朱群雄陈凯江志英戴龙龙李顺子韩永明刘璐耿志强徐圆
申请(专利权)人:北京化工大学贵州省食品安全检测应用工程技术研究中心有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1