一种基于大数据的舆情系统技术方案

技术编号:32552338 阅读:18 留言:0更新日期:2022-03-05 11:52
本发明专利技术公开了一种基于大数据的舆情系统,涉及舆情系统技术领域,为解决现有的舆情系统在数据分析上无法高效运维以及在数据采集上无法快速准确定位的问题。所述舆情规划、舆情采集、舆情数据、舆情分析以及舆情报告,其中:舆情规划包括互联网引擎搜索,从互联网中提取多种关键词,还包括论坛、博客、新闻以及贴吧多个获取舆情信息;舆情采集,包括文本聚类、文本分类、文本倾向性判断以及关键词抽取,所述舆情采集通过多重算法处理获得舆情数据;舆情数据,包括内容入库储存、网页快照以及附件存储;舆情分析,基于Tablestore构架,采用Blink计算系统对舆情数据进行分析并生成舆情报告;舆情报告,包括舆情专报、舆情简报以及预警系统。舆情简报以及预警系统。舆情简报以及预警系统。

【技术实现步骤摘要】
一种基于大数据的舆情系统


[0001]本专利技术涉及舆情系统
,具体为一种基于大数据的舆情系统。

技术介绍

[0002]当前网络舆情无论从信息量还是从观点量都已无可争议地压倒传统媒体。面对网络上海量的舆情信息和舆情观点,依托人工力量进行整理、发现和分析,不仅费时费力而且也近乎不可能完成。因此构建以计算机技术和现代网络技术为基础的.以情报学领域中信息采集、信息组织、信息分析方法为理论依据的网络舆情分析系统势在必行,舆情系统需要综合运用搜索引擎技术、文本处理技术、知识管理方法、自然语言处理、手机短信平台,通过对互联网海量信息自动获取、提取、分类、聚类、主题监测、专题聚焦,以满足用户对网络舆情监测和热点事件专题追踪等需求。
[0003]但是,现有的舆情系统在使用的过程中存在一些缺陷:一、在面对舆情数据的分析上,目前采用多Hbase+Solr多引擎,其运维复杂,需要有运维hbase和solr两套系统的能力,同时还需要维护数据同步的链路;二、在舆情信息的获取上,不能够第一时间掌握到与用户相关的重大事件以及舆情事件,因此不满足现有的需求,对此我们提出了一种基于大数据的舆情系统。

技术实现思路

[0004]本专利技术的目的在于提供一种基于大数据的舆情系统,以解决上述
技术介绍
中提出的舆情系统在数据分析上无法高效运维以及在数据采集上无法快速准确定位的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于大数据的舆情系统,包括舆情规划、舆情采集、舆情数据、舆情分析以及舆情报告,其中
[0006]舆情规划包括互联网引擎搜索,从互联网中提取多种关键词,还包括论坛、博客、新闻以及贴吧多个获取舆情信息;
[0007]舆情采集,包括文本聚类、文本分类、文本倾向性判断以及关键词抽取,所述舆情采集通过多重算法处理获得舆情数据;
[0008]舆情数据,包括内容入库储存、网页快照以及附件存储;
[0009]舆情分析,基于Tablestore构架,采用Blink计算系统对舆情数据进行分析并生成舆情报告;
[0010]舆情报告,包括舆情专报、舆情简报以及预警系统。
[0011]优选的,所述文本聚类对海量的无类别文档进行归类,在对文档集进行分词、向量化后得到特征集合,从全部特征集中提取一个最优的特征子集,对特征提取后的特征向量进行微调,突出聚类重要词进行聚类,把内容相近的文档归为一类得到聚类结果,并自动为其生成主题词,为确定类目名称提供方便,最后生成舆情专题、重大新闻事件追踪等;文本分类,一是获取训练文档集,初始的文档集来自上步骤中的文本聚类;
[0012]所述文本分类一是获取训练文档集,初始的文档集来自文本聚类,二是建立文档
表示模型,三是进行文档特征选择,四是选择分类方法,主要采用KNN和支持向量机相结合的方法;血是建立性能评估模型,通过以上五个步骤对采集到的信息进行归类处理,为下一步的主题分析提供分类主题集;
[0013]所述文本倾向性判断能够判断态度和立场,倾向性分析对舆论热点的思想动向、倾向和走向至关重要,更能够从数量关系上揭示舆情的特点和规律。
[0014]优选的,所述多重算法处理包括热点发现算法、情感分析算法、预警分析算法以及垃圾过滤算法。
[0015]优选的,所述舆情数据通过Tablestore构架进行分析,结构化提取后发送至Blink计算系统进行舆情实时计算,重大舆情事件的预警,预警系统通过Tablestore和函数计算触发器对接来实现,通过结果表写入事件,可通过函数计算触发通知,完整的舆情分析结果和展示搜索利用Tablestore多元索引;
[0016]除实时计算外,支持批处理Tablestore的数据,低峰期批量处理部分数据并作为反馈结果写回Tablestore,既可以做实时流计算又可以离线批处理。
[0017]优选的,所述预警系统通过邮件、短信和APP发送预警通知。
[0018]优选的,所述舆情分析系统包括近期热点、负面消息、趋势分析、专题侦测、热点发现、舆情管理以及转载群站。
[0019]与现有技术相比,本专利技术的有益效果是:
[0020]1、本专利技术舆情采集模块主要根据地址数据库传递过来的地址URL对相应地址的web页面内容进行抓取,采取文本聚类、文本分类、文本倾向性判断以及关键词抽取技术,通过多重算法处理将经过处理的文档转换为适合于分类、聚类等挖掘算法的表示形式,并进行智能自动关键词标引、热点敏点词汇标注、情感倾向性分析,最后形成舆情数据,其中文本聚类对海量的无类别文档进行归类,在对文档集进行分词、向量化后得到特征集合,从全部特征集中提取一个最优的特征子集,对特征提取后的特征向量进行微调,突出聚类重要词进行聚类,把内容相近的文档归为一类得到聚类结果,并自动为其生成主题词,为确定类目名称提供方便,最后生成舆情专题、重大新闻事件追踪等;文本分类,一是获取训练文档集,初始的文档集来自上步骤中的文本聚类;二是建立文档表示模型;三是进行文档特征选择:四是选择分类方法,主要采用KNN和支持向量机相结合的方法;血是建立性能评估模型。通过以上5个步骤对采集到的信息进行归类处理,为下一步的主题分析提供分类主题集;文本倾向性判断,能够判断态度和立场,倾向性分析对舆论热点的思想动向、倾向和走向至关重要,更能够从数量关系上揭示舆情的特点和规律。
[0021]2、本专利技术在舆情分析上基于Tablestore构架,并在计算系统上选择阿里云的Blink,一个数据库解决不同存储需求,利用Tablestore宽行的特性,合并原始网页和网页结构化数据成一张网页数据,网页数据表和计算系统通过Tablestore新功能通道服务进行对接,通道服务基于数据库日志,数据的组织结构按照数据的写入顺序进行存储,正是这一特性,赋能数据库具备了队列流式消费能力,而且ablestore已经深度和Blink进行整合,支持源表,维表和目的表,业务无需为数据流动开发代码,有效降低整体的运维成本,整套架构大幅降低组建个数,Tablestore和Blink都是全托管0运维的产品,并且都能做到很好的水平弹性,业务峰值扩展无压力,使得大数据架构的运维成本大幅降低。
附图说明
[0022]图1为本专利技术的基于大数据的舆情系统原理图;
[0023]图2为本专利技术的舆情分析系统原理图;
[0024]图3为本专利技术的多重算法结构图。
具体实施方式
[0025]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0026]请参阅图1

3,本专利技术提供的一种实施例:一种基于大数据的舆情系统,包括舆情规划、舆情采集、舆情数据、舆情分析以及舆情报告,其中:
[0027]舆情规划包括互联网引擎搜索,从互联网中提取多种关键词,还包括论坛、博客、新闻以及贴吧多个获取舆情信息;
[0028]舆情采集,包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的舆情系统,包括舆情规划、舆情采集、舆情数据、舆情分析以及舆情报告,其中:舆情规划包括互联网引擎搜索,从互联网中提取多种关键词,还包括论坛、博客、新闻以及贴吧多个获取舆情信息;舆情采集,包括文本聚类、文本分类、文本倾向性判断以及关键词抽取,所述舆情采集通过多重算法处理获得舆情数据;舆情数据,包括内容入库储存、网页快照以及附件存储;舆情分析,基于Tablestore构架,采用Blink计算系统对舆情数据进行分析并生成舆情报告;舆情报告,包括舆情专报、舆情简报以及预警系统。2.根据权利要求1所述的一种基于大数据的舆情系统,其特征在于:所述文本聚类对海量的无类别文档进行归类,在对文档集进行分词、向量化后得到特征集合,从全部特征集中提取一个最优的特征子集,对特征提取后的特征向量进行微调,突出聚类重要词进行聚类,把内容相近的文档归为一类得到聚类结果,并自动为其生成主题词,为确定类目名称提供方便,最后生成舆情专题、重大新闻事件追踪等;文本分类,一是获取训练文档集,初始的文档集来自上步骤中的文本聚类;所述文本分类一是获取训练文档集,初始的文档集来自文本聚类,二是建立文档表示模型,三是进行文档特征选择,四是选择分类方法,主要采用KNN和支持向量机相结合的方法;血是建立性能评估模型,通过以上五个步...

【专利技术属性】
技术研发人员:张林
申请(专利权)人:安徽舆鹰信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1