当前位置: 首页 > 专利查询>福州大学专利>正文

面向多租户的SaaS舆情监控系统及方法技术方案

技术编号:14995934 阅读:96 留言:0更新日期:2017-04-04 01:26
本发明专利技术涉及一种面向多租户的SaaS舆情监控系统及方法,包括数据采集与存储模块、基于并行处理框架的数据分析模块;所述数据采集与存储模块是在Nutch开源框架的基础上,对指定的包括新闻、博客、论坛在内的网站进行实时监控,发现并下载最新网页的全文信息,自动提取网页中的链接,访问其他网页进行抓取并存储至数据库中,采集的舆情数据采用HBase分布式存储技术实现海量数据的存储;所述数据分析模块在并行计算框架基础上,采用基于Single‑Pass的改进算法发现热点话题,将挖掘出的热点话题与用户预设的业务需求描述进行逐条匹配,用以实现用户在海量数据上的筛选和过滤。本发明专利技术在多数据源、多租户等方面体现了良好的可扩展性。

【技术实现步骤摘要】

本专利技术涉及舆论监控领域,特别是一种面向多租户的SaaS舆情监控系统及方法
技术介绍
2015年,中国的网民渗透率将达50%,随着网民不断增多,言论数量也表现出爆炸性增长的趋势。为了及时发现言论中的不良信息,掌控网络言论的发展态势,舆情监控已经成为政府及大型企业的实际需求。但海量的媒体数据和异构的信息内容为舆情监控带来了极大的挑战:1.传统的舆情系统的设计多采用单机模型,主要面向单个领域进行监控。随着答数据的涌现和数据结构的多变,现有的舆情监控系统难以同时满足海量数据的实时获取和实现多领域的监控,传统的单机系统面对庞大的多源数据表现出可扩展性等问题。2.当前的舆情监控系统都是基于某类特定算法实现的,针对一个特定的用户需求可能需要多种算法进行分析。在面向不同用户的需求,或者针对新的任务和功能,现有的系统难以进行处理和扩展。因此,我们提出面向多租户的SaaS舆情监控系统,针对海量、异构、多源数据进行爬取,在并行计算框架基础上对数据分析,并通过云计算平台以低成本提供海量舆情数据的监控服务。
技术实现思路
有鉴于此,本专利技术的目的是提出一种面向多租户的SaaS舆情监控系统及方法,在多数据源、多租户等方面体现了良好的可扩展性。本专利技术的系统采用以下方案实现:一种面向多租户的SaaS舆情监控系统,包括数据采集与存储模块、基于并行处理框架的数据分析模块;所述数据采集与存储模块是在Nutch开源框架的基础上,对指定的包括新闻、博客、论坛在内的网站进行实时监控,发现并下载最新网页的全文信息,自动提取网页中的链接,访问其他网页进行抓取并存储至数据库中,采集的舆情数据采用HBase分布式存储技术实现海量数据的存储;所述数据分析模块在并行计算框架基础上,采用基于Single-Pass的改进算法发现热点话题,将挖掘出的热点话题与用户预设的业务需求描述进行逐条匹配,用以实现用户在海量数据上的筛选和过滤。进一步地,本专利技术的数据采集与存储模块是基于Nutch开源框架实现的。Nutch是一个由Java实现的开源web搜索引擎,主要用于收集网页数据,对其进行分析、索引,以提供相应的接口来对其网页数据进行查询的一套工具。Nutch1.X版本将爬取的网页存储在HDFS文件系统中,而2.X版本对底层的数据存储进行了抽象,支持使用多种数据库,例如HBase,MySql来存储数据。考虑到使用上的需求,本方法选取Nutch2.2.1版本,方便读取存储的网页数据。较佳的,舆情监控系统在信息获取上要求具有高度的针对性和时效性。为满足上述两点,本专利技术基于Nutch搭建采集模块,采用分布式部署和并行爬取的策略,由一台服务控制器和多个爬虫端组成,服务控制器负责爬虫端的监测与控制,每个爬虫端可单独配置爬取的站点、深度等参数,进行全天候的数据获取。对于爬取的数据,按照一定的格式存储于分布式平台HBase中。HBase是一个分布式的、面向列的开源数据库,依托于Hadoop的HDFS作为最基本存储基础单元。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。进一步地,Nutch是为搜索引擎设计的爬虫,主要针对互联网上的信息进行漫无边际的爬取,在精准数据抓取方面较为薄弱;另一方面,Nutch数据更新周期的长短,决定了采集的数据是否具有时效性,但周期设置过短,Nutch则会浪费大量时间在已爬取网页的更新工作上。因此,对Nutch进行了以下改进:1)限制数据的采集范围。Nutch提供了一个迭代次数的设置参数,爬虫程序一旦达到迭代次数即停止,但最后一次迭代解析出的链接将会作为下一次爬虫的起始地址,因此Nutch会对互联网上的信息进行漫无边际的爬取。但互联网上太久远的网页不是我们的采集目标,为去除这部分网页,我们设置一定的爬取深度。爬虫程序从入口URL开始抓取网页,一直采集到预设的深度即停止。最后一层深度的网页只获取内容,不解析其链接,实现数据采集范围的限制功能。2)废除数据更新周期。若一个网页的所在位置与入口地址的距离已经超出上述的爬取深度,我们认为该网页已经不在我们的采集范围内,即该网页对于本舆情监控系统来说“太久远”了,没有必要再进行更新,因此本方法废除了数据更新周期这个配置参数。针对仍在采集范围内的网页,每一次爬虫程序启动,都要获取其HTTPheader中的Last-Modified属性,判断是否需要更新,若需要更新则将该网页的URL加入预取列表,等待重新抓取。3)7*24小时采集。由于网络舆情具有突发性,网络上随时可能产生新的言论,为实时获取网络舆论信息,本方法采用全天候的监控方法,为Nutch添加了一个时间调度模块,以达到实时监控的目的。特别的,数据分析模块是舆情系统的核心部分,该模块采用MapReduce并行处理框架实现。数据分析模块涉及采用开源分词工具IKAnalyzer对采集的舆情数据进行中文分词处理,提取出文本的特征词并计算特征词的权重,建立文本的向量空间模型,然后通过改进的Single-Pass聚类算法实现热点话题挖掘,并针对用户的不同业务需求向用户推送舆情内容,本专利技术还提供了一种基于上文所述的面向多租户的SaaS舆情监控系统的方法,具体包括以下步骤;步骤S1:所述数据采集与存储模块采用Nutch开源框架对指定的包括新闻、博客、论坛在内的网站进行实时监控,发现并下载最新网页的全文信息,自动提取网页中的链接,访问其他网页进行抓取并存储至数据库中;步骤S2:将采集的舆情数据采用HBase分布式存储技术实现海量数据的存储;步骤S3:所述数据分析模块采用开源分词工具IKAnalyzer对采集的舆情数据进行中文分词处理,提取出文本的特征词并计算特征词的权重,建立文本的向量空间模型,然后通过改进的Single-Pass聚类算法实现热点话题挖掘,并针对用户的不同业务需求向用户推送舆情内容。进一步地,所述步骤S1中Nutch的工作具体包括以下步骤:步骤S11:初始化抓取数据库CrawlDb,注入种子URL;步骤S12:根据CrawlDb创建抓取列表,并写入相应的segments,一个segments代表一次抓取;步骤S13:根据预取列表中的链接进行抓取,获取网页文件;步骤S14:把获取到的网页文件的页面信息存入所述数据库中,解析获取的页面,提取页面内的链接,并更新所述CrawlDb;步骤S15:判断Nutch的爬取工作是否达到预先设定的深度,若是,则停止爬取工作,并进入步骤S16;若否,则返回步骤本文档来自技高网...

【技术保护点】
一种面向多租户的SaaS舆情监控系统,其特征在于:包括数据采集与存储模块、基于并行处理框架的数据分析模块;所述数据采集与存储模块是在Nutch开源框架的基础上,对指定的包括新闻、博客、论坛在内的网站进行实时监控,发现并下载最新网页的全文信息,自动提取网页中的链接,访问其他网页进行抓取并存储至数据库中,采集的舆情数据采用HBase分布式存储技术实现海量数据的存储;所述数据分析模块在并行计算框架基础上,采用基于Single‑Pass的改进算法发现热点话题,将挖掘出的热点话题与用户预设的业务需求描述进行逐条匹配,用以实现用户在海量数据上的筛选和过滤。

【技术特征摘要】
1.一种面向多租户的SaaS舆情监控系统,其特征在于:包括数据采集与存储模块、基于
并行处理框架的数据分析模块;所述数据采集与存储模块是在Nutch开源框架的基础上,对
指定的包括新闻、博客、论坛在内的网站进行实时监控,发现并下载最新网页的全文信息,
自动提取网页中的链接,访问其他网页进行抓取并存储至数据库中,采集的舆情数据采用
HBase分布式存储技术实现海量数据的存储;所述数据分析模块在并行计算框架基础上,采
用基于Single-Pass的改进算法发现热点话题,将挖掘出的热点话题与用户预设的业务需
求描述进行逐条匹配,用以实现用户在海量数据上的筛选和过滤。
2.根据权利要求1所述的一种面向多租户的SaaS舆情监控系统,其特征在于:所述
Nutch采用Nutch2.2.1版本,并对所述Nutch作了以下改进:
限制数据的采集范围:设置一定的爬取深度,爬虫程序从入口URL开始抓取网页,一直
采集到预设的深度即停止;最后一层深度的网页只获取内容,不解析其链接,用以实现数据
采集范围的限制功能;
废除数据更新周期:废除了数据更新周期这个配置参数,针对仍在采集范围内的网页,
每一次爬虫程序启动,都要获取其HTTPheader中的Last-Modified属性,判断是否需要更
新,若需要更新则将该网页的URL加入预取列表,等待重新抓取;
7*24小时采集:采用全天候的监控方法,为Nutch添加了一个时间调度模块,以达到实
时监控的目的。
3.一种基于权利要求1所述的面向多租户的SaaS舆情监控系统的方法,其特征在于:包
括以下步骤;
步骤S1:所述数据采集与存储模块采用Nutch开源框架对指定的包括新闻、博客、论坛
在内的网站进行实时监控,发现并下载最新网页的全文信息,自动提取网页中的链接,访问
其他网页进行抓取并存储至数据库中;
步骤S2:将采集的舆情数据采用HBase分布式存储技术实现海量数据的存储;
步骤S3:所述数据分析模块采用开源分词工具IKAnalyzer对采集的舆情数据进行中文
分词处理,提取出文本的特征词并计算特征词的权重,建立文本的向量空间模型,然后通过
改进的Single-Pass聚类算法实现热点话题挖掘,并针对用户的不同业务需求向用户推送
舆情内容。
4.根据权利要求3所述的一种基于面向多租户的SaaS舆情监控系统的方法,其特征在
于:所述步骤S1中Nutch的工作具体包括以下步骤:
步骤S11:初始化抓取数据库CrawlDb,注入种子URL;
步骤S12:根据CrawlDb创建抓取列表,并写入相应的segments,一个segments代表一次
抓取;
步骤S13:根据预取列表中的链接进行抓取,获取网页文件;
步骤S14:把获取到的网页文件的页面信息存入所述数据库中,解析获取...

【专利技术属性】
技术研发人员:郭文忠林晓红陈星兰兴土王一洲
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1