面向多租户的SaaS舆情监控系统及方法技术方案

技术编号：14995934 阅读：103 留言：0更新日期：2017-04-04 01:26

本发明专利技术涉及一种面向多租户的SaaS舆情监控系统及方法，包括数据采集与存储模块、基于并行处理框架的数据分析模块；所述数据采集与存储模块是在Nutch开源框架的基础上，对指定的包括新闻、博客、论坛在内的网站进行实时监控，发现并下载最新网页的全文信息，自动提取网页中的链接，访问其他网页进行抓取并存储至数据库中，采集的舆情数据采用HBase分布式存储技术实现海量数据的存储；所述数据分析模块在并行计算框架基础上，采用基于Single‑Pass的改进算法发现热点话题，将挖掘出的热点话题与用户预设的业务需求描述进行逐条匹配，用以实现用户在海量数据上的筛选和过滤。本发明专利技术在多数据源、多租户等方面体现了良好的可扩展性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及舆论监控领域，特别是一种面向多租户的SaaS舆情监控系统及方法。
技术介绍
2015年，中国的网民渗透率将达50％，随着网民不断增多，言论数量也表现出爆炸性增长的趋势。为了及时发现言论中的不良信息，掌控网络言论的发展态势，舆情监控已经成为政府及大型企业的实际需求。但海量的媒体数据和异构的信息内容为舆情监控带来了极大的挑战：1.传统的舆情系统的设计多采用单机模型，主要面向单个领域进行监控。随着答数据的涌现和数据结构的多变，现有的舆情监控系统难以同时满足海量数据的实时获取和实现多领域的监控，传统的单机系统面对庞大的多源数据表现出可扩展性等问题。2.当前的舆情监控系统都是基于某类特定算法实现的，针对一个特定的用户需求可能需要多种算法进行分析。在面向不同用户的需求，或者针对新的任务和功能，现有的系统难以进行处理和扩展。因此，我们提出面向多租户的SaaS舆情监控系统，针对海量、异构、多源数据进行爬取，在并行计算框架基础上对数据分析，并通过云计算平台以低成本提供海量舆情数据的监控服务。
技术实现思路
有鉴于此，本专利技术的目的是提出一种面向多租户的SaaS舆情监控系统及方法，在多数据源、多租户等方面体现了良好的可扩展性。本专利技术的系统采用以下方案实现：一种面向多租户的SaaS舆情监控系统，包括数据采集与存储模块、基于并行处理框架的数据分析模块；所述数据采集与存储模块是在Nutch开源框架的...

【技术保护点】
一种面向多租户的SaaS舆情监控系统，其特征在于：包括数据采集与存储模块、基于并行处理框架的数据分析模块；所述数据采集与存储模块是在Nutch开源框架的基础上，对指定的包括新闻、博客、论坛在内的网站进行实时监控，发现并下载最新网页的全文信息，自动提取网页中的链接，访问其他网页进行抓取并存储至数据库中，采集的舆情数据采用HBase分布式存储技术实现海量数据的存储；所述数据分析模块在并行计算框架基础上，采用基于Single‑Pass的改进算法发现热点话题，将挖掘出的热点话题与用户预设的业务需求描述进行逐条匹配，用以实现用户在海量数据上的筛选和过滤。

【技术特征摘要】
1.一种面向多租户的SaaS舆情监控系统，其特征在于：包括数据采集与存储模块、基于
并行处理框架的数据分析模块；所述数据采集与存储模块是在Nutch开源框架的基础上，对
指定的包括新闻、博客、论坛在内的网站进行实时监控，发现并下载最新网页的全文信息，
自动提取网页中的链接，访问其他网页进行抓取并存储至数据库中，采集的舆情数据采用
HBase分布式存储技术实现海量数据的存储；所述数据分析模块在并行计算框架基础上，采
用基于Single-Pass的改进算法发现热点话题，将挖掘出的热点话题与用户预设的业务需
求描述进行逐条匹配，用以实现用户在海量数据上的筛选和过滤。
2.根据权利要求1所述的一种面向多租户的SaaS舆情监控系统，其特征在于：所述
Nutch采用Nutch2.2.1版本，并对所述Nutch作了以下改进：
限制数据的采集范围:设置一定的爬取深度,爬虫程序从入口URL开始抓取网页，一直
采集到预设的深度即停止；最后一层深度的网页只获取内容，不解析其链接，用以实现数据
采集范围的限制功能；
废除数据更新周期：废除了数据更新周期这个配置参数，针对仍在采集范围内的网页，
每一次爬虫程序启动，都要获取其HTTPheader中的Last-Modified属性，判断是否需要更
新，若需要更新则将该网页的URL加入预取列表，等待重新抓取；
7*24小时采集：采用全天候的监控方法，为Nutch添加了一个时间调度模块，以达到实
时监控的目的。
3.一种基于权利要求1所述的面向多租户的SaaS舆情监控系统的方法，其特征在于：包
括以下步骤；
步骤S1：所述数据采集与存储模块采用Nutch开源框架对指定的包括新闻、博客、论坛
在内的网站进行实时监控，发现并下载最新网页的全文信息，自动提取网页中的链接，访问
其他网页进行抓取并存储至数据库中；
步骤S2:将采集的舆情数据采用HBase分布式存储技术实现海量数据的存储；
步骤S3：所述数据分析模块采用开源分词工具IKAnalyzer对采集的舆情数据进行中文
分词处理，提取出文本的特征词并计算特征词的权重，建立文本的向量空间模型，然后通过
改进的Single-Pass聚类算法实现热点话题挖掘，并针对用户的不同业务需求向用户推送
舆情内容。
4.根据权利要求3所述的一种基于面向多租户的SaaS舆情监控系统的方法，其特征在
于：所述步骤S1中Nutch的工作具体包括以下步骤：
步骤S11：初始化抓取数据库CrawlDb，注入种子URL；
步骤S12：根据CrawlDb创建抓取列表，并写入相应的segments，一个segments代表一次
抓取；
步骤S13：根据预取列表中的链接进行抓取，获取网页文件；
步骤S14：把获取到的网页文件的页面信息存入所述数据库中，解析获取...

【专利技术属性】
技术研发人员：郭文忠，林晓红，陈星，兰兴土，王一洲，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人