Collect and analysis method of a network of public opinion, the design of cloud computing based on distributed crawler, will monitor the site contribution to each download server distributed download, then the data collected in the data on the server; the network data deduplication, denoising, which is on the same site on the basic content of the same data at the same time to heavy advertising, not related to information denoising; high speed data retrieval, the massive data on data content on the server, using high-speed distributed search algorithm, computing resources for rapid search and retrieval of data using cloud, and establish the index; establish mass data management system, management of reading and writing based on the data of time axis; the use of artificial intelligence technology, massive data automatic processing, and through analysis, accurate monitoring Control the content, and put forward early warning information.
【技术实现步骤摘要】
一种网络舆情搜集与分析方法
本专利技术涉及语义分析及机器翻译领域,具体涉及一种网络舆情搜集与分析方法。
技术介绍
在互联网高速发展的今天,各民族每时每刻都会通过短信、微信、论坛、贴吧、博客、微博等网络及移动网络等媒体发表言论,参与话题交流,汇集成网络民意,形成网络舆论,同时各种犯罪分子、恐怖分子等也会通过网络进行沟通联络。只有及时发现互联网中有较大影响的重要事件和正在谋划、将要发生、已经发生的犯罪事件,并快速识别和定向跟踪,才能更快更全面地掌握情报动向,从而正面引导舆论和宣传,并打击犯罪。
技术实现思路
本专利技术的目的是提供一种网络舆情搜集与分析方法,在多语种的海量社交网络中抓取网络舆情信息,并基于多语种进行源语分析,实现对网络舆情的及时分析,掌握各民族舆情情况,以有效为党和政府制定民族政策提供支持,为在特殊地区反恐维稳工作提供情报信息。一种网络舆情搜集与分析方法,其特征在于:(1)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上;(2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪;(3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建立索引;(4)建立海量数据管理系统,对海量数据依托时间轴进行读写管理;(5)采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息。所述步骤(4)进一步包括:通过收集海量数据,建立各语种的大语料库,并 ...
【技术保护点】
一种网络舆情搜集与分析方法,其特征在于:(1)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上;(2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪;(3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建立索引;(4)建立海量数据管理系统,对海量数据依托时间轴进行读写管理;(5)采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息。
【技术特征摘要】
1.一种网络舆情搜集与分析方法,其特征在于:(1)采用基于云计算的分布式爬虫设计,将监控的网站分担到各个下载服务器上进行分布式下载,然后将数据汇总在数据服务器上;(2)对网络数据进行去重、去噪处理,即对同一网站上基本内容相同的数据进行去重,同时进行广告、不相关信息的去噪;(3)海量数据的高速检索,即对数据服务器上的海量数据内容,采用高速分布式检索算法,利用云计算资源对数据进行快速的查询和检索,并建...
【专利技术属性】
技术研发人员:宁勇,
申请(专利权)人:北京航天长峰科技工业集团有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。