基于大数据和分布式科技信息服务架构制造技术

技术编号:35494852 阅读:17 留言:0更新日期:2022-11-05 16:52
本发明专利技术涉及计算机技术领域,具体是指基于大数据和分布式科技信息服务架构,包括爬虫信息获取单元、存储单元和信息分类显示单元,所述爬虫信息获取单元和信息分类显示单元均通过分布式文件系统与存储单元连接,所述爬虫信息获取单元用于抓取网络上的信息并存入存储单元,所述信息分类显示单元用于从存储单元中调取相关信息,并进行一定的数据应用归类,将相关信息归类到不同的应用并显示出来,针对爬虫速度慢,爬虫后的数据在给用户做数据检索时,检索速度慢,所以要加入大数据和分布式架构。构。

【技术实现步骤摘要】
基于大数据和分布式科技信息服务架构


[0001]本专利技术涉及计算机
,具体是指基于大数据和分布式科技信息服务架构。

技术介绍

[0002]大数据的应用渗透到各行各业,主要是是能够在庞大的网络数据量,快速检索出有价值的信息。分布式计算是一种计算方法,和集中式计算是相对的。随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如采用集中式计算,需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。
[0003]大数据可以快速检索出所需的东西,但是大数据搭建所需框架麻烦、繁杂,有一定的技术壁垒;分布式可以均衡、协同工作,高效完成所需的计算机任务,但是分布式技术比较麻烦,每一个功能模块都要需要构建专属代码,并不能做到一套代码通用的效果,工作量比较大。
[0004]网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
[0005]爬虫技术面临的问题:截止到2007年底,Internet上网页数量超出160亿个,研究表明接近30%的页面是重复的;动态页面的存在:客户端、服务器端脚本语言的应用使得指向相同Web信息的URL数量呈指数级增长。上述特征使得网络爬虫面临一定的困难,主要体现于Web信息的巨大容量使得爬虫在给定时间内只能下载少量网页。即使能够提取全部页面,也没有足够的空间来存储。
[0006]为提高爬行效率,爬虫需要在单位时间内尽可能多的获取高质量页面,是它面临的难题之一,且之前建立的爬虫数据库,数据存在庞大,检索费时费力。

技术实现思路

[0007]针对上述情况,为克服现有技术的缺陷,本专利技术提供了基于大数据和分布式科技信息服务架构,针对爬虫速度慢,爬虫后的数据在给用户做数据检索时,检索速度慢,所以要加入大数据和分布式架构。
[0008]本专利技术采取的技术方案如下:基于大数据和分布式科技信息服务架构,包括爬虫信息获取单元、存储单元和信息分类显示单元,所述爬虫信息获取单元和信息分类显示单元均通过分布式文件系统与存储单元连接,所述爬虫信息获取单元用于抓取网络上的信息并存入存储单元,所述信息分类显示单元用于从存储单元中调取相关信息,并进行一定的数据应用归类,将相关信息归类到不同的应用并显示出来。
[0009]作为本方案的进一步优化,所述信息分类显示单元内根据存储单元中信息的应用进行归类,所述信息分类显示单元中设有用于调取相应类别信息的多组应用平台,所述应用平台可在使用者登入后进行相应类别数据的交互访问。
[0010]作为本方案的进一步优化,所述应用平台采用虚拟服务器做到有不同的IP或者端口,起到并发访问,调节负载的作用。
[0011]作为本方案的进一步优化,所述信息分类显示单元内设有Nginx服务器,其特点是占有内存少,并发能力强,事实上Nginx的并发能力在同类型的网页服务器中表现较好。
[0012]优选地,所述信息分类显示单元通过计算引擎、资源管理器和协调管理管员实现存储单元与应用平台之间的连接。
[0013]优选地,所述存储单元由多数据库和分布式存储磁盘组成。
[0014]优选地,所述爬虫信息获取单元通过爬虫应用抓取网页经计算引擎和协调管理管员实现与存储单元的连接。
[0015]采用上述结构本专利技术取得的有益效果如下:现有的爬虫最多只有分布式爬虫,本方案不仅仅有分布式爬虫,其大数据挖掘是一个创新点,它是基于互联网数据越来越多的情况下,所考虑大数据筛选的一种分布式爬虫网站架构。本方案和
技术介绍
的区别在于速度更快了,访问的并发量更大了。
具体实施方式
[0016]下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例;基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]实施例,基于大数据和分布式科技信息服务架构,包括爬虫信息获取单元、存储单元和信息分类显示单元,爬虫信息获取单元和信息分类显示单元均通过分布式文件系统与存储单元连接,爬虫信息获取单元用于抓取网络上的信息并存入存储单元,信息分类显示单元用于从存储单元中调取相关信息,并进行一定的数据应用归类,将相关信息归类到不同的应用并显示出来,信息分类显示单元内根据存储单元中信息的应用进行归类,信息分类显示单元中设有用于调取相应类别信息的多组应用平台,应用平台可在使用者登入后进行相应类别数据的交互访问。
[0018]其中,应用平台采用虚拟服务器和Nginx服务器,提高访问速度和并发量;
[0019]信息分类显示单元通过计算引擎、资源管理器和协调管理管员实现存储单元与应用平台之间的连接;爬虫信息获取单元通过爬虫应用抓取网页经计算引擎和协调管理管员实现与存储单元的连接。
[0020]需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0021]尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于大数据和分布式科技信息服务架构,其特征在于,包括爬虫信息获取单元、存储单元和信息分类显示单元,所述爬虫信息获取单元和信息分类显示单元均通过分布式文件系统与存储单元连接,所述爬虫信息获取单元用于抓取网络上的信息并存入存储单元,所述信息分类显示单元用于从存储单元中调取相关信息,并进行一定的数据应用归类,将相关信息归类显示。2.根据权利要求1所述的基于大数据和分布式科技信息服务架构,其特征在于,所述信息分类显示单元内根据存储单元中信息的应用进行归类,所述信息分类显示单元中设有用于调取相应类别信息的多组应用平台,所述应用平台可在使用者登入后进行相应类别数据的交互访问。3.根据权利要求2所述的基于大数据和分布式科技...

【专利技术属性】
技术研发人员:邓华李广新杨健君陆道健黄泽滨刘小燕
申请(专利权)人:汕尾市电子信息产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1