基于大数据和分布式科技信息服务架构制造技术

技术编号：35494852 阅读：17 留言：0更新日期：2022-11-05 16:52

本发明专利技术涉及计算机技术领域，具体是指基于大数据和分布式科技信息服务架构，包括爬虫信息获取单元、存储单元和信息分类显示单元，所述爬虫信息获取单元和信息分类显示单元均通过分布式文件系统与存储单元连接，所述爬虫信息获取单元用于抓取网络上的信息并存入存储单元，所述信息分类显示单元用于从存储单元中调取相关信息，并进行一定的数据应用归类，将相关信息归类到不同的应用并显示出来，针对爬虫速度慢，爬虫后的数据在给用户做数据检索时，检索速度慢，所以要加入大数据和分布式架构。构。

全部详细技术资料下载

【技术实现步骤摘要】
基于大数据和分布式科技信息服务架构

[0001]本专利技术涉及计算机
，具体是指基于大数据和分布式科技信息服务架构。

技术介绍

[0002]大数据的应用渗透到各行各业，主要是是能够在庞大的网络数据量，快速检索出有价值的信息。分布式计算是一种计算方法，和集中式计算是相对的。随着计算技术的发展，有些应用需要非常巨大的计算能力才能完成，如采用集中式计算，需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。
[0003]大数据可以快速检索出所需的东西，但是大数据搭建所需框架麻烦、繁杂，有一定的技术壁垒；分布式可以均衡、协同工作，高效完成所需的计算机任务，但是分布式技术比较麻烦，每一个功能模块都要需要构建专属代码，并不能做到一套代码通用的效果，工作量比较大。
[0004]网络爬虫(又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。
[0005]爬虫技术面临的问题：截止到2007年底，Internet上网页数量超出160亿个，研究表明接近30％的页面是重复的；动态页面的存在：客户端、服务器端脚本语言的应用使得指向相同Web信息的URL数量呈指数级增长。上述特征使得网络爬虫面临一定的困难，主要体现于Web信息的巨大容量使得爬虫在给定时间内只能下载少量网页。即使能够提取全部页面，也没有足够的空间来存储。
[0006]为提高爬行效率，爬虫需要在单位时间内尽可能多的获取高质量页面...

【技术保护点】

【技术特征摘要】
1.基于大数据和分布式科技信息服务架构，其特征在于，包括爬虫信息获取单元、存储单元和信息分类显示单元，所述爬虫信息获取单元和信息分类显示单元均通过分布式文件系统与存储单元连接，所述爬虫信息获取单元用于抓取网络上的信息并存入存储单元，所述信息分类显示单元用于从存储单元中调取相关信息，并进行一定的数据应用归类，将相关信息归类显示。2.根据权利要求1所述的基于大数据和分布式科技信息服务架构，其特征在于，所述信息分类显示单元内根据存储单元中信息的应用进行归类，所述信息分类显示单元中设有用于调取相应类别信息的多组应用平台，所述应用平台可在使用者登入后进行相应类别数据的交互访问。3.根据权利要求2所述的基于大数据和分布式科技...

【专利技术属性】
技术研发人员：邓华，李广新，杨健君，陆道健，黄泽滨，刘小燕，
申请(专利权)人：汕尾市电子信息产业技术研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人