一种基于分布式计算的数据采集系统及方法技术方案

技术编号:39650878 阅读:16 留言:0更新日期:2023-12-09 11:19
本发明专利技术涉及数据采集技术领域,具体为一种基于分布式计算的数据采集系统及方法,包括子采集点位,子采集点位包括子采集点位一

【技术实现步骤摘要】
一种基于分布式计算的数据采集系统及方法


[0001]本专利技术涉及数据采集
,具体为一种基于分布式计算的数据采集系统及方法


技术介绍

[0002]分布式数据库系统通常使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都可能有
DBMS
的一份完整拷贝副本,或者部分拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的

全局的逻辑上集中

物理上分布的大型数据库

[0003]数据采集,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号
,
送到上位机中进行分析,处理

数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的

用户自定义的测量系统

[0004]数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口,数据采集技术广泛应用在各个领域,比如摄像头,麦克风,都是数据采集工具

[0005]直播是目前比较新型的一种行业,其通过电脑或手机设备,可实现与观众的在线互动,直播的人也称为主播,可进行各类信息的发布,根据观众的打赏的实现收益

[0006]直播平台是主播主要的直播环境,主要由直播客户端

直播网页端以及管理后台构成,众多用户将其用于在线研讨会

销会议等网络活动场景,扩大市场活动,有效提高管理和运营效率,直接促进企业销售业绩提升,使企业竞争力得到极大提升

[0007]随着互联网规模的快速增长,互联网数据的价值越来越受到重视

互联网数据具有数据量巨大

更新频率快

价值密度低等特点,需要进行大规模

分布式的数据采集

[0008]数据采集

传输以及存储系统是指采用若干数据采集设备进行数据采集,再将数据采集设备采集的数据通过有线通讯或无线通讯的方式传输给数据存储装置进行储存的数据处理系统,而现有专利在数据采集的高效性

灵活性以及保证数据的唯一性方面存在明显不足


技术实现思路

[0009]本专利技术的目的在于提供一种基于分布式计算的数据采集系统及方法,以解决随着大规模数据采集的需求增加,服务器的负载问题

采集效率问题

以及资源去重问题,已成为分布式数据采集的重点和难点,严重影响大规模数据采集现状的发展

[0010]为实现上述目的,本专利技术提供如下技术方案:一种基于分布式计算的数据采集系统,包括子采集点位,所述子采集点位包括子采集点位一

子采集点位二

子采集点位三直至子采集点位
N
,所述子采集点位通过数据通信与采集服务器连接,所述采集服务器通过数据通信与主采集点位连接

[0011]优选的,所述子采集点位为若干个客户端,所述主采集点位为客服终端

[0012]优选的,所述客户端包括可用于数据上报的手机

平板电脑和台式机

[0013]优选的,所述数据通信为网络端,包括网线通信

移动数据通信和无线局域网通信
[0014]优选的,所述采集服务器包括处理器和存储器,处理器包括数据接入

数据过滤

数据归纳以及数据分配

[0015]优选的,所述设定子采集点项目启动时注册到采集服务器注册中心处,采用周期性心跳机制定时发送心跳链接,可保证子采集节点服务安全可用

[0016]优选的,所述基于
MD5
算法对采集到的数据文件进行唯一性校验,具体包括以下步骤:
[0017]S1、
获取采集到的多个文件;
[0018]S2、
利用
MD5
信息摘要算法对上述多个文件进行序列化,对每个文件分配识别码;
[0019]S3、
采集服务器查询新识别码是否存在于系统的文件识别码表中,以判断该文件是否已经保存在该采集服务器中;
[0020]S4、
若存在,则过滤此文件;若不存在,则采集服务器允许系统上传并存储该识别码所对应的文件,同时将该文件的识别码记录到文件识别码表中,进行文件识别码表的同步更新

[0021]在上
S4
中,当文件标识码表中存在标识码时,说明服务器中已经保存所对应的文件,此时采集服务器不再保存新文件,避免资源浪费,当不存在时,服务器保存所接收到文件,并将其标识码记录到文件识别码表中,文件识别码表与文件数据采集内容同步更新

[0022]优选的,所述系统的每个资源模块各自具备独立的文件识别码表,用于数据资源的分类筛选存储,模块化的数据文件区别设计可增强数据采集的针对性,进一步提高系统采集效率,便于系统的数据资源管理

[0023]优选的,所述采集端下载视频数据的同时,可同步进行
MD5
计算

[0024]与现有技术相比,本专利技术的有益效果是:
[0025]1.
本专利技术通过多个子采集点位与采集服务器连接,采集服务器通过数据通信与主采集点位连接的方式设计,能够有效分担服务器负载,提升数据采集效率,快速且稳定的实现跨媒体的大规模数据采集效果

[0026]2.
本专利技术通过通过利用
MD5
算法对文件进行序列化,获取每个文件的唯一识别码,并通过服务器进行识别码的唯一性校验,由此可有效确保数据采集存储的唯一性,避免资源浪费

[0027]3.
系统的采集端下载视频数据的同时,可同步进行
MD5
计算,进一步避免存储空间的浪费

附图说明
[0028]图1为本专利技术的采集信息示意图;
[0029]图2为本专利技术的采集服务器基础示意图;
[0030]图3为本专利技术的数据处理信息示意图;
[0031]图4为本专利技术的客户端示意图;
[0032]图5为本专利技术的网络端示意图
[0033]图6为本专利技术的
MD5
算法示意图

具体实施方式
[0034]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于分布式计算的数据采集系统,包括子采集点位,其特征在于:所述子采集点位包括子采集点位一

子采集点位二

子采集点位三直至子采集点位
N
,所述子采集点位通过数据通信与采集服务器连接,所述采集服务器通过数据通信与主采集点位连接
。2.
根据权利要求1所述的一种基于分布式计算的数据采集系统,其特征在于:所述子采集点位为若干个客户端,所述主采集点位为客服终端
。3.
根据权利要求1所述的一种基于分布式计算的数据采集系统,其特征在于:所述客户端包括可用于数据上报的手机

平板电脑和台式机
。4.
根据权利要求1所述的一种基于分布式计算的数据采集系统,其特征在于:所述数据通信为网络端,包括网线通信

移动数据通信和无线局域网通信
。5.
根据权利要求1所述的一种基于分布式计算的数据采集系统,其特征在于:所述采集服务器包括处理器和存储器,处理器包括数据接入

数据过滤

数据归纳以及数据分配
。6.
根据权利要求1所述的一种基于分布式计算的数据采集系统及方法,其特征在于:所述设定子采...

【专利技术属性】
技术研发人员:李洪健罗鑫凯王新勇高天鸣单鑫王佳
申请(专利权)人:中译文娱科技青岛有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1