当前位置: 首页 > 专利查询>郑家亮专利>正文

多中继互联网大数据推送方法和系统技术方案

技术编号:13387774 阅读:93 留言:0更新日期:2016-07-22 04:23
多中继互联网大数据推送方法和系统,包括接口管理、任务管理、名称注册、数据预处理、数据推送、数据中继、数据接收、数据验证管理、缓冲数据管理。应用实例通过名称注册和登录,完成大数据推送精准送达任务,包含接收大数据推送任务、处理、推送、中继、接收、复核、送达的方法和流程,以及其全双向的工作模式。基于上述方法的系统合理部署后,能够完全可靠、高效率、自动化地在从一个普通互联网接入点推送巨大的数据到远端另一个互联网接入点;一对多推送、离线推送、接入端属于不同互联网接入运营商等情况下,本发明专利技术系统选择合适的中继路由,避免互联网接入运营商间的数据通道瓶颈,有效利用ADSL非对称性。

【技术实现步骤摘要】
多中继互联网大数据推送方法和系统
本专利技术属互联网大数据推送技术,具体涉及多中继互联网大数据推送方法和系统。
技术介绍
一些应用领域通常需要将大量的数据从一个地方推送到遥远的另一个地方,比如将数千万个医学影像文件(通常每个文件大小在500KB——25MB,少数文件大到1GB——5GB)推送到异地作为容灾备份。国内有数万家医疗机构的医学影像数据远大于上述数量。我们的生活和工作逐渐迈入大数据时代,类似的应用需求越来越多。数据推送需要具备完全可靠、高效率、自动化三个基本特征:数据有极少数的丢失或损坏在绝大多数应用中是不允许的;数据推送慢就会推高应用成本,或者影响用户使用体验,影响工作效率;海量数据的推送显然不能用手工操作、并且必须最大限度地减少所有可能的故障,在故障出现时也要减少人工干预。如果采用数据专线连接推送,因为线路稳定性高、速度相对快,不但效率问题基本解决,出故障的机率也大大也降低,甚至可以不做特别处理,需自动化处理的工作也相对减少,但是数据专线连接成本高,不具备广泛应用到基层、到家庭、社区的条件。互联网的数据链路在不同的互联网接入运营商之间有瓶颈问题,数据推送的两端如果使用不同的互联网接入运营商的接入端,相互推送数据的速度相比使用同一家互联网接入运营商接入端的应用,速度要低很多。另外,目前互联网接入以ADSL(AsymmetricDigitalSubscriberLine,非对称数字用户线路)技术为主,其特点是不对称性,即下载远比上传快。数据推送目前可以实现的方法有很多。电子邮件是大家使用最早、最广泛的文件传递方法;FTP(文件传输协议)又是另一种国际认可的标准文件传输协议,通过FTP、SMTP、POP3、IMAP4进一步编程基本可实现数据大量的、自动化的传输,但用于处理上述问题,困难很多,有些甚至不能突破。电子邮件本身的设计不是用来传输大数据的。FTP由于建立该标准的时代不同,背景和环境不一样,用于大数据推送时,效率和安全性不够,其可靠性和实现自动化需要大量的程序来处理,开发量大。系统的复杂度通常与可靠性负相关,结构和程序越复杂,越容易降低可靠性。QQ离线文件发送、微信文件发送可发推送一个文件或有限的一批文件。某些视频网站提供数据推送支持,在办公室推送自己感兴趣的视频或音乐到家里的电话,晚上回家时可能已经下载完成,观看时不会因为网络问题经常等待下载。提供云盘服务的各服务商也都支持数据上传和下载。目前已实现并且大家常用的方式,面对上述需求时存在着一系列问题:服务商并不保证用户推送的数据一定会准确到达目的地,事实上我们经常需要重新手工发送已经发过但不成功的文件;每次手工操作推送的文件数量和大小有限制,远达不到海量数据推送的要求;没能有效地解决互联网接入运营商之间的瓶颈问题、ADSL非对称特点的应用问题。虽然公布号为CN104601668A的专利技术专利申请“基于状态管理的数据推送方法、装置和系统”,公布号为CN104408132A的专利技术专利申请“数据推送方法和系统”,公布号为CN104516989A的专利技术专利申请“增量数据推送系统和方法”,公布号为CN104378399A的专利技术专利申请“一种数据推送方法、平台服务器、客户端以及系统”等文件,以及一些已发表的论文都提到数据推送方法,但没有能解决上面所述的一系列问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,为满足海量大数据的可靠、高效、自动化的推送需求,而且解决可普及性以及不同互联网接入运营商之间数据通道的瓶颈问题,提供一种多中继互联网大数据推送方法和系统。本专利技术多中继互联网大数据推送方法包括:程序化或手工操作接收大数据推送任务,对任务进行组织和预处理,对预处理的待推送数据进行管理,在任务管理协调下由数据推送线程将数据推送到下一个接收实例,最终到达推送目标地址后对数据进行一致性验证,确认推送成功,接收实例将收到的数据通过接口提交给数据应用者;根据应用中的推送需求和应用环境,一对一推送或是一对多推送,按接收目标实例是否常连接,推送实例互联网接入端与目标实例互联网接入端是否为同一家互联网接入运营商等条件判定选择通过0个或多个中继实例推送数据;所说的实例通过名称注册和登录来相互识别推送源、中继和目标实例的名称与IP地址;当自动化数据推送处理过程中出现一般性可暂时跳过的故障和出现不可恢复的异常故障时分别发出异常报告;每一个实例完全双向工作模式,可同时推送和接收。本专利技术还提供一种多中继互联网大数据推送系统,包括:数据推送模块,用于从系统的一个实例推送目标数据到另一个实例;数据接收模块,用于接收系统上一个实例推送过来的数据;任务管理模块,以推送数据的目标任务为中心,对围绕任务的相关处理模块进行统一调度,并管理任务记录和任务执行状态;数据预处理模块,用于对即将推送的数据进行核对,并生成任务描述数据,根据需要进行目标数据的压缩;数据缓冲存储管理模块,用于对预处理后的数据以及接收到的数据进行管理,磁盘存储空间不足时报警并启动相关处理程序;数据验证模块,用于接收完毕的数据与推送原始数据进行比对,验证结果决定进入任务完成或进入再次执行流程;接口管理模块,用于接收数据推送任务、把接收的数据提交给目标应用程序、发出中间处理过程中的信息和接收人工干预控制信息;名称注册服务模块,用于提供实例的名称注册、登记和地址查询;网络检测模块,用于检测计算机网卡工作状态、互联网连接状态以及实例之间网络连接状态,网络连接断开后自动恢复连接。本专利技术方法和系统中的关键动作——“数据推送”,不同于通常所说的数据上传、下载。推送是直接把内容给使用者,接收不需要确认。推送发出方具有主动地位,接收方是被动的;而上传数据后需要接收方主动进行下载操作。上述多中继互联网大数据推送方法和系统可以无限复制副本作为一个个实例运行于所有需要推送和接收大数据的电脑上,所有过程以自动化处理为主,目标数据和任务进行压缩编码推送,推送前后端进行高度可靠的一致性比较,在互联网上实现了完全可靠、高效率、自动化地推送大数据;通过一级或多级中继推送,避免互联网接入运营商间的数据通道瓶颈,在一对多的推送中有效利用了ADSL非对称性,也有别于目前以数据中心为核心的上传与下载模式,简化部署,降低成本,降低复杂性的同时获得性能和稳定性上的提高,同时网络资源利用率更高。本专利技术系统稳定运行之前,一直未找到大数据在普通宽带接入的互联网上稳定传输或推送数据的办法,邮件方式、FTP方式、各家云存储上传下载等方式都不能满足需求,在上述条件和方式下推送或传输数据达到10GB左右的就开始遇到困难。本专利技术人进行了一段时间的直接通过TCP/IP连接推送或传输数据的实验,遇到很多问题,比如互联接入运营商之间不能连接、数据通道瓶颈很小、网络常断线等。本专利技术系统稳定运行之后,在具体应用中已经完成自动化推送100万个256KB—5GB的医学影像类及相关的文件,数据到达目标后与推送源数据完全一致,能够正常使用。根据运行监测,有些推送实例运行的机器的互联网连接平均2-3分钟会短暂中断一次;但本专利技术系统依然能够长期、稳定、自动化地推送数据数据。本专利技术的有益效果:在互联网上实现了完全可靠、高效率、自动化地推送大数据;在简化部署,降低成本,降低复杂性的同时还提高了性能本文档来自技高网
...
多中继互联网大数据推送方法和系统

【技术保护点】
一种多中继互联网大数据推送方法,其特征在于包括:程序化或手工操作接受大数据推送任务,对任务进行组织和预处理,对预处理的待推送数据进行管理,在任务管理协调下由数据推送线程将数据推送到下一个接收实例,最终到达推送目标地址后对数据进行一致性验证,确认推送成功,接收实例将收到的数据通过接口提交给数据应用者;根据应用中的推送需求和应用环境,一对一推送或是一对多推送,按接收目标实例是否常连接,推送实例互联网接入端与目标实例互联网接入端是否为同一家互联网接入运营商等条件判定选择通过0个或多个中继实例推送数据;所说的实例通过名称注册和登录来相互识别推送源、中继和目标实例的名称与IP地址;当自动化数据推送处理过程中出现一般性可暂时跳过的故障和出现不可恢复的异常故障时分别发出异常报告;每一个实例完全双向工作模式,可同时推送和接收。

【技术特征摘要】
1.一种多中继互联网大数据推送方法,其特征在于基本过程:程序化或手工操作接收大数据推送任务,对任务进行组织和预处理,对预处理的待推送数据进行管理,在任务管理协调下由数据推送线程将数据推送到下一个接收实例,最终到达推送目标地址后对数据进行一致性验证,确认推送成功,接收实例将收到的数据通过接口提交给数据应用者,并且按以下步骤执行:步骤S120,实例地址名称管理,其中一个具有固定IP地址或固定域名指向的计算机上运行的实例接收注册、登录和查询,简称为名称注册服务实例;步骤S130,对推送和接收的任务进行管理,其中具体的管理流程如下:步骤S210,接收推送任务,并把任务基本描述信息存入任务主体记录表,将任务存入待推送任务队列;步骤S220,取出待推送任务队列中原始任务交给数据预处理过程,监测和管理预处理过程,对预处理后已进一步标准化和细化的待推送任务数据进行登记并且更新状态;这一步骤生成任务记录文件,进一步参考S330;任务状态包含:等待、准备好、推送进行、接收进行、接收完成、推送完成、挂起、中止、重试;步骤S230,把准备好的任务文件和推送任务数据交给数据推送处理过程,监测任务数据推送进展情况,并更新进度状态;步骤S240,监测数据接收过程,把收到的任务加入到任务主记录表,并更新数据接收状态;步骤S250,调用数据验证过程,对推送和接收的数据进行验证,验证成功进入完成流程或中继推送流程,验证失败重新再走数据推送流程;步骤S260,推送完成,推送实例处理任务完成后的状态以及数据,接收实例记录任务状态并通过接口管理S110过程将收到的数据提交给数据应用者;推送任务记录的结构和流程描述如下:步骤S320,从S101和S210接收推送任务,任务描述信息记录到主任务记录表中;从S240收到推送任务时也同样把任务描述信息写入主任务记录表;S101是接收推送任务的入口;主任务描述信息包括:任务编号、推送者、接收者、当前位置、进度状态、重试状态、优先级、任务类型、任务大小、任务时间、任务数据原位置、缓冲数据位置、任务客户编号、任务相关编号;步骤S330,在S140和S220生成任务文件,记录一个任务的具体可操作的推送信息;任务文件包括以下信息:描述任务主要信息的文件头以及待推送文件列表信息,其中包含:文件名称、大小和时间属性、子任务ID、工作状态、压缩代码、MD5编码;一个主任务一般包含多个子任务,也就是主任务是一个目录文件集,子任务是一个文件,MD5用于数据一致性验证;压缩代码0表示未压缩,1表示标准化的ZIP压缩,其它压缩代码由推送和接收方应用程序定义;步骤S340,S160和S170执行过程中记录推送片段信息;S160每推送成功一个数据包,在片段记录文件中记录信息;每当推送中途网络异常断开或其他问题导致中断时,再次恢复先尝试从中断位置恢复推送,如果接收方认可的话,继续推送,否则从头开始;步骤S140,待推送数据预处理以及接收推送数据后对进行过压缩或其他编码的数据进行恢复;工作于推送角色的实例,在推送预处理过程同时提取待推送数据摘要信息补充到主任务记录表,生成任务文件,任务状态进入准备好状态,由任务管理过程S130调度进入下面的推送流程;步骤S150,对经过预处理后的待推送数据、任务文件、推送片段记录文件、接收到的数据以及程序执行过程产生的临时数据进行管理;其中的管理操作包括存储空间管理、过期数据清理、文件及数据存储、读取;步骤S160,由S130调度,从S150提取待推送的数据,通过TCP/IP通讯,从S120找到推送目标地址或中继地址IP,把任务文件和目标数据推送到下一个目标地址;步骤S165,验证被推送的源数据与到达目的地后的数据的一致性,验证分为从小到大的逐级验证和总体验证,其中具体流程如下:步骤S610,提取推送任务的摘要信息,包括任务文件数量、任务总大小、数据位置、文件名称列表、每个文件的大小、文件的MD5码;步骤S620,推送数据片段一致性验证,以及断点恢复后可继续性验证;每推送完成一个数据片段,即时验证其一致性;导常中断推送后再恢复推送时,检测双方已成功推送的数据片段,...

【专利技术属性】
技术研发人员:郑家亮
申请(专利权)人:郑家亮
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1