本发明专利技术公开了一种Excel数据分析提取的方法,由服务端接收客户端发送的Excel上传请求,然后以上传的Excel进行特征值计算和数据提取作为任务并加入任务队列。服务端中的数据提取分析中心执行任务队列中待执行的任务,然后保存提取的数据,并将执行结果反馈保存在任务队列中,以在客户端进行执行结果查询时提供给客户端。本发明专利技术的技术效果在于,提供了一种对Excel数据进行分析提取的方法,本发明专利技术能够自动识别Excel结构进行数据提取与转化,大大降低转化成本,提高转化效率。提高转化效率。提高转化效率。
【技术实现步骤摘要】
一种Excel数据分析提取的方法
[0001]本专利技术涉及Excel数据处理领域,特别涉及一种Excel数据分析提取的方法。
技术介绍
[0002]在企业办公的过程中难免会出现大量的文档数据,其中Excel表格具有统计和直观展现数据的特性在企业办公过程中被频繁使用,然而产生的大量Excel文档却无法统一查看,一般解决办法是使用数据管理工具提取Excel表格中的数据转化为数据库数据进行存储后供程序统一调用,然而Excel数据复杂繁乱,很难做到精准的提取转化。
[0003]目前也有采用在Excel中限制用户输入数据的格式来避免数据随意输入,这样做虽然能够做到数据格式统一,但却导致了数据提取程序单一,对应不同的Excel数据需要开发对应的数据提取程序,导致可用性不强。
技术实现思路
[0004]为了解决计算机领域中,Excel数据转化为数据库数据时,由于Excel数据的随意输入与数据库数据标准输入性质不同,所带来的转化不易的技术问题。本专利技术提供了一种Excel数据分析提取的方法,可自动识别Excel结构进行数据提取与转化,大大降低转化成本,提高转化效率,以解决上述现有技术中通过采用特定的方法来对特定格式的EXCEL数据表进行提取转化所存在的效率低、数据转化成本高、可用性不强的问题。
[0005]为了实现上述技术目的,本专利技术的技术方案是,
[0006]一种Excel数据分析提取的方法,包括以下步骤:
[0007]步骤一,服务端接收客户端发送的Excel上传请求,然后以上传的Excel进行特征值计算和数据提取作为任务并加入任务队列;
[0008]步骤二,服务端中的数据提取分析中心执行任务队列中待执行的任务,然后保存提取的数据,并将执行结果反馈保存在任务队列中,以在客户端进行执行结果查询时提供给客户端;其中执行任务时,是对Excel数据进行特征值计算,并基于特征值来提取Excel数据,其中特征值是将Excel数据的定位换算为坐标系,并将Excel数据与坐标系绑定保存,从而形成特征值。
[0009]所述的方法,所述的步骤一中,任务队列的存储介质为数据库。
[0010]所述的方法,所述的步骤二中,数据提取分析中心是由多台独立的云端虚拟机组成,并用于提供Excel结构分析服务和Excel数据提取服务;其中Excel结构分析服务用于分析计算Excel结构的特征值;Excel数据提取服务则根据特征值,进行Excel数据的提取。
[0011]所述的方法,所述的步骤二中,服务端中的数据提取分析中心执行任务队列中待执行的任务,是首先由服务端中的调度中心接收数据提取分析中心的任务获取请求,然后由调度中心查询任务队列中是否有待执行的任务,如果有,则由调度中心返回任务给数据提取分析中心执行;否则由调度中心返回空值给数据提取分析中心。
[0012]所述的方法,所述的步骤二中,将Excel数据的定位换算为坐标系,是以Excel中的
行坐标用x表示,列坐标用y表示,读取Excel数据时以Excel单元格内容为目标,并同时将Excel单元格的坐标处理后一起进行存储。
[0013]所述的方法,将Excel单元格的坐标处理,是首先判断Excel单元格是否为合并行或合并列的单元格,若当前单元格既不是行合并也不是列合并,则将行坐标和列坐标乘以2进行保存,则行坐标和列坐标为双数,即表示当前单元格无合并格式;若当前单元格为行合并格式,则将行坐标乘2加1进行存储,列坐标乘2进行存储,最后行坐标为单数,列坐标为双数,表示当前数据为行合并格式;若当前单元格为列合并格式,则将列坐标乘2加1保存,行坐标乘2保存,最后列坐标为单数,行坐标为双数,表示当前数据为列合并格式;若当前单元格既是行合并又是列合并,则将行坐标乘2加1保存,列坐标乘2加1保存,最后行坐标为单数,列坐标为单数,表示当前数据为行列合并格式。
[0014]本专利技术的技术效果在于,提供了一种对Excel数据进行分析提取的方法,本专利技术能够自动识别Excel结构进行数据提取与转化,大大降低转化成本,提高转化效率。
附图说明
[0015]图1为本专利技术实施例的结构示意图;
[0016]图2为本专利技术实施例的特征值计算和坐标处理方法。
具体实施方式
[0017]参见图1,本实施例以一个Excel数据转化存储系统为例,展示Excel数据分析提取的方法。图1中的主要部件包括:
[0018]1.上传文件客户端,以BS模式为例,可以是常用浏览器(IE,火狐)等。
[0019]2.任务队列:部署在云端的服务程序。当客户端上传Excel文档后,任务队列保存/缓存Excel文档的相关信息且绑定上传用户信息,并在调度中心请求可执行任务时,返回可执行的任务信息。
[0020]3.调度中心:部署在云端的服务程序。主要功能是按照系统既定规则分配Excel文档分析提取任务,或是跟进当前任务数与数据提取分析中心执行的任务数量判断是否增加或减少任务调度数量。
[0021]4.数据提取分析中心:系统核心,主要功能是根据Excel数据分析提取的方法对上传的Excel文档进行结构分析和数据提取,完成具体的数据转化任务,并输出数据进行存储,执行结果回写到任务队列,更新对应任务状态。
[0022]基于上述系统结构,本实施例的实现步骤包括:
[0023]1.服务端接收用户使用客户端发起的Excel上传请求。
[0024]2.服务端将上传的Excel加入任务队列;任务队列的存储介质为数据库(如:Mysql,SQL SERVER,Oracle,redis等);
[0025]3.数据提取分析中心是由多台独立的云端虚拟机组成;数据提取分析中心拥有两类服务:Excel结构分析服务和Excel数据提取服务。Excel结构分析服务主要用于分析计算Excel结构的特征值;Excel数据提取服务主要根据特征值,进行Excel数据的精准提取。
[0026]4.数据提取分析中心轮询调度中心去获取待执行的任务。
[0027]5.调度中心接收到数据提取分析中心的请求后查询任务队列是否有待执行的任
务,如有,则返回任务给数据提取分析中心执行,数据提取分析中心执行任务,并输出数据保存在数据库,同时将执行结果反馈保存在任务队列对应的数据库中,下一次客户端查询任务执行状态将得到任务执行结果的反馈;否则,返回空值,数据提取分析中心进入下一个轮询周期。
[0028]6.数据提取分析中心会根据Excel数据分析提取的方法执行Excel文档结构分析任务和数据提取任务。
[0029]Excel数据分析提取方法具体逻辑如下:
[0030]Excel提取主要难点在于Excel存在合并行或合并列的数据,不管按行提取还是按列提取都会丢失这种合并行合并列格式。此方法通过将Excel行列数据进行特征值计算来保留这种格式。
[0031]特征值计算方法:将Excel数据定位换算为坐标系,行坐标用x本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种Excel数据分析提取的方法,其特征在于,包括以下步骤:步骤一,服务端接收客户端发送的Excel上传请求,然后以上传的Excel进行特征值计算和数据提取作为任务并加入任务队列;步骤二,服务端中的数据提取分析中心执行任务队列中待执行的任务,然后保存提取的数据,并将执行结果反馈保存在任务队列中,以在客户端进行执行结果查询时提供给客户端;其中执行任务时,是对Excel数据进行特征值计算,并基于特征值来提取Excel数据,其中特征值是将Excel数据的定位换算为坐标系,并将Excel数据与坐标系绑定保存,从而形成特征值。2.根据权利要求1所述的方法,其特征在于,所述的步骤一中,任务队列的存储介质为数据库。3.根据权利要求1所述的方法,其特征在于,所述的步骤二中,数据提取分析中心是由多台独立的云端虚拟机组成,并用于提供Excel结构分析服务和Excel数据提取服务;其中Excel结构分析服务用于分析计算Excel结构的特征值;Excel数据提取服务则根据特征值,进行Excel数据的提取。4.根据权利要求1所述的方法,其特征在于,所述的步骤二中,服务端中的数据提取分析中心执行任务队列中待执行的任务,是首先由服务端中的调度中心接收数据提取分析中心的...
【专利技术属性】
技术研发人员:杜琦,周善祥,罗江问,梁哲豪,
申请(专利权)人:长沙湘计海盾科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。