本发明专利技术属于数据表应用技术领域,涉及基于Python处理Excel的方法、装置及电子设备,该方法包括:创建Excel文件存储路径,将Excel文件放入Excel文件存储路径;获取Excel文件存储路径下所有Excel文件的文件名;循环读取Excel文件;利用Python工具读取表格的内容;对表格进行关键字匹配,读取包含关键字的Excel文件;处理Excel文件;通过Python链接数仓数据库的方式,加载到数据库中。本发明专利技术替代手工将杂乱的Excel表格利用Python工具进行有序的整理,然后导入到数据库,提高Excel数据表格处理的速度和准确度。度和准确度。度和准确度。
【技术实现步骤摘要】
基于Python处理Excel的方法、装置及电子设备
[0001]本专利技术属于数据表应用
,具体而言,涉及基于Python处理Excel的方法、装置及电子设备。
技术介绍
[0002]大数据行业发展迅速,为了将分散、零乱、标准不统一的数据整合到一起,让数据产生价值,ETL(即将数据经过抽取、清洗转换之后加载到数据仓库的过程)起到了关键的作用。在ETL过程中,通常是处理企业的各种业务系统数据库,通过各种各样的数据处理工具完成该过程,但是还有部分数据是来自线下的表格,或者是没有对外接口的只能手工下载的一些表格,而且这些表格还会因为各种原因,导致表格会不断地发生变化,就会给数据处理过程增加很多麻烦,无法对数据进行有序、有结构地分类组织和存储。
技术实现思路
[0003]为了解决传统方式中只能通过手工对杂乱Excel表格数据进行整理的问题,本专利技术提供基于Python处理Excel的方法、装置及电子设备。
[0004]第一方面,本专利技术提供了基于Python处理Excel的方法,包括:
[0005]创建Excel文件存储路径,将Excel文件放入所述Excel文件存储路径;
[0006]获取所述Excel文件存储路径下所有所述Excel文件的文件名;
[0007]循环读取所述Excel文件;
[0008]利用Python工具根据所述Excel文件存储路径与所述Excel文件的文件名,读取表格的内容;
[0009]对表格进行关键字匹配,读取包含所述关键字的所述Excel文件;
[0010]处理所述Excel文件:通过获取表格关键字的方式获取表头,对所述表头不符合设定条件的内容进行删除,设置表格内容的字段类型,筛选文件字段内容去掉表格中的行,通过填充的方式对字段缺失的表格进行补齐;
[0011]通过Python链接数仓数据库的方式,加载到数据库中。
[0012]第二方面,本专利技术提供了基于Python处理Excel的装置,包括创建单元、获取单元、第一读取单元、第二读取单元、匹配单元、处理单元与加载单元;
[0013]所述创建单元,用于创建Excel文件存储路径,将Excel文件放入所述Excel文件存储路径;
[0014]所述获取单元,用于获取所述Excel文件存储路径下所有所述Excel文件的文件名;
[0015]所述第一读取单元,用于循环读取所述Excel文件;
[0016]所述第二读取单元,用于利用Python工具根据所述Excel文件存储路径与所述Excel文件的文件名,读取表格的内容;
[0017]所述匹配单元,用于对表格进行关键字匹配,读取包含所述关键字的所述Excel文
件;
[0018]所述处理单元,用于处理所述Excel文件:通过获取表格关键字的方式获取表头,对所述表头不符合设定条件的内容进行删除,设置表格内容的字段类型,筛选文件字段内容去掉表格中的行,通过填充的方式对字段缺失的表格进行补齐;
[0019]所述加载单元,用于通过Python链接数仓数据库的方式,加载到数据库中。
[0020]第三方面,本专利技术公开了一种电子设备,包括:
[0021]处理器和存储器;
[0022]所述存储器,用于存储计算机操作指令;
[0023]所述处理器,用于通过调用所述计算机操作指令,执行权利要求1至6中任一项所述的方法。
[0024]本专利技术的有益效果是:本专利技术替代手工将杂乱的Excel表格利用Python工具进行有序的整理,然后导入到数据库,提高Excel数据表格处理的速度和准确度。
[0025]在上述技术方案的基础上,本专利技术还可以做如下改进。
[0026]进一步,创建Excel文件存储路径,将Excel文件放入所述Excel文件存储路径,包括:
[0027]在服务器新建用于存放所述Excel文件的所述Excel文件存储路径;
[0028]将所述Excel文件发送到公共文件夹;
[0029]使用shell脚本将所述公共文件夹中的所述目标Excel文件拷贝到所述服务器的所述Excel文件存储路径。
[0030]进一步,循环读取所述Excel文件,包括:
[0031]新建一个Python文件;
[0032]获取所述Excel文件存储路径下的所有文件名;
[0033]通过循环文件名的方式读取所述Excel文件,或者通过设定关键字的方式读取包含所述设定关键字的所述Excel文件;
[0034]进一步,利用Python工具根据所述Excel文件存储路径与所述Excel文件的文件名,读取表格的内容,包括:利用所述Python文件中的读表函数,根据所述Excel文件存储路径与所述Excel文件的文件名读取表格的内容。
[0035]进一步,处理所述Excel文件时,匹配表格正文抬头关键字,获取表格正文抬头的行数;对表格正文抬头不符合设定条件的内容进行删除;通过所述Python文件中的读表函数设置标头参数重新获取表格的数据;使用所述Python文件中的读表函数读取表格内容时,设置表格内容的字段类型,设定每一列表格的数值类型;采用筛选字段内容的方式进行数据的选择;在表格字段缺失时,使用设定值替换数值类型的字段,使用行填充的方式进行补齐。
[0036]进一步,通过Python链接数仓数据库的方式,加载到数据库中,还包括将处理完成的表格内容通过Python链接数仓数据库的方式,加载到数据库中或者通过所述Python文件中的写入函数写入到所述Excel文件中。
附图说明
[0037]图1为本专利技术实施例1提供的基于Python处理Excel的方法的流程图;
[0038]图2为本专利技术实施例2提供的基于Python处理Excel的装置的原理图;
[0039]图3为本专利技术实施例3提供的一种电子设备的原理图。
[0040]图标:30
‑
电子设备;310
‑
处理器;320
‑
总线;330
‑
存储器;340
‑
收发器。
具体实施方式
[0041]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0042]实施例1
[0043]作为一个实施例,如附图1所示,为解决上述技术问题,本实施例提供基于Python处理Excel的方法,包括:
[0044]创建Excel文件存储路径,将Excel文件放入Excel文件存储路径;
[0045]获取Excel文件存储路径下所有Excel文件的文件名;
[0046]循环读取Excel本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于Python处理Excel的方法,其特征在于,包括:创建Excel文件存储路径,将Excel文件放入所述Excel文件存储路径;获取所述Excel文件存储路径下所有所述Excel文件的文件名;循环读取所述Excel文件;利用Python工具根据所述Excel文件存储路径与所述Excel文件的文件名,读取表格的内容;对表格进行关键字匹配,读取包含所述关键字的所述Excel文件;处理所述Excel文件:通过获取表格关键字的方式获取表头,对所述表头不符合设定条件的内容进行删除,设置表格内容的字段类型,筛选文件字段内容去掉表格中的行,通过填充的方式对字段缺失的表格进行补齐;通过Python链接数仓数据库的方式,加载到数据库中。2.根据权利要求1所述基于Python处理Excel的方法,其特征在于,创建Excel文件存储路径,将Excel文件放入所述Excel文件存储路径,包括:在服务器新建用于存放所述Excel文件的所述Excel文件存储路径;将所述Excel文件发送到公共文件夹;使用shell脚本将所述公共文件夹中的所述目标Excel文件拷贝到所述服务器的所述Excel文件存储路径。3.根据权利要求1所述基于Python处理Excel的方法,其特征在于,循环读取所述Excel文件,包括:新建一个Python文件;获取所述Excel文件存储路径下的所有文件名;通过循环文件名的方式读取所述Excel文件,或者通过设定关键字的方式读取包含所述设定关键字的所述Excel文件。4.根据权利要求1所述基于Python处理Excel的方法,其特征在于,利用Python工具根据所述Excel文件存储路径与所述Excel文件的文件名,读取表格的内容,包括:利用所述Python文件中的读表函数,根据所述Excel文件存储路径与所述Excel文件的文件名读取表格的内容。5.根据权利要求1所述基于Python处理Excel的方法,其特征在于,处理所述Excel文件时,匹配表...
【专利技术属性】
技术研发人员:陈旭,施甘图,庭治宏,张寒雪,
申请(专利权)人:拉货宝网络科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。