System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于Python的商务文件财务表格格式转换方法及系统技术方案_技高网

基于Python的商务文件财务表格格式转换方法及系统技术方案

技术编号:41468247 阅读:7 留言:0更新日期:2024-05-30 14:22
本发明专利技术涉及数据存储技术领域,具体涉及基于Python的商务文件财务表格格式转换方法及系统,包括:将PDF商务文件财务表格转化为DataFrame格式表格,创建一个包含不同内容分类数组的Python字典变量并将DataFrame格式表格根据内容种类传入字典类型变量的各个数组对字典变量进行填充;对字典变量内DataFrame格式表格进行数据清洗去噪、单位转换、模式匹配并标准化,去除冗余数据后获取包含整个商务文件中各个财务表格的Python字典变量;将包含整个商务文件中各个财务表格的Python字典变量转化为JSON格式。本发明专利技术减少了格式转化的误差,提高了格式转化的效率。

【技术实现步骤摘要】

本专利技术涉及数据存储,具体涉及基于python的商务文件财务表格格式转换方法及系统。


技术介绍

1、投标文件是指投标人应招标文件要求编制的响应性文件,一般由商务文件、技术文件、价格文件和其他部分组成。商务文件通常包括以下内容:投标函、法人代表委托书、企业简介及资质、企业业绩情况等。其中企业业绩情况通常以表格格式呈现,最重要的表格有五种,分别为财务状况表、资产负债表、损益表、现金流量表和业绩表。

2、pandas是python程序设计语言的一个扩展程序库,是一个强大的分析结构化数据的工具集,可以从各种文件格式比如csv、json、sql、microsoft excel导入数据,可以对各种数据进行运算操作,还有数据清洗和数据加工特征,表格格式转换的目标是,将商务文件表格最终以一种可用、易读的格式保存。然而,从商务投标文件中直接提取出的财务表格数据,与投标文件中的原表格相比,往往表示格式不一,各种情况下的内容与原始表格有各种不同误差,因此给表格格式的快速转化带来困难。目前,与本专利技术相接近的现有技术存在以下几种缺点:

3、功能少:目前,市面上针对商务文件中的财务表格格式转化这一特定功能的软件较少,并且少有包含“合并多个冗余行”、“处理财务数据单位”等功能。许多杂乱表格输入的转化需要采用人工的方式,显然有时间、人力成本高昂的缺点。

4、误差大:在表格转化过程中,需要处理表头和对应表格内容的匹配。市面上直接舍弃不匹配的列的做法,会造成过度去噪,一些表头虽然不严格标准但有用的列会被舍弃,使得总体误差较大。

5、效率低:json是存储和交换文本信息的语法,这点类似xml,并且json比xml更小、更快。采用xml作为表格表示格式的现有技术会效率较低,而且不同的浏览器(比如ie和firefox)将xml解析成dom对象的过程会有差异。


技术实现思路

1、本专利技术提供基于python的商务文件财务表格格式转换方法及系统,以解决现有的问题:本技术的输入是从商务文件中识别出的原始表格,涵盖了财务状况表、资产负债表、损益表、现金流量表或业绩表五种类型。这些输入表格虽然包含了部分原始表格的信息,但其行列格式以及内容通常是杂乱无章的,输入的dataframe表格与原始商务文件中的表格相比往往存在错行、错列、额外的空格、换行、空白行/列等问题。

2、本专利技术的基于python的商务文件财务表格格式转换方法及系统采用如下技术方案:

3、本专利技术一个实施例提供了基于python的商务文件财务表格格式转换方法,该方法包括以下步骤:

4、将pdf商务文件财务表格转化为dataframe格式表格,创建一个包含不同内容分类数组的python字典变量并将dataframe格式表格根据内容种类传入字典类型变量的各个数组对字典变量进行填充;

5、对字典变量内dataframe格式表格进行数据清洗去噪、单位转换、模式匹配并标准化,去除冗余数据后获取包含整个商务文件中各个财务表格的python字典变量;

6、将包含整个商务文件中各个财务表格的python字典变量转化为json格式。

7、进一步地,所述创建一个包含不同内容分类数组的python字典变量并将dataframe格式表格根据内容种类传入字典类型变量的各个数组对字典变量进行填充,包括的具体方法为:

8、创建一个python字典变量res_datas,res_datas包含一份商务文件中符合提取需求的财务状况表、资产负债表、损益表、现金流量表和业绩表这五种表格,每种表格用一个数组表示,将转化为dataframe格式的pdf商务文件财务表格对应含义的数据存入对应含义的数组中对变量res_datas进行填充,获得填充后的字典变量。

9、进一步地,所述对字典变量内dataframe格式表格进行数据清洗去噪、单位转换、模式匹配并标准化,去除冗余数据后获取包含整个商务文件中各个财务表格的python字典变量,包括的具体方法为:

10、将字典变量内的dataframe表格进行数据清洗获取清洗后的dataframe表格;

11、处理清洗后的dataframe表格的数据单位,去除表示单位的字符串获取处理数据单位后的dataframe表格;

12、将处理数据单位后的dataframe表格的表格表头与表头库进行模式匹配并标准化,获取标准化后的dataframe表格;

13、去除标准化后的dataframe表格的冗余数据,获取包含整个商务文件中各个财务表格的python字典变量。

14、进一步地,所述对字典变量内的dataframe表格进行数据清洗获取清洗后的dataframe表格,包括的具体方法为:

15、使用函数对每个表头内容进行去噪,去除字符串中的空格、换行符、无关标点,以及none表头单元格,再根据去噪后的表头,对表格的内容单元格进行去噪,并去除掉没有表头对应的空列,进一步数据清洗,按照表头单元格和其对应的内容单元格,将数据清洗后的表格的每一行表示为一个新的字典变量,所有的行对应的字典变量被拼接在一起形成一个数组,该数组记为清洗后的dataframe表格。

16、进一步地,所述处理清洗后的dataframe表格的数据单位,去除表示单位的字符串获取处理数据单位后的dataframe表格,包括的具体方法为:

17、根据清洗后的dataframe表格对应的财务表格“单位”一栏位置及表示方式的不同选择不同的算法,并用算法检测表示单位的字符串,将单位换算到数据上去除表示单位的字符串,获得处理数据单位后的dataframe表格。

18、进一步地,所述将处理数据单位后的dataframe表格的表格表头与表头库进行模式匹配并标准化,获取标准化后的dataframe表格,包括的具体方法为:

19、表格的每一行表示为一个python字典类型的数据结构,对于每一行,如果某个表头可以匹配到表头库,则认为这个表头对应的列是需要的列,将其和对应的内容单元格作为键值对写入字典数据结构中,所有行组成一个数组数据结构表示整张表格,该表格记为标准化后的dataframe表格。

20、进一步地,所述去除标准化后的dataframe表格的冗余数据,获取包含整个商务文件中各个财务表格的python字典变量,包括的具体方法为:

21、对于标准化后的dataframe表格的每一行,如果不为空的这些单元格对应的位置在上一行中都为空,则将这一行合并到上一行中,对标准化后的dataframe表格的每一行进行处理后获得去冗余后的dataframe表格,即获取了包含整个商务文件中各个财务表格的python字典变量res_datas。

22、进一步地,所述将pdf商务文件财务表格转化为dataframe格式表格,包括的具体方法为:

23、使用python中的pdf处理库来读取pd本文档来自技高网...

【技术保护点】

1.基于Python的商务文件财务表格格式转换方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述基于Python的商务文件财务表格格式转换方法,其特征在于,所述创建一个包含不同内容分类数组的Python字典变量并将DataFrame格式表格根据内容种类传入字典类型变量的各个数组对字典变量进行填充,包括的具体方法为:

3.根据权利要求1所述基于Python的商务文件财务表格格式转换方法,其特征在于,所述对字典变量内DataFrame格式表格进行数据清洗去噪、单位转换、模式匹配并标准化,去除冗余数据后获取包含整个商务文件中各个财务表格的Python字典变量,包括的具体方法为:

4.根据权利要求3所述基于Python的商务文件财务表格格式转换方法,其特征在于,所述对字典变量内的DataFrame表格进行数据清洗获取清洗后的DataFrame表格,包括的具体方法为:

5.根据权利要求3所述基于Python的商务文件财务表格格式转换方法,其特征在于,所述处理清洗后的DataFrame表格的数据单位,去除表示单位的字符串获取处理数据单位后的DataFrame表格,包括的具体方法为:

6.根据权利要求3所述基于Python的商务文件财务表格格式转换方法,其特征在于,所述将处理数据单位后的DataFrame表格的表格表头与表头库进行模式匹配并标准化,获取标准化后的DataFrame表格,包括的具体方法为:

7.根据权利要求3所述基于Python的商务文件财务表格格式转换方法,其特征在于,所述去除标准化后的DataFrame表格的冗余数据,获取包含整个商务文件中各个财务表格的Python字典变量,包括的具体方法为:

8.根据权利要求1所述基于Python的商务文件财务表格格式转换方法,其特征在于,所述将PDF商务文件财务表格转化为DataFrame格式表格,包括的具体方法为:

9.根据权利要求1所述基于Python的商务文件财务表格格式转换方法,其特征在于,所述将包含整个商务文件中各个财务表格的Python字典变量转化为JSON格式,包括的具体方法为:

10.基于Python的商务文件财务表格格式转换系统,其特征在于,该系统包括以下模块:

...

【技术特征摘要】

1.基于python的商务文件财务表格格式转换方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述基于python的商务文件财务表格格式转换方法,其特征在于,所述创建一个包含不同内容分类数组的python字典变量并将dataframe格式表格根据内容种类传入字典类型变量的各个数组对字典变量进行填充,包括的具体方法为:

3.根据权利要求1所述基于python的商务文件财务表格格式转换方法,其特征在于,所述对字典变量内dataframe格式表格进行数据清洗去噪、单位转换、模式匹配并标准化,去除冗余数据后获取包含整个商务文件中各个财务表格的python字典变量,包括的具体方法为:

4.根据权利要求3所述基于python的商务文件财务表格格式转换方法,其特征在于,所述对字典变量内的dataframe表格进行数据清洗获取清洗后的dataframe表格,包括的具体方法为:

5.根据权利要求3所述基于python的商务文件财务表格格式转换方法,其特征在于,所述处理清洗后的dataframe表格的数据单位,去除表示单位的字符串获取...

【专利技术属性】
技术研发人员:郑子辰袁建贾家琛邸智
申请(专利权)人:华能招标有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1