【技术实现步骤摘要】
文档处理方法、装置、计算机设备以及存储介质
本专利技术涉及计算机
,尤其涉及一种文档处理方法、装置、计算机设备以及存储介质。
技术介绍
现有技术中,对于文档的关键文本信息的提取一般情况下都是通过人工的方式静态的进行获取,对于关键文本信息的格式转换也没有一个完整、合理的转换方式,如果当文档的数量达到一个量级时,通过人工提取和格式转换的方式并不能达到高效率的处理目的,并且通常会花费大量的人力和物力,随着技术的不断革新,业务合同数量的不断增长,人工处理文档的方式已经不能满足当下的业务需求与发展。
技术实现思路
有鉴于此,本专利技术实施例提供一种文档处理方法、装置、计算机设备以及存储介质,能够将非结构化的文本数据转换为JSON格式的结构化数据,实现文件数据的自动化转换,并且JSON格式占用空间相对较小能够进一步提高数据的传输速率。一方面,本专利技术实施例提供了一种文档处理方法,该方法包括:将PDF文件转换为EXCEL文件;从所述EXCEL文件中提取关键文本信息;将所述关键文本信息进行分词,得到所述关键文本信息的分词结果,所述分词结果包括一个或者多个词语;将所述多个词语按照先后顺序转换为JSON格式的数据,并将所述JSON格式的数据导入至预设数据存储目录中。另一方面,本专利技术实施例提供了一种文档处理装置,所述装置包括:第一转换单元,用于将PDF文件转换为EXCEL文件;提取单元,用于从所述EXCEL文件中提取关键文本信息; >分词单元,用于将所述关键文本信息进行分词,得到所述关键文本信息的分词结果,所述分词结果包括一个或者多个词语;第二转换单元,用于将所述多个词语按照先后顺序转换为JSON格式的数据,并将所述JSON格式的数据导入至预设数据存储目录中。又一方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的文档处理方法。再一方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如上所述的文档处理方法。本专利技术实施例提供一种文档处理方法、装置、计算机设备以及存储介质,其中方法包括:将PDF文件转换为EXCEL文件;从所述EXCEL文件中提取关键文本信息;将所述关键文本信息进行分词,得到所述关键文本信息的分词结果,所述分词结果包括一个或者多个词语;将所述多个词语按照先后顺序转换为JSON格式的数据,并将所述JSON格式的数据导入至预设数据存储目录中。本专利技术能够将非结构化的文本数据转换为JSON格式的结构化数据,实现文件数据的自动化转换,并且JSON格式占用空间相对较小能够进一步提高数据的传输速率。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种文档处理方法的应用场景示意图;图2是本专利技术实施例提供的一种文档处理方法的示意流程图;图3是本专利技术实施例提供的一种文档处理方法的另一示意流程图;图4是本专利技术实施例提供的一种文档处理方法的另一示意流程图;图5是本专利技术实施例提供的一种文档处理方法的另一示意流程图;图6是本专利技术实施例提供的一种文档处理装置的示意性框图;图7是本专利技术实施例提供的一种文档处理装置的另一示意性框图;图8是本专利技术实施例提供的一种文档处理装置的另一示意性框图;图9是本专利技术实施例提供的一种文档处理装置的另一示意性框图;图10是本专利技术实施例提供的一种文档处理装置的另一示意性框图;图11是本专利技术实施例提供的一种计算机设备的结构组成示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。请参阅图1和图2,图1为本专利技术实施例提供的一种文档处理方法的应用场景示意图,图2为本专利技术实施例提供的一种文档处理方法的流程示意图。该文档处理方法应用于服务器或终端中,其中,终端可以是智能手机、平板电脑、笔记本电脑或者台式电脑等具有通信功能的电子设备,服务器可以为分布式服务平台中的一台服务器。作为一应用,如图1所示,该文档处理方法应用于终端20中,该终端20从服务器10中获取开票数据并执行缓存指令以完成缓存开票数据的缓存操作,并通过接收用户的开票请求将所缓存的开票数据发送给用户。需要说明的是,图1中仅仅示意出一台服务器10,在实际操作过程中,终端20可以从多台服务器10中获取缓存开票数据。请参阅图2,图2为本专利技术实施例提供的一种文档处理方法的示意流程图。如图2所示,该方法包括以下步骤S101~S104。S101,将PDF文件转换为EXCEL文件。在本专利技术实施例中,通过将PDF文件转换成EXCEL文件,实现自动分析PDF文档结构,便于下一步对关键文档信息的提取,本实施例提供的PDF文件转换为EXCEL文件的方法可以看成是一个轻量级的服务,外部系统可以通过调用本实施例提供的API接口提代文档转换服务,并通过该服务将PDF文件转换为EXCEL文件。具体的,请参阅图3,所述步骤S101包括以下步骤S201~S203:S201,读取所述PDF文件中的基本元素信息,所述基本元素信息包括用于生成所述EXCEL文件的属性信息和文本信息;S202,将所述文本信息按照EXCEL文件的排版格式进行排版并获取排版结果;S203,调用JAVA工具,根据所述属性信息和所述排版结果生成所述EXCEL文件。其中,所述基本元素信息至少包括待生成EXCEL文件中所需要的属性信息和文本信息,其中,属性信息为所述PDF文件的文件名称以及文件大小,文本信息为所述PDF文件中正文记载的文字本文档来自技高网...
【技术保护点】
1.一种文档处理方法,其特征在于,所述方法包括:/n将PDF文件转换为EXCEL文件;/n从所述EXCEL文件中提取关键文本信息;/n将所述关键文本信息进行分词,得到所述关键文本信息的分词结果,所述分词结果包括一个或者多个词语;/n将所述多个词语按照先后顺序转换为JSON格式的数据,并将所述JSON格式的数据导入至预设数据存储目录中。/n
【技术特征摘要】
1.一种文档处理方法,其特征在于,所述方法包括:
将PDF文件转换为EXCEL文件;
从所述EXCEL文件中提取关键文本信息;
将所述关键文本信息进行分词,得到所述关键文本信息的分词结果,所述分词结果包括一个或者多个词语;
将所述多个词语按照先后顺序转换为JSON格式的数据,并将所述JSON格式的数据导入至预设数据存储目录中。
2.如权利要求1所述的方法,其特征在于,所述将PDF文件转换为EXCEL文件,包括:
读取所述PDF文件中的基本元素信息,所述基本元素信息包括用于生成所述EXCEL文件的属性信息和文本信息;
将所述文本信息按照EXCEL文件的排版格式进行排版并获取排版结果;
调用JAVA工具,根据所述属性信息和所述排版结果生成所述EXCEL文件。
3.如权利要求1所述的方法,其特征在于,所述将所述关键文本信息进行分词,得到所述关键文本信息的分词结果,包括:
使用基于概率统计模型的分词方法对所述关键文本信息进行分词,并得到所述分词结果。
4.如权利要求1所述的方法,其特征在于,所述将所述多个词语按照先后顺序转换为JSON格式的数据,并将所述JSON格式的数据导入至预设数据存储目录中,包括:
遍历所述分词结果中的所有词语;
使用预设JSON格式模板构建与每一词语相对应的键值对;
使用第一预设字符将每一个键值对分开,并将所有的键值对存放在第二预设字符中;
将存放在第二预设字符中的所有键值对进行保存以得到转换后的JSON格式数据,将所述JSON格式的数据导入至预设数据存储目录中。
5.如权利要求1所述的方法,其特征在于,在所述将所述关键文本信息进行分词,得到所述关键...
【专利技术属性】
技术研发人员:郑泽重,范有文,李如先,
申请(专利权)人:深圳前海环融联易信息科技服务有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。