电子文档的处理方法、装置、设备及存储介质制造方法及图纸

技术编号:39300247 阅读:11 留言:0更新日期:2023-11-12 15:51
本申请涉及计算机领域,特别涉及人工智能领域,提供了一种电子文档的处理方法、装置、设备及存储介质。该方法包括:基于各页待解析文档的第一下载链接,分别创建相应的文档解析服务;异步处理各文档解析服务,获得相应的文档处理结果,每个文档解析任务的处理过程为:下载该文档解析任务的待解析文档,并将其转换为结构化数据,再通过执行结构化数据的解析操作与章节规则的匹配操作,标记出这页待解析文档的章节文本。采用异步方式处理单页粒度的电子文档,实现了对电子文档的高效解析,适用于大批量电子文档的加工生产场景中。且该处理方法的通用性强,可支持处理多种类型的电子文档,可以满足日益复杂的文档处理场景的使用需求。可以满足日益复杂的文档处理场景的使用需求。可以满足日益复杂的文档处理场景的使用需求。

【技术实现步骤摘要】
电子文档的处理方法、装置、设备及存储介质


[0001]本申请涉及计算机领域,特别涉及人工智能领域,提供了一种电子文档的处理方法、装置、设备及存储介质。

技术介绍

[0002]随着计算机网络的快速发展,人们步入了互联网时代,种类繁多的电子文档充斥在网络空间中,如何整理归档各类电子文档,成为了现阶段的研究重点。
[0003]目前,可使用基于神经网络算法的文档处理模型,智能标注电子文档的目录、章节等,对电子文档进行归档处理。
[0004]为了保证处理准确率,文档处理模型包含了海量神经元。所谓神经元,是指对人脑组织的神经元的某种抽象、简化和模拟,作为神经网络的基本单位,可以将神经元看做一个小的处理单元,其包含输入、输出与计算功能。
[0005]然而,在处理电子文档的过程中,这些神经元也消耗了大量的运算资源,降低了处理效率;并且,文档处理模型只能处理单一的电子文档,难以满足日益复杂的文档处理场景的使用需求。

技术实现思路

[0006]本申请实施例提供了一种电子文档的处理方法、装置、设备及存储介质,以解决处理效率低、扩展性差的问题。
[0007]第一方面,本申请实施例提供了一种电子文档的处理方法,包括:
[0008]获取客户端发送的文档解析请求,所述文档解析请求包含一篇电子文档中各页待解析文档的第一下载链接;
[0009]基于获得的各第一下载链接,分别为所述各页待解析文档创建文档解析任务;
[0010]采用异步方式,基于协程并发机制处理各文档解析任务,获得相应的文档处理结果;其中,每个文档解析任务的处理过程如下:
[0011]基于一个文档解析任务携带的第一下载链接,下载一页待解析文档,并将所述一页待解析文档的文档内容转换为结构化数据;
[0012]对所述结构化数据进行解析,得到所述一页待解析文档的各行文本数据,并依次将所述各行文本数据与预设章节规则相匹配,标记出所述一页待解析文档的章节文本。
[0013]第二方面,本申请实施例还提供了一种电子文档的处理装置,包括:
[0014]数据传输模块,用于获取客户端发送的文档解析请求,所述文档解析请求包含一篇电子文档中各页待解析文档的第一下载链接;
[0015]任务创建模块,用于基于获得的各第一下载链接,分别为所述各页待解析文档创建文档解析任务;
[0016]文档处理模块,用于采用异步方式,基于协程并发机制处理各文档解析任务,获得相应的文档处理结果;其中,每个文档解析任务的处理过程如下:
[0017]基于一个文档解析任务携带的第一下载链接,下载一页待解析文档,并将所述一页待解析文档的文档内容转换为结构化数据;
[0018]对所述结构化数据进行解析,得到所述一页待解析文档的各行文本数据,并依次将所述各行文本数据与预设章节规则相匹配,标记出所述一页待解析文档的章节文本。
[0019]可选的,在将所述一页待解析文档的文档内容转换为结构化数据之后,在标记出所述一页待解析文档的章节文本之前,所述文档处理模块还用于:
[0020]当所述一页待解析文档包含图片时,从所述结构化数据中获得所述图片的MD5文件,并将所述图片的MD5文件上传到云对象存储空间中,获得相应的图片链接;
[0021]当所述一页待解析文档包含表格、公式或函数时,从所述结构化数据中获取相应的数学文件,并调用数学解析服务解析所述数学文件,获得文件解析结果。
[0022]可选的,在依次将所述各行文本数据与预设章节规则相匹配之后,所述文档处理模块还用于:
[0023]在确定一个协程处理所述一页待解析文档的文档解析任务超时或失败,且未达到预设重试次数时,重新下载所述一页待解析文档;
[0024]在确定所述一个协程处理所述一页待解析文档的文档解析任务超时或失败,且已达到预设重试次数时,将相应文档解析任务的当前任务状态更新为处理失败。
[0025]可选的,在文档解析服务初始化成功之后,所述电子文档的处理装置还包括状态查询模块,所述状态查询用于:
[0026]获取所述客户端发送的状态查询请求;
[0027]基于所述状态查询请求携带的任务标识,在所述缓存中查询相应文档解析任务的当前任务状态,并将查询结果返回所述客户端。
[0028]可选的,在获得各文档解析任务的文档处理结果之后,所述文档处理模块还用于:
[0029]将所述各文档处理结果上传至所述云对象存储空间中,并接收所述云对象存储空间发送的所述各文档处理结果的第二下载链接;
[0030]将各第二下载链接发送到所述客户端中;
[0031]基于获得的各第二下载链接,通过所述客户端加载所述各文档处理结果,展示相应的目标文档,其中,每个文档处理结果的加载过程如下:
[0032]通过所述客户端解析一个文档处理结果,获得已标记的章节文本,表格、公式或函数的文件解析结果,以及图片的图片链接,并向所述云对象存储空间发送含有所述图片链接的图片下载请求,下载得到相应的图片;
[0033]通过客户端加载所述已标记的章节文本、所述文件解析结果及相应的图片,展示一页目标文档。
[0034]第三方面,本申请实施例还提供了一种计算机设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种电子文档的处理方法的步骤。
[0035]第四方面,本申请实施例还提供了一种计算机可读存储介质,其包括程序代码,当程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行上述任意一种电子文档的处理方法的步骤。
[0036]第五方面,本申请实施例还提供了一种计算机程序产品,包括计算机指令,计算机
指令被处理器执行上述任意一种电子文档的处理方法的步骤。
[0037]本申请有益效果如下:
[0038]本申请实施例提供了一种电子文档的处理方法、装置、设备及存储介质,该方法包括:获取客户端发送的文档解析请求,该文档解析请求包含一篇电子文档中各页待解析文档的第一下载链接;基于各第一下载链接,分别为各页待解析文档创建文档解析任务;采用异步方式,基于协程并发机制处理各文档解析任务,获得相应的文档处理结果,其中,每个文档解析任务的处理过程如下:基于一个文档解析任务携带的第一下载链接,下载一页待解析文档,并将这页待解析文档的文档内容转换为结构化数据;通过解析结构化数据,得到这页待解析文档的各行文本数据,并依次将各行文本数据与预设章节规则相匹配,标记出这页待解析文档的章节文本。
[0039]本申请实施例采用异步方式处理单页粒度的电子文档,实现了对电子文档的高效处理与解析,同时因文档解析服务所具有的无状态、并发性好和可扩展的特点,更适合应用于大批量电子文档的加工生产场景中。
[0040]而且,本申请所提供的电子文档的处理方法通用性强,可支持处理多种类型的电子文档,可以满足日益复杂的文档处理场景的使用需求。此外,本申本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子文档的处理方法,其特征在于,包括:获取客户端发送的文档解析请求,所述文档解析请求包含一篇电子文档中各页待解析文档的第一下载链接;基于获得的各第一下载链接,分别为所述各页待解析文档创建文档解析任务;采用异步方式,基于协程并发机制处理各文档解析任务,获得相应的文档处理结果;其中,每个文档解析任务的处理过程如下:基于一个文档解析任务携带的第一下载链接,下载一页待解析文档,并将所述一页待解析文档的文档内容转换为结构化数据;对所述结构化数据进行解析,得到所述一页待解析文档的各行文本数据,并依次将所述各行文本数据与预设章节规则相匹配,标记出所述一页待解析文档的章节文本。2.如权利要求1所述的方法,其特征在于,所述基于获得的各第一下载链接,分别为所述各页待解析文档创建相应的文档解析任务,包括:分别采用以下方式,创建每个文档解析任务:为所述一页待解析文档创建任务标识;将所述任务标识与所述一页待解析文档的第一下载链接作为元数据,创建相应的一个文档解析任务。3.如权利要求2所述的方法,其特征在于,所述一页待解析文档的第一下载链接包括:相应一页待解析文档的页码信息与所述文档MD5值;所述将所述任务标识与所述一页待解析文档的第一下载链接作为元数据,包括:所述一页待解析文档的任务标识,所述一页待解析文档的第一下载链接、页码信息以及文档MD5值作为所述元数据。4.如权利要求2所述的方法,其特征在于,在创建相应的一个文档解析任务之后,还包括:在缓存中写入所述一个文档解析服务的当前任务状态,并将所述当前任务状态设置为已创建;将所述一个文档解析任务加入到解析任务队列中,调用一个协程处理所述一个文档解析任务。5.如权利要求1所述的方法,其特征在于,在将所述一页待解析文档的文档内容转换为结构化数据之后,在标记出所述一页待解析文档的章节文本之前,还包括:当所述一页待解析文档包含图片时,从所述结构化数据中获得所述图片的MD5文件,并将所述图片的MD5文件上传到云对象存储空间中,获得相应的图片链接;当所述一页待解析文档包含表格、公式或函数时,从所述结构化数据中获取相应的数学文件,并调用数学解析服务解析所述数学文件,获得文件解析结果。6.如权利要求5所述的方法,其特征在于,在依次将所述各行文本数据与预设章节规则相匹配之后,还包括:在确定一个协程处理所述一页待解析文档的文档解析任务超时或失败,且未达到预设重试次数时,重新下载所述一页待解析文档;在确定所述一个协程处理所述一页待解析文档的文档解析任务超时或失败,且已达到预设重试次数时,将相应文档解析任务的当前任务状态更新为处理失败。
7.如权利要求1~6任一项所述的方法,其特征在于,在文档解析服务初始化成功之后,还包括:获取所述客户端发送的状态查询请求;基于所述状态查询请求携带的任务标识,在所述缓存中查询相应文档解析任务的当前任务状态,并将查询结果返回所述客户端。8.如权利要求5所述的方法,其特征在...

【专利技术属性】
技术研发人员:孙合庆关亮亮张洪卫鲁思祈王增光陆瑶瑶宋凤娟李志平王梦珺
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1