【技术实现步骤摘要】
电子文档的处理方法、装置、设备及存储介质
[0001]本申请涉及计算机领域,特别涉及人工智能领域,提供了一种电子文档的处理方法、装置、设备及存储介质。
技术介绍
[0002]随着计算机网络的快速发展,人们步入了互联网时代,种类繁多的电子文档充斥在网络空间中,如何整理归档各类电子文档,成为了现阶段的研究重点。
[0003]目前,可使用基于神经网络算法的文档处理模型,智能标注电子文档的目录、章节等,对电子文档进行归档处理。
[0004]为了保证处理准确率,文档处理模型包含了海量神经元。所谓神经元,是指对人脑组织的神经元的某种抽象、简化和模拟,作为神经网络的基本单位,可以将神经元看做一个小的处理单元,其包含输入、输出与计算功能。
[0005]然而,在处理电子文档的过程中,这些神经元也消耗了大量的运算资源,降低了处理效率;并且,文档处理模型只能处理单一的电子文档,难以满足日益复杂的文档处理场景的使用需求。
技术实现思路
[0006]本申请实施例提供了一种电子文档的处理方法、装置、设备及存储介质,以解决处理效率低、扩展性差的问题。
[0007]第一方面,本申请实施例提供了一种电子文档的处理方法,包括:
[0008]获取客户端发送的文档解析请求,所述文档解析请求包含一篇电子文档中各页待解析文档的第一下载链接;
[0009]基于获得的各第一下载链接,分别为所述各页待解析文档创建文档解析任务;
[0010]采用异步方式,基于协程并发机制处理各文档解析任务,获得相 ...
【技术保护点】
【技术特征摘要】
1.一种电子文档的处理方法,其特征在于,包括:获取客户端发送的文档解析请求,所述文档解析请求包含一篇电子文档中各页待解析文档的第一下载链接;基于获得的各第一下载链接,分别为所述各页待解析文档创建文档解析任务;采用异步方式,基于协程并发机制处理各文档解析任务,获得相应的文档处理结果;其中,每个文档解析任务的处理过程如下:基于一个文档解析任务携带的第一下载链接,下载一页待解析文档,并将所述一页待解析文档的文档内容转换为结构化数据;对所述结构化数据进行解析,得到所述一页待解析文档的各行文本数据,并依次将所述各行文本数据与预设章节规则相匹配,标记出所述一页待解析文档的章节文本。2.如权利要求1所述的方法,其特征在于,所述基于获得的各第一下载链接,分别为所述各页待解析文档创建相应的文档解析任务,包括:分别采用以下方式,创建每个文档解析任务:为所述一页待解析文档创建任务标识;将所述任务标识与所述一页待解析文档的第一下载链接作为元数据,创建相应的一个文档解析任务。3.如权利要求2所述的方法,其特征在于,所述一页待解析文档的第一下载链接包括:相应一页待解析文档的页码信息与所述文档MD5值;所述将所述任务标识与所述一页待解析文档的第一下载链接作为元数据,包括:所述一页待解析文档的任务标识,所述一页待解析文档的第一下载链接、页码信息以及文档MD5值作为所述元数据。4.如权利要求2所述的方法,其特征在于,在创建相应的一个文档解析任务之后,还包括:在缓存中写入所述一个文档解析服务的当前任务状态,并将所述当前任务状态设置为已创建;将所述一个文档解析任务加入到解析任务队列中,调用一个协程处理所述一个文档解析任务。5.如权利要求1所述的方法,其特征在于,在将所述一页待解析文档的文档内容转换为结构化数据之后,在标记出所述一页待解析文档的章节文本之前,还包括:当所述一页待解析文档包含图片时,从所述结构化数据中获得所述图片的MD5文件,并将所述图片的MD5文件上传到云对象存储空间中,获得相应的图片链接;当所述一页待解析文档包含表格、公式或函数时,从所述结构化数据中获取相应的数学文件,并调用数学解析服务解析所述数学文件,获得文件解析结果。6.如权利要求5所述的方法,其特征在于,在依次将所述各行文本数据与预设章节规则相匹配之后,还包括:在确定一个协程处理所述一页待解析文档的文档解析任务超时或失败,且未达到预设重试次数时,重新下载所述一页待解析文档;在确定所述一个协程处理所述一页待解析文档的文档解析任务超时或失败,且已达到预设重试次数时,将相应文档解析任务的当前任务状态更新为处理失败。
7.如权利要求1~6任一项所述的方法,其特征在于,在文档解析服务初始化成功之后,还包括:获取所述客户端发送的状态查询请求;基于所述状态查询请求携带的任务标识,在所述缓存中查询相应文档解析任务的当前任务状态,并将查询结果返回所述客户端。8.如权利要求5所述的方法,其特征在...
【专利技术属性】
技术研发人员:孙合庆,关亮亮,张洪卫,鲁思祈,王增光,陆瑶瑶,宋凤娟,李志平,王梦珺,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。