文档处理方法、装置、系统、电子设备及存储介质制造方法及图纸

技术编号:26505090 阅读:22 留言:0更新日期:2020-11-27 15:32
本申请公开了文档处理方法、装置、系统、电子设备及存储介质,涉及信息管理、图像处理、文本处理等领域。具体实现方案为:获取第一历史文档的图像;对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。

【技术实现步骤摘要】
文档处理方法、装置、系统、电子设备及存储介质
本申请涉及计算机
本申请尤其涉及信息管理、图像处理、文本处理等领域。
技术介绍
纸质文档是信息传播的载体,但是大量堆积的纸张难以管理和保存,信息无法有效地进行检索。随着数字采集技术、图像处理技术以及存储技术的发展,越来越多的信息以文档图像的形式进行保存。随着文档图像的规模越来越大,如何有效地进行文档图像信息的存储,以便高效的进行文档的检索成为需要解决的问题。
技术实现思路
本公开提供了一种文档处理方法、装置、系统、电子设备及存储介质。根据本公开的第一方面,提供了一种文档处理方法,包括:获取第一历史文档的图像;对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。根据本公开的第二方面,提供了一种文档处理装置,包括:图像预处理模块,用于获取第一历史文档的图像;特征抽取模块,用于对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;存储模块,用于将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。根据本公开的第三方面,提供了一种文档处理系统,包括:服务器,用于获取第一历史文档的图像;对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。根据本公开的第四方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述方法。根据本公开的第五方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行前述方法。根据本申请的技术,通过将历史文档的图像进行区域划分,得到不同类型的区域所对应的子特征信息,进而将子特征信息作为历史文档的特征进行存储;如此,可以基于历史文档的图像对文档进行整理,整个过程完全自动化进行,无需人工参与,节省人力而且效率较高;并且,本申请可以将图像中进行多个区域的划分以得到多种类型的特征信息,从而更加准确的提取了历史文档的图像所对应的特征,进而便于检索的过程中更加准确的进行查找,有利于提升检索的准确度。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请实施例的文档处理方法流程示意图一;图2是根据本申请实施例的文档处理方法流程示意图二;图3是根据本申请实施例的文档处理方法流程示意图三;图4是根据本申请实施例的文档处理方法的检索流程示意图;图5是根据本申请实施例的文档处理方法流程示意图四;图6是根据本申请实施例的一种整体处理架构示意图;图7是根据本申请实施例的文档处理装置组成结构示意图一;图8是根据本申请实施例的文档处理装置组成结构示意图二;图9是根据本申请实施例的文档处理装置组成结构示意图三;图10是根据本申请实施例的文档处理系统组成结构示意图;图11是用来实现本申请实施例的文档处理方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。实施例一、本申请实施例提供了一种文档处理方法,如图1所示,包括:S101:获取第一历史文档的图像;示例性的,所述第一历史文档可以为当前需要存储的多个历史文档中的一个,将其中任意一个称为第一历史文档,针对每一个历史文档都可以采用本申请提供的方案进行后续处理,本实施例不再进行一一赘述。另外,所述第一历史文档可以为一本书,相应的,第一历史文档的图像可以为一张或多张图像组成的。可以理解为若要将一本书进行电子归档,那么可以将这本书中的全部页进行扫描得到每一页相应的图像作为第一历史文档的图像。由于不论第一历史文档的图像为一张还是多张图像都采用相同的后续处理,因此这里不对每一个历史文档包含多少图像进行重点说明。S102:对所述第一历史文档的图像进行区域划分,得到至少一类区域;示例性的,第一历史文档可以对应一张或多张图片,针对其中每一个图像都可以进行区域划分,得到每一张图像所对应的表格区域、文字图像、图片区域中至少一类。S103:对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;示例性的,对所述文字区域进行识别得到文字,从识别得到的文字中提取关键词特征;表格区域特征可以包括:表格的图像特征以及关键词特征;对所述图片区域提取得到图像特征。S104:将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。示例性地,可以将至少一类区域分别对应的子特征信息,比如文字区域对应的关键词特征、表格区域对应的表格的图像特征以及关键词特征、图片区域的图像特征中至少一种作为所述第一历史文档的特征进行存储。本实施例通过将历史文档的图像进行区域划分,得到不同类型的区域所对应的子特征信息,进而将子特征信息作为历史文档的特征进行存储;如此,可以基于历史文档的图像对文档进行整理,整个过程完全自动化进行,无需人工参与,节省人力而且效率较高;并且,本申请可以将图像中进行多个区域的划分以得到多种类型的特征信息,从而更加准确的提取了历史文档的图像所对应的特征,进而便于检索的过程中更加准确的进行查找,有利于提升检索的准确度。实施例二、在前述实施例一的基础上,如图2所示,在获取到第一历史文档的图像后,还可以包括:S100:对所述第一历史文档的图像进行预处理,得到预处理后的第一历史文档的图像。本实施例中,所述对第一历史文档的图像进行预处理,可以包括有噪声清除、图像二值化、倾斜矫正等。这里,第一历史文档进行图像扫描时,由于受第一历史文档本身的纸张质量、扫描时的光照程度等因素的影响,扫描得到的图像一般都夹杂着噪声和缺陷。此外,纸张边缘不平,纸张摆放不平整或者扫描仪的纠偏性能差等因素,会使扫描得到的图像存在倾斜本文档来自技高网...

【技术保护点】
1.一种文档处理方法,包括:/n获取第一历史文档的图像;/n对所述第一历史文档的图像进行区域划分,得到至少一类区域;/n对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;/n将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。/n

【技术特征摘要】
1.一种文档处理方法,包括:
获取第一历史文档的图像;
对所述第一历史文档的图像进行区域划分,得到至少一类区域;
对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;
将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。


2.根据权利要求1所述的方法,其中,所述对所述第一历史文档的图像进行区域划分,得到至少一类区域,包括:
对所述第一历史文档的图像进行区域划分,得到表格区域、文字区域、图片区域中的至少一类区域。


3.根据权利要求2所述的方法,其中,所述对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息,包括以下至少之一:
对所述图片区域进行图像特征提取得到图像特征;
对所述文字区域进行识别得到文字,从识别得到的文字中提取关键词特征;
对所述表格区域进行图像识别得到所述表格的图像特征,以及对所述表格区域进行识别得到文字所对应的关键词特征。


4.根据权利要求1所述的方法,其中,所述方法还包括:
对所述第一历史文档的图像进行预处理,得到预处理后的第一历史文档的图像。


5.根据权利要求4所述的方法,其中,所述对所述第一历史文档的图像进行预处理,包括:
基于目标检测算法对所述第一历史文档的图像进行外框检测,得到所述第一历史文档的图像的外框坐标;
基于所述外框坐标确定所述第一历史文档的图像的主体部分;
基于外框坐标对所述第一历史文档的图像的主体部分进行倾斜校正,得到校正后的第一历史文档的图像。


6.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述第一历史文档的特征,确定所述第一历史文档所对应的领域类别。


7.根据权利要求1-6任一项所述的方法,其中,所述方法还包括:
获取到检索请求;
基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档;其中,N为大于等于1的整数。


8.根据权利要求7所述的方法,其中,所述检索请求包括:文本信息;
所述基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括:
获取所述文本信息与所述N个历史文档所对应的关键词特征之间的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档;
或者,
基于所述文本信息的目标领域类别,确定所述目标领域类别所对应的所述N个历史文档;基于所述文本信息与所述N个历史文档所对应的关键词特征的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档。


9.根据权利要求7所述的方法,其中,所述检索请求包括:图像信息;
基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括:
确定所述图像信息所对应的特征图;
基于所述特征图以及所述N个历史文档所对应的图像特征确定所述图像信息与所述N个历史文档之间的图像相似度;
从所述N个历史文档中选取图像相似度最高的历史文档作为所述目标历史文档。


10.根据权利要求7所述的方法,其中,所述检索请求包括:图像信息;
基于N个历史文档的图像分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括:
若基于所述图像信息识别得到文字信息,则基于所述文字信息以及所述N个历史文档所对应的关键词特征,确定所述图像信息与N个历史文档之间的文本相似度;
确定所述图像信息所对应的特征图,基于所述特征图以及所述N个历史文档所对应的图像特征,确定所述图像信息与所述N个历史文档之间的图像相似度;
基于所述图像信息与所述N个历史文档之间的文本相似度以及图像相似度,确定所述图像信息与所述N个历史文档之间的综合相似度;
基于所述图像信息与所述N个历史文档之间的综合相似度,选取综合相似度最高的历史文档作为所述目标历史文档。


11.根据权利要求7所述的方法,其中,还包括:
基于所述目标历史文档,确定与所述目标历史文档相关的至少一个推荐历史文档。


12.一种文档处理装置,包括:
图像预处理模块,用于获取第一历史文档的图像;
特征抽取模块,用于对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;
存储模块,用于将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。


13.根据权利要求12所述的装置,其中,所述特征抽取模块包括:
区域划分子模块,用于对所述第一历...

【专利技术属性】
技术研发人员:冯博豪庞敏辉谢国斌
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1