【技术实现步骤摘要】
文档处理方法、装置、系统、电子设备及存储介质
本申请涉及计算机
本申请尤其涉及信息管理、图像处理、文本处理等领域。
技术介绍
纸质文档是信息传播的载体,但是大量堆积的纸张难以管理和保存,信息无法有效地进行检索。随着数字采集技术、图像处理技术以及存储技术的发展,越来越多的信息以文档图像的形式进行保存。随着文档图像的规模越来越大,如何有效地进行文档图像信息的存储,以便高效的进行文档的检索成为需要解决的问题。
技术实现思路
本公开提供了一种文档处理方法、装置、系统、电子设备及存储介质。根据本公开的第一方面,提供了一种文档处理方法,包括:获取第一历史文档的图像;对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。根据本公开的第二方面,提供了一种文档处理装置,包括:图像预处理模块,用于获取第一历史文档的图像;特征抽取模块,用于对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;存储模块,用于将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。根据本公开的第三方面,提供了一种文档处理系统,包括:服务器,用于获取第一历史文档的图像;对所述第一历史文档 ...
【技术保护点】
1.一种文档处理方法,包括:/n获取第一历史文档的图像;/n对所述第一历史文档的图像进行区域划分,得到至少一类区域;/n对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;/n将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。/n
【技术特征摘要】
1.一种文档处理方法,包括:
获取第一历史文档的图像;
对所述第一历史文档的图像进行区域划分,得到至少一类区域;
对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;
将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。
2.根据权利要求1所述的方法,其中,所述对所述第一历史文档的图像进行区域划分,得到至少一类区域,包括:
对所述第一历史文档的图像进行区域划分,得到表格区域、文字区域、图片区域中的至少一类区域。
3.根据权利要求2所述的方法,其中,所述对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息,包括以下至少之一:
对所述图片区域进行图像特征提取得到图像特征;
对所述文字区域进行识别得到文字,从识别得到的文字中提取关键词特征;
对所述表格区域进行图像识别得到所述表格的图像特征,以及对所述表格区域进行识别得到文字所对应的关键词特征。
4.根据权利要求1所述的方法,其中,所述方法还包括:
对所述第一历史文档的图像进行预处理,得到预处理后的第一历史文档的图像。
5.根据权利要求4所述的方法,其中,所述对所述第一历史文档的图像进行预处理,包括:
基于目标检测算法对所述第一历史文档的图像进行外框检测,得到所述第一历史文档的图像的外框坐标;
基于所述外框坐标确定所述第一历史文档的图像的主体部分;
基于外框坐标对所述第一历史文档的图像的主体部分进行倾斜校正,得到校正后的第一历史文档的图像。
6.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述第一历史文档的特征,确定所述第一历史文档所对应的领域类别。
7.根据权利要求1-6任一项所述的方法,其中,所述方法还包括:
获取到检索请求;
基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档;其中,N为大于等于1的整数。
8.根据权利要求7所述的方法,其中,所述检索请求包括:文本信息;
所述基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括:
获取所述文本信息与所述N个历史文档所对应的关键词特征之间的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档;
或者,
基于所述文本信息的目标领域类别,确定所述目标领域类别所对应的所述N个历史文档;基于所述文本信息与所述N个历史文档所对应的关键词特征的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档。
9.根据权利要求7所述的方法,其中,所述检索请求包括:图像信息;
基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括:
确定所述图像信息所对应的特征图;
基于所述特征图以及所述N个历史文档所对应的图像特征确定所述图像信息与所述N个历史文档之间的图像相似度;
从所述N个历史文档中选取图像相似度最高的历史文档作为所述目标历史文档。
10.根据权利要求7所述的方法,其中,所述检索请求包括:图像信息;
基于N个历史文档的图像分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括:
若基于所述图像信息识别得到文字信息,则基于所述文字信息以及所述N个历史文档所对应的关键词特征,确定所述图像信息与N个历史文档之间的文本相似度;
确定所述图像信息所对应的特征图,基于所述特征图以及所述N个历史文档所对应的图像特征,确定所述图像信息与所述N个历史文档之间的图像相似度;
基于所述图像信息与所述N个历史文档之间的文本相似度以及图像相似度,确定所述图像信息与所述N个历史文档之间的综合相似度;
基于所述图像信息与所述N个历史文档之间的综合相似度,选取综合相似度最高的历史文档作为所述目标历史文档。
11.根据权利要求7所述的方法,其中,还包括:
基于所述目标历史文档,确定与所述目标历史文档相关的至少一个推荐历史文档。
12.一种文档处理装置,包括:
图像预处理模块,用于获取第一历史文档的图像;
特征抽取模块,用于对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;
存储模块,用于将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。
13.根据权利要求12所述的装置,其中,所述特征抽取模块包括:
区域划分子模块,用于对所述第一历...
【专利技术属性】
技术研发人员:冯博豪,庞敏辉,谢国斌,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。