一种基于大数据分析的OFD版式文件的自动签章方法及系统技术方案

技术编号:29256632 阅读:29 留言:0更新日期:2021-07-13 17:28
本发明专利技术公开了一种基于大数据分析的OFD版式文件的自动签章方法及系统,包括:构建初始的自动签章模型;其中,所述自动签章模型,包括:基础信息和规则信息;获取用户的至少一个历史签章文档,对所述至少一个历史签章文档以签章位置为中心解析预设范围内的文字内容,并对所述文字内容进行分词处理,获取每个历史签章文档对应的规则信息;根据用户的基础信息和每个历史签章文档对应的规则信息对所述初始的自动签章模型进行训练,以获取经过训练的自动签章模型;接收用户根据待签章文档发送的文档签章请求,对所述文档签章请求进行解析,确定目标基础信息,并根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章。

【技术实现步骤摘要】
一种基于大数据分析的OFD版式文件的自动签章方法及系统
本专利技术涉及自动签章
,并且更具体地,涉及一种基于大数据分析的OFD版式文件的自动签章方法及系统。
技术介绍
印章的使用,最繁琐的便是确定印章加盖位置,无论是传统的纸质文件盖章还是无纸化办公的电子印章盖章,都无法避免需要人工确定盖章位置。目前已经有很多电子印章产品提供了自动签章功能,但需要用户预设盖章定位信息,如关键文字定位盖章、绝对坐标定位盖章等信息。但很多应用场景中文档内容差异较大、无法精确的进行预设定位信息,用户只能逐个文档打开进行手动签章,无法实现真正的高效率办公的目的。
技术实现思路
本专利技术提出一种基于大数据分析的OFD版式文件的自动签章方法及系统,以解决如何实现自动签章的问题。为了解决上述问题,根据本专利技术的一个方面,提供了一种基于大数据分析的OFD版式文件的自动签章方法,所述方法包括:构建初始的自动签章模型;其中,所述自动签章模型,包括:基础信息和规则信息;获取用户的至少一个历史签章文档,对所述至少一个历史签章文档以签章位置为中心解析预设范围内的文字内容,并对所述文字内容进行分词处理,获取每个历史签章文档对应的规则信息;根据用户的基础信息和每个历史签章文档对应的规则信息对所述初始的自动签章模型进行训练,以获取经过训练的自动签章模型;接收用户根据待签章文档发送的文档签章请求,对所述文档签章请求进行解析,确定目标基础信息,并根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章。优选地,其中所述基础信息,包括:印章信息和用户信息,所述规则信息,包括:签章位置中心的核心文字、签章位置与核心文字的相对坐标信息和相关文字。优选地,其中所述方法还包括:采集用户每次对文档手动盖章的位置信息,并计算每个文字使用的次数,确定每个文字对应的频度,优化自动签章模型的可用性和适用性;针对每个自动签章模型中的多个文字内容生成对应的频繁项集:{X,Y1,Y2,…,Yn}=>Z;即X,Y1,Y2,…,Xn出现在同一个区域,则X所在区域为签章位置;其中,X为核心文字,Y1,Y2,…,Xn为相关文字;Z为盖章区域。优选地,其中所述方法还包括:针对每个自动签章模型,设置对应的最小频度,通过最小频度进行模型评价,使用已签章的文档进行重复签章测试,确定自动签章位置与已签章位置的差异;其中,评价模型质量的指标包括:平均误差率和线性回归判定系数R2。优选地,其中所述根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章,包括:根据所述目标基础信息确定对应的经过训练的自动签章模型,并利用对应的经过训练的自动签章模型确定至少一个核心文字;选取所述至少一个核心文字中频度最大的文字作为目标核心文字,根据所述目标核心文字关联出模型库中的相关文字,并选取所述相关文字中频度最大的文字作为目标相关文字;对所述待签章文档进行分析,确定所述目标核心文字在所述待签章文档中的位置,获取目标核心文字坐标信息;根据所述目标核心文字坐标信息和预设的分析范围确定内容提取区域,并对所述内容提取区域中的文字进行识别和分词处理,以获取分词数据;将所述分词数据与所述目标中满足频度要求的相关文字进行比对,当匹配度大于预设的最小匹配度时,在所述目标核心文字坐标信息处进行签章。根据本专利技术的另一个方面,提供了一种基于大数据分析的OFD版式文件的自动签章系统,所述系统包括:自动签章模型构建单元,用于构建初始的自动签章模型;其中,所述自动签章模型,包括:基础信息和规则信息;规则信息确定单元,用于获取用户的至少一个历史签章文档,对所述至少一个历史签章文档以签章位置为中心解析预设范围内的文字内容,并对所述文字内容进行分词处理,获取每个历史签章文档对应的规则信息;自动签章模型训练单元,用于根据用户的基础信息和每个历史签章文档对应的规则信息对所述初始的自动签章模型进行训练,以获取经过训练的自动签章模型;自动签章单元,用于接收用户根据待签章文档发送的文档签章请求,对所述文档签章请求进行解析,确定目标基础信息,并根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章。优选地,其中所述基础信息,包括:印章信息和用户信息,所述规则信息,包括:签章位置中心的核心文字、签章位置与核心文字的相对坐标信息和相关文字。优选地,其中所述系统还包括:优化单元,用于采集用户每次对文档手动盖章的位置信息,并计算每个文字使用的次数,确定每个文字对应的频度,优化自动签章模型的可用性和适用性;针对每个自动签章模型中的多个文字内容生成对应的频繁项集:{X,Y1,Y2,…,Yn}=>Z;即X,Y1,Y2,…,Xn出现在同一个区域,则X所在区域为签章位置;其中,X为核心文字,Y1,Y2,…,Xn为相关文字;Z为盖章区域。优选地,其中所述系统还包括:模型评价单元,用于针对每个自动签章模型,设置对应的最小频度,通过最小频度进行模型评价,使用已签章的文档进行重复签章测试,确定自动签章位置与已签章位置的差异;其中,评价模型质量的指标包括:平均误差率和线性回归判定系数R2。优选地,其中所述自动签章单元,根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章,包括:根据所述目标基础信息确定对应的经过训练的自动签章模型,并利用对应的经过训练的自动签章模型确定至少一个核心文字;选取所述至少一个核心文字中频度最大的文字作为目标核心文字,根据所述目标核心文字关联出模型库中的相关文字,并选取所述相关文字中频度最大的文字作为目标相关文字;对所述待签章文档进行分析,确定所述目标核心文字在所述待签章文档中的位置,获取目标核心文字坐标信息;根据所述目标核心文字坐标信息和预设的分析范围确定内容提取区域,并对所述内容提取区域中的文字进行识别和分词处理,以获取分词数据;将所述分词数据与所述目标中满足频度要求的相关文字进行比对,当匹配度大于预设的最小匹配度时,在所述目标核心文字坐标信息处进行签章。本专利技术提供了一种基于大数据分析的OFD版式文件的自动签章方法及系统,基于用户日常手动签章的位置信息进行数据采集和分析,确定经过训练的自动签章模型,并接收用户根据待签章文档发送的文档签章请求,对所述文档签章请求进行解析,确定目标基础信息,并根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章;本专利技术通过用户日常手动盖章操作的积累,逐渐生成自己使用习惯的自动签章信息库,实现用户日常文档的自动签章,提高了签章效率。附图说明通过参考下面的附图,可以更为完整地理解本专利技术的示例性实施方式:图1为根据本专利技术实施方式的基于大数据分析的OFD版式文件的自动签章方法100的流程图;图2为根据本专利技术实施方式的利用5W2H分析法本文档来自技高网...

【技术保护点】
1.一种基于大数据分析的OFD版式文件的自动签章方法,其特征在于,所述方法包括:/n构建初始的自动签章模型;其中,所述自动签章模型,包括:基础信息和规则信息;/n获取用户的至少一个历史签章文档,对所述至少一个历史签章文档以签章位置为中心解析预设范围内的文字内容,并对所述文字内容进行分词处理,获取每个历史签章文档对应的规则信息;/n根据用户的基础信息和每个历史签章文档对应的规则信息对所述初始的自动签章模型进行训练,以获取经过训练的自动签章模型;/n接收用户根据待签章文档发送的文档签章请求,对所述文档签章请求进行解析,确定目标基础信息,并根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章。/n

【技术特征摘要】
1.一种基于大数据分析的OFD版式文件的自动签章方法,其特征在于,所述方法包括:
构建初始的自动签章模型;其中,所述自动签章模型,包括:基础信息和规则信息;
获取用户的至少一个历史签章文档,对所述至少一个历史签章文档以签章位置为中心解析预设范围内的文字内容,并对所述文字内容进行分词处理,获取每个历史签章文档对应的规则信息;
根据用户的基础信息和每个历史签章文档对应的规则信息对所述初始的自动签章模型进行训练,以获取经过训练的自动签章模型;
接收用户根据待签章文档发送的文档签章请求,对所述文档签章请求进行解析,确定目标基础信息,并根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章。


2.根据权利要求1所述的方法,其特征在于,所述基础信息,包括:印章信息和用户信息,所述规则信息,包括:签章位置中心的核心文字、签章位置与核心文字的相对坐标信息和相关文字。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
采集用户每次对文档手动盖章的位置信息,并计算每个文字使用的次数,确定每个文字对应的频度,优化自动签章模型的可用性和适用性;针对每个自动签章模型中的多个文字内容生成对应的频繁项集:{X,Y1,Y2,…,Yn}=>Z;即X,Y1,Y2,…,Xn出现在同一个区域,则X所在区域为签章位置;其中,X为核心文字,Y1,Y2,…,Xn为相关文字;Z为盖章区域。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对每个自动签章模型,设置对应的最小频度,通过最小频度进行模型评价,使用已签章的文档进行重复签章测试,确定自动签章位置与已签章位置的差异;其中,评价模型质量的指标包括:平均误差率和线性回归判定系数R2。


5.根据权利要求2所述的方法,其特征在于,所述根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章,包括:
根据所述目标基础信息确定对应的经过训练的自动签章模型,并利用对应的经过训练的自动签章模型确定至少一个核心文字;
选取所述至少一个核心文字中频度最大的文字作为目标核心文字,根据所述目标核心文字关联出模型库中的相关文字,并选取所述相关文字中频度最大的文字作为目标相关文字;
对所述待签章文档进行分析,确定所述目标核心文字在所述待签章文档中的位置,获取目标核心文字坐标信息;
根据所述目标核心文字坐标信息和预设的分析范围确定内容提取区域,并对所述内容提取区域中的文字进行识别和分词处理,以获取分词数据;
将所述分词数据与所述目标中满足频度要求的相关文字进行比对,当匹配度大于预设的最小匹配度时,在所述目标核心文字坐标信息处进行签章。


6.一种基于大数据分析的OFD版式文件的自动签章系统,其特...

【专利技术属性】
技术研发人员:陆猛孙高健赵云庄玉龙张伟谢文迅孙肖辉郭尚杨瑞钦
申请(专利权)人:北京点聚信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1