一种合同生成方法及装置制造方法及图纸

技术编号:35421520 阅读:17 留言:0更新日期:2022-11-03 11:22
本申请提供一种合同生成方法及装置,该方法包括:对获取到的待处理合同进行预处理,得到预处理合同;对预处理合同进行文本检测,得到文本检测结果;文本检测结果包括文本区域和文本类别信息;对文本区域进行文字识别,得到文字识别结果;基于文本类别信息和文字识别结果进行结构化处理,生成结构化合同。可见,实施这种实施方式,能够减少合同抽取时间,并增加系统的鲁棒性,从而能够更高质量地抽取到合同信息。信息。信息。

【技术实现步骤摘要】
一种合同生成方法及装置


[0001]本申请涉及计算机
,具体而言,涉及一种合同生成方法及装置。

技术介绍

[0002]目前,行业内合同抽取算法的核心思路都是先识别文本,然后再在文本中抽取关键信息,在后再基于抽取的关键信息生成合同。然而,在实践中发现,该种方法所需要识别的文本而非常多,从而大幅增加了时间的开销;同时,该种方法过于依赖业务规则,这又导致了其鲁棒性相对较差且适用面较窄。

技术实现思路

[0003]本申请实施例的目的在于提供一种合同生成方法及装置,能够减少合同抽取时间,并增加系统的鲁棒性,从而能够更高质量地抽取到合同信息。
[0004]本申请实施例第一方面提供了一种合同生成方法,包括:
[0005]对获取到的待处理合同进行预处理,得到预处理合同;
[0006]对所述预处理合同进行文本检测,得到文本检测结果;所述文本检测结果包括文本区域和文本类别信息;
[0007]对所述文本区域进行文字识别,得到文字识别结果;
[0008]基于所述文本类别信息和所述文字识别结果进行结构化处理,生成结构化合同。
[0009]在上述实现过程中,该方法可以优先对获取到的待处理合同进行预处理,得到预处理合同;然后,对预处理合同进行文本检测,得到文本检测结果;文本检测结果包括文本区域和文本类别信息;再对文本区域进行文字识别,得到文字识别结果;最后,再基于文本类别信息和文字识别结果进行结构化处理,生成结构化合同。可见,实施这种实施方式,能够减少合同抽取时间,并增加系统的鲁棒性,从而能够更高质量地抽取到合同信息。
[0010]进一步地,所述对所述预处理合同进行文本检测,得到文本检测结果的步骤包括:
[0011]通过文本检测模型对所述预处理合同进行文本检测,得到文本检测结果;所述文本检测模型为包括单类别检测模型和多类别检测模型的并行检测模型。
[0012]进一步地,所述通过文本检测模型对所述预处理合同进行文本检测,得到文本检测结果的步骤包括:
[0013]通过所述单类别检测模型对所述预处理合同进行文本检测,得到单类别检测结果;
[0014]通过所述多类别检测模型对所述预处理合同进行文本检测,得到多类别检测结果;
[0015]基于融合算法对所述单类别检测结果和所述多类别检测结果进行融合处理,得到文本检测结果。
[0016]进一步地,所述基于所述文本区域对进行文字识别,得到文字识别结果的步骤包括:
[0017]通过文本识别模型对所述文本区域进行文字识别,得到文字识别结果;所述文本识别模型是具有长短期记忆卷积神经网络的人工智能模型。
[0018]进一步地,所述基于所述文本类别信息和所述文字识别结果进行结构化处理,生成结构化合同的步骤包括:
[0019]基于字段内部结构和所述文本类别信息,对所述文字识别结果进行正则化字段抽取,得到字段抽取结果;
[0020]对所述字段抽取结果进行标准化处理,的标准化字段;
[0021]基于所述标准化字段,生成结构化合同。
[0022]本申请实施例第二方面提供了一种合同生成装置,所述合同生成装置包括:
[0023]所述合同生成装置包括:
[0024]预处理单元,用于对获取到的待处理合同进行预处理,得到预处理合同;
[0025]文本检测单元,用于对所述预处理合同进行文本检测,得到文本检测结果;所述文本检测结果包括文本区域和文本类别信息;
[0026]文字识别单元,用于对所述文本区域进行文字识别,得到文字识别结果;
[0027]结构化处理单元,用于基于所述文本类别信息和所述文字识别结果进行结构化处理,生成结构化合同。
[0028]进一步地,所述文本检测单元,具体用于通过文本检测模型对所述预处理合同进行文本检测,得到文本检测结果;所述文本检测模型为包括单类别检测模型和多类别检测模型的并行检测模型。
[0029]进一步地,所述文本检测单元包括:
[0030]检测子单元,用于通过所述单类别检测模型对所述预处理合同进行文本检测,得到单类别检测结果;
[0031]所述检测子单元,还用于通过所述多类别检测模型对所述预处理合同进行文本检测,得到多类别检测结果;
[0032]融合子单元,用于基于融合算法对所述单类别检测结果和所述多类别检测结果进行融合处理,得到文本检测结果。
[0033]进一步地,所述文字识别单元,具体用于通过文本识别模型对所述文本区域进行文字识别,得到文字识别结果;所述文本识别模型是具有长短期记忆卷积神经网络的人工智能模型。
[0034]进一步地,所述结构化处理单元包括:
[0035]抽取子单元,用于基于字段内部结构和所述文本类别信息,对所述文字识别结果进行正则化字段抽取,得到字段抽取结果;
[0036]处理子单元,用于对所述字段抽取结果进行标准化处理,的标准化字段;
[0037]生成子单元,用于基于所述标准化字段,生成结构化合同。
[0038]本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的合同生成方法。
[0039]本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项
所述的合同生成方法。
附图说明
[0040]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0041]图1为本申请实施例提供的一种合同生成方法的流程示意图;
[0042]图2为本申请实施例提供的另一种合同生成方法的流程示意图;
[0043]图3为本申请实施例提供的一种合同生成装置的结构示意图;
[0044]图4为本申请实施例提供的另一种合同生成装置的结构示意图;
[0045]图5为本申请实施例提供的一种合同生成方法的实例流程示意图;
[0046]图6为本申请实施例提供的一种文本检测模型的应用示意图。
具体实施方式
[0047]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
[0048]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0049]实施例1
[0050]请参看图1,图1为本实施例提供了一种合同生成方法的流程示意图。其中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种合同生成方法,其特征在于,包括:对获取到的待处理合同进行预处理,得到预处理合同;对所述预处理合同进行文本检测,得到文本检测结果;所述文本检测结果包括文本区域和文本类别信息;对所述文本区域进行文字识别,得到文字识别结果;基于所述文本类别信息和所述文字识别结果进行结构化处理,生成结构化合同。2.根据权利要求1所述的合同生成方法,其特征在于,所述对所述预处理合同进行文本检测,得到文本检测结果的步骤包括:通过文本检测模型对所述预处理合同进行文本检测,得到文本检测结果;所述文本检测模型为包括单类别检测模型和多类别检测模型的并行检测模型。3.根据权利要求2所述的合同生成方法,其特征在于,所述通过文本检测模型对所述预处理合同进行文本检测,得到文本检测结果的步骤包括:通过所述单类别检测模型对所述预处理合同进行文本检测,得到单类别检测结果;通过所述多类别检测模型对所述预处理合同进行文本检测,得到多类别检测结果;基于融合算法对所述单类别检测结果和所述多类别检测结果进行融合处理,得到文本检测结果。4.根据权利要求1所述的合同生成方法,其特征在于,所述对所述文本区域进行文字识别,得到文字识别结果的步骤包括:通过文本识别模型对所述文本区域进行文字识别,得到文字识别结果;所述文本识别模型是具有长短期记忆卷积神经网络的人工智能模型。5.根据权利要求1所述的合同生成方法,其特征在于,所述基于所述文本类别信息和所述文字识别结果进行结构化处理,生成结构化合同的步骤包括:基于字段内部结构和所述文本类别信息,对所述文字识别结果进行正则化字段抽取,得到字段抽取结果;对所述字段抽取结果进行标...

【专利技术属性】
技术研发人员:苏沁宁苏志锋孙铁王琳婧蔡妙
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1