本申请涉及一种合同信息提取方法、装置、计算机设备、介质和程序产品,通过获取待进行信息提取的影像数据,并对影像数据进行文本提取得到目标文本数据,然后获取训练得到的提取模型,根据提取模型对目标文本数据进行信息提取得到合同信息,能够实现合同信息的自动提取,提高提取速度的同时,保证所提取的合同信息的准确性。息的准确性。息的准确性。
【技术实现步骤摘要】
合同信息提取方法、装置、计算机设备、介质和程序产品
[0001]本申请涉及电子影像合同处理
,特别是涉及一种合同信息提取方法、装置、计算机设备、介质和程序产品。
技术介绍
[0002]随着现代化、信息化建设步伐的加快和对办公要求不断升级,无纸化办公概念已经渗透到各个行业中。在企业中不仅需要将大量的合同影像进行存档,同时需要对其中的关键信息进行存档录入,便于后续的合同查阅及审核。
[0003]目前,进行合同信息提取时,通常需要安排专人完成,首先需要统一的录入人员对关键信息进行理解,再对合同中的关键信息进行筛选及录入,为了避免信息的提取错误,同时会另外安排人员对提取出的关键信息进行核对。
[0004]然而,由于存在合同内容较长的情况,通过阅读查找信息会增加人工录入的工作量,且长时间阅读可能造成视觉以及人脑疲劳,导致信息查找不准确,即使统一贯宣提取内容,但是由于理解不同,同一份合同,不同的人同样会导致录入的信息不同,造成录入信息出现错误。
技术实现思路
[0005]基于此,有必要针对上述技术问题,提供一种能够准确提取合同信息的合同信息提取方法、装置、计算机设备、介质和程序产品。
[0006]第一方面,本申请提供了一种合同信息提取方法,该方法包括:
[0007]获取待进行信息提取的影像数据;
[0008]对影像数据进行文本提取得到目标文本数据;
[0009]获取训练得到的提取模型;
[0010]根据提取模型对目标文本数据进行信息提取得到合同信息。<br/>[0011]在其中一个实施例中,上述对影像数据进行文本提取得到目标文本数据,包括:
[0012]识别影像数据对应的初始文本数据;
[0013]对初始文本数据中的各字符进行排序,得到排序后的文本数据;
[0014]判断排序后的文本数据是否满足语义要求;
[0015]若排序后的文本数据满足语义要求,将排序后的文本数据作为影像数据对应的文本数据;
[0016]若排序后的文本数据不满足语义要求,则返回识别影像数据对应的初始文本数据的步骤。
[0017]在其中一个实施例中,上述对初始文本数据中的各字符进行排序,包括:
[0018]获取初始文本数据中各字符对应的字符坐标;
[0019]根据字符坐标对各字符进行排序。
[0020]在其中一个实施例中,上述获取训练得到的提取模型之前,还包括:
[0021]获取样本影像数据;
[0022]对样本影像数据进行文本提取得到样本文本数据;
[0023]对样本文本数据进行预处理,得到预处理文本数据,预处理包括数据清洗、数据转换、语义筛选中的至少一个;
[0024]对预处理文本数据进行数据标注处理,得到预处理文本数据中各字符对应的标注类别;
[0025]根据标注类别以及对应的预处理文本数据,进行模型训练得到提取模型。
[0026]在其中一个实施例中,上述根据标注类别以及对应的预处理文本数据,进行模型训练得到提取模型,包括:
[0027]将预处理文本数据输入至提取模型,得到预测类别,预测类别包括预处理文本数据中各字符对应的数据类别;
[0028]获取预测类别与标注类别对应的类别误差;
[0029]根据类别误差对提取模型进行参数优化,直至类别误差达到预设要求。
[0030]在其中一个实施例中,上述根据提取模型对目标文本数据进行信息提取得到合同信息,包括:
[0031]将目标文本数据输入至提取模型,得到目标文本数据中各字符对应的目标数据类别;
[0032]获取与预设类别相同的目标数据类别对应的目标文本数据,得到合同信息。
[0033]第二方面,本申请还提供了一种合同信息提取装置,该装置包括:
[0034]影像获取模块,用于获取待进行信息提取的影像数据;
[0035]文本获取模块,用于对影像数据进行文本提取得到目标文本数据;
[0036]模型获取模块,用于获取训练得到的提取模型;
[0037]信息提取模块,根据提取模型对目标文本数据进行信息提取得到合同信息。
[0038]第三方面,本申请还提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现第一方面任一项中的方法步骤。
[0039]第四方面,本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面任一项中的方法步骤。
[0040]第五方面,本申请还提供了一种计算机程序产品,该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面任一项中的方法步骤。
[0041]上述合同信息提取方法、装置、计算机设备、介质和程序产品,通过获取待进行信息提取的影像数据,并对影像数据进行文本提取得到目标文本数据,然后获取训练得到的提取模型,根据提取模型对目标文本数据进行信息提取得到合同信息,能够实现合同信息的自动提取,提高提取速度的同时,保证所提取的合同信息的准确性。
附图说明
[0042]图1为一个实施例中合同信息提取方法的应用环境图;
[0043]图2为一个实施例中合同信息提取方法的流程示意图;
[0044]图3为图2所示实施例中S202步骤的流程示意图;
[0045]图4为图2所示实施例中合同信息提取方法的流程示意图;
[0046]图5为图4所示实施例中S405步骤的流程示意图;
[0047]图6为一个实施例中合同信息智能提取方法的流程示意图;
[0048]图7为图6所示实施例中合同信息智能提取系统的结构框图;
[0049]图8为一个实施例中合同信息提取装置的结构框图;
[0050]图9为一个实施例中计算机设备的内部结构图。
具体实施方式
[0051]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0052]本申请实施例提供的合同信息提取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102用于接收待进行信息提取的影像数据,并将接收到的影像数据发送至服务器104,服务器104用于对影像数据进行文本提取得到目标文本数据。其中,数据存储系统存储着训练得到的提取模型,服务器104还用于根据提取模型对目标文本数据进行信息提取得到合同信息。其中,终端102可以但不限于是各种个人计算机、笔记本电脑以及智能手机等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0053]在一个实施例中,如图2所示,提供了一种合本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种合同信息提取方法,其特征在于,所述方法包括:获取待进行信息提取的影像数据;对所述影像数据进行文本提取得到目标文本数据;获取训练得到的提取模型;根据所述提取模型对所述目标文本数据进行信息提取得到合同信息。2.根据权利要求1所述的方法,其特征在于,所述对所述影像数据进行文本提取得到目标文本数据,包括:识别所述影像数据对应的初始文本数据;对所述初始文本数据中的各字符进行排序,得到排序后的文本数据;判断所述排序后的文本数据是否满足语义要求;若所述排序后的文本数据满足所述语义要求,将所述排序后的文本数据作为所述影像数据对应的文本数据;若所述排序后的文本数据不满足所述语义要求,则返回所述识别所述影像数据对应的初始文本数据的步骤。3.根据权利要求2所述的方法,其特征在于,所述对所述初始文本数据中的各字符进行排序,包括:获取所述初始文本数据中各字符对应的字符坐标;根据所述字符坐标对所述各字符进行排序。4.根据权利要求1所述的方法,其特征在于,所述获取训练得到的提取模型之前,还包括:获取样本影像数据;对所述样本影像数据进行文本提取得到样本文本数据;对所述样本文本数据进行预处理,得到预处理文本数据,所述预处理包括数据清洗、数据转换、语义筛选中的至少一个;对所述预处理文本数据进行数据标注处理,得到所述预处理文本数据中各字符对应的标注类别;根据所述标注类别以及对应的所述预处理文本数据,进行模型训练得到提取模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述标注类别以...
【专利技术属性】
技术研发人员:胡诗雨,石明,王巍,李捷,厉超,涂洪健,徐柯文,
申请(专利权)人:上海浦东发展银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。