产品合同的要素智能抽取和审核方法及系统技术方案

技术编号:32237741 阅读:60 留言:0更新日期:2022-02-09 17:41
本发明专利技术公开了产品合同的要素智能抽取和审核方法及系统,涉及数据处理技术领域。所述方法包括:文档解析分类步骤,获取产品合同的文档索引链,并根据文档索引链进行组类划分;要素标注抽取步骤,对组类划分后的产品合同,依据有效类型从每类产品合同中选择参照合同,获取参照合同设置的要素标注信息和要素抽取规则进行要素抽取并形成要素抽取配置信息,将抽取的产品要素放入要素池,将参照合同放入产品池;要素抽取批量处理步骤,对于其它产品合同,根据对应的要素抽取配置信息进行产品要素自动抽取,抽取的产品要素放入要素池,包含相同产品要素的产品合同放入同一产品池中;要素审核步骤。本发明专利技术提高了产品合同中要素提取的精确率和准确性。精确率和准确性。精确率和准确性。

【技术实现步骤摘要】
产品合同的要素智能抽取和审核方法及系统


[0001]本专利技术涉及数据处理
,尤其涉及一种产品合同的要素智能抽取和审核方法及系统。

技术介绍

[0002]在金融行业中有大量的基金产品合同要素抽取需求和应用场景,例如信息披露、产品备案、监管报送、内部数据分析、风险揭示书的生成,以及说明书的生成等。
[0003]传统的产品合同要素抽取通常是采用人工整理的方式进行,随着监管系统需要上报的信息不断增加,产品数量的不断沉淀,对于大量存量产品需要补充监管或者内部数据分析要素时,依靠传统的人工整理方式不仅花费大量的人力和财力,也难以满足监管部门数据报送的时效性要求,并且由于人工审核合同无法避免人为因素的波动造成的漏审、误审等操作风险,进而影响业务进程的顺利进行。因此,需要利用信息化技术实现对产品合同的要素抽取和管理。
[0004]目前,现有技术中已经提供了利用信息化技术实现对各类合同的要素化管理的技术方案,通过对合同文档中关键要素信息的自动识别与抽取,达到将合同文本转变为合同要素化结构数据的目的。其中,文本要素的抽取通常使用CRF、深度学习等机器学习方法,作为举例,比如中国专利申请CN201910096569 .5公开的一种不良资产经营领域的合同要素化方法:其就是利用机器学习算法与规则匹配技术相结合,通过对历史合同样本的知识学习并构建启发式模型,实现对合同文档文本中关键要素信息的自动识别与抽取,达到将合同文本转变为合同要素化结构数据的目的。同时,现有技术还提供了一种比对抽取方法,其是利用历史文档集通过比对找出与待抽取文档的差异来进行抽取的方法,比如中国专利申请CN201910650428 .3公开的一种抽取文档中要素的方法,包括步骤:标注模板文档,生成模板文档及其标注的下标信息;匹配模板文档与待抽取文档,生成匹配对;根据标注和匹配对的下标信息,划定模板文档中的前后边界、待抽取文档中的前后边界;将模板文档中的前后边界内的内容替换成待抽取文档中前后边界内的内容;输出标注内的模板文档及其下标信息作为抽取的要素,其通过利用历史标注数据,精确地抽取出相同模板待抽取文档中字段的值。然而,上述现有技术提供的文档要素抽取方法,一方面缺乏产品要素与产品合同之间的勾稽联系信息,在一定程度上影响了产品合同中要素提取的精确率和准确性;另一方面,由于产品合同管理合同要的起草要和托管人和委托人进行协商(主要是定向产品合同),由于托管人和委托人的多样性导致产品管理合同的类别也是各不相同,形成了个性化比较强的产品合同,此类产品合同往往难以直接找到匹配的合同模板,模板的生成效率也较低,也影响了要素提取的精确率和准确性。

技术实现思路

[0005]本专利技术的目的在于:克服现有技术的不足,提供了一种产品合同的要素智能抽取和审核方法及系统。本专利技术通过对合同文档建立文档索引链进行合同文档的组类划分,基
于组类划分信息进行不同类型的参照合同的要素标注抽取并形成各类合同的要素抽取配置信息,利用要素抽取配置信息就可以抽取其它同类型的产品合同中的相同的要素,并构建关联的要素池和产品池,同时对抽取的产品要素智能审核,在实现要素智能抽取和审核的基础上,提高了产品合同中要素提取的精确率和准确性。
[0006]为实现上述目标,本专利技术提供了如下技术方案:一种产品合同的要素智能抽取和审核方法,包括如下步骤:文档解析分类步骤:采集产品文档库中存储的产品合同,对每个产品合同进行文档解析以建立该产品合同的文档索引链;根据各产品合同的文档索引链对产品文档库中所有的产品合同进行组类划分;其中,将文档索引链的层级关系完全一致的产品合同划分为同一合同类型,汇总产品文档库的所有合同类型信息,将只包括一个产品合同的合同类型设置为无效类型,将包括两个以上产品合同的合同类型设置为有效类型,将所有对应有效类型的产品合同划分为单一类合同组,将所有对应无效类型的产品合同划分为个性化合同组;以及,获取单一类合同组中的所有合同类型,基于各合同类型的文档索引链建立每个合同类型的合同模板;要素标注抽取步骤:对组类划分后的产品合同,依据前述有效类型从每类产品合同中选择至少一个产品合同作为参照合同,获取用户通过要素标注工具对前述参照合同设置的要素标注信息和要素抽取规则,根据前述要素标注信息和要素抽取规则抽取参照合同的产品要素并形成对应的要素抽取配置信息,不同类型的产品合同对应不同的要素抽取配置信息;将抽取的产品要素放入要素池,将该参照合同放入产品池并建立该参照合同与要素池中前述产品要素的对应关系;要素抽取批量处理步骤:对于每类产品合同中的其它产品合同,根据产品合同的合同类型获取对应的要素抽取配置信息后,按照要素抽取配置信息进行产品要素自动抽取处理,将抽取的产品要素放入要素池,将包含相同产品要素的产品合同放入同一产品池中;以及,对抽取的产品要素按预设的格式进行格式化保存;要素审核步骤:将前述格式化保存的要素发送到关联的要素审核系统中进行审核。
[0007]进一步,在文档解析分类步骤中,对于个性化合同组中的每个产品合同,基于文档索引链的部分匹配方式获取该产品合同包含的合同类型,每个产品合同至少对应两个合同类型;其中,基于文档索引链的部分匹配方式获取该产品合同包含的合同类型的步骤如下:获取该产品合同的文档索引链信息,将文档索引链信息分别与前述单一类合同组中的每类合同模板的文档索引链进行比对,获取该产品合同与各类合同模板的部分匹配信息;根据前述部分匹配信息,按照前述产品合同的文档章节顺序对文档索引链进行拆解,使得拆解后的每段文档索引链都能够匹配一个合同模板的文档索引链,且相邻段文档索引链之间无章节重复内容;获取拆解后的多个文档索引链段对应的多个合同模板,建立前述产品合同与前述多个合同模板的合同类型对应关系。
[0008]进一步,在要素标注抽取步骤中,对于单一类合同组的每类产品合同,通过每类产品合同的参照合同的要素标注信息和要素抽取规则形成对应合同类型的要素抽取配置信息;对于个性化合同组的产品合同,通过如下方式形成要素抽取配置信息:对于每个产品合同G,根据该产品合同G的文档章节顺序,依顺序获取该合同对应的多个合同类型,包括合同类型G1、合同类型G2、
……
、合同类型GN,其中,N为大于等于2的整数;获取用户在标注前述合同类型G1的产品合同时抽取的所有产品要素信息,从前述抽取的产品要素中获取与该产品合同G匹配的多个产品要素放入要素池,并获取上述匹配的多个产品要素的要素抽取配置信息作为第一段要素抽取配置信息;依此类推,直至获取用户在标注前述合同类型GN的产品合同时抽取的所有产品要素信息,从前述抽取的产品要素中获取与该产品合同G匹配的多个产品要素放入要素池,并获取上述匹配的多个产品要素的要素抽取配置信息作为第N段要素抽取配置信息;对前述第一段要素抽取配置信息至第N段要素抽取配置信息进行汇总,得到每个产品合同G的要素抽取配置信息。
[0009]进一步,对应要素池中的每个产品要素存储其要素关联信息,所述要素关联包括产品要素关键词信息、要素标签信息、要素抽取规则,以及产品要素关键词、要素抽取规则本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种产品合同的要素智能抽取和审核方法,其特征在于包括:文档解析分类步骤:采集产品文档库中存储的产品合同,对每个产品合同进行文档解析以建立该产品合同的文档索引链;根据各产品合同的文档索引链对产品文档库中所有的产品合同进行组类划分;其中,将文档索引链的层级关系完全一致的产品合同划分为同一合同类型,汇总产品文档库的所有合同类型信息,将只包括一个产品合同的合同类型设置为无效类型,将包括两个以上产品合同的合同类型设置为有效类型,将所有对应有效类型的产品合同划分为单一类合同组,将所有对应无效类型的产品合同划分为个性化合同组;以及,获取单一类合同组中的所有合同类型,基于各合同类型的文档索引链建立每个合同类型的合同模板;要素标注抽取步骤:对组类划分后的产品合同,依据前述有效类型从每类产品合同中选择至少一个产品合同作为参照合同,获取用户通过要素标注工具对前述参照合同设置的要素标注信息和要素抽取规则,根据前述要素标注信息和要素抽取规则抽取参照合同的产品要素并形成对应的要素抽取配置信息,不同类型的产品合同对应不同的要素抽取配置信息;将抽取的产品要素放入要素池,将该参照合同放入产品池并建立该参照合同与要素池中前述产品要素的对应关系;要素抽取批量处理步骤:对于每类产品合同中的其它产品合同,根据产品合同的合同类型获取对应的要素抽取配置信息后,按照要素抽取配置信息进行产品要素自动抽取处理,将抽取的产品要素放入要素池,将包含相同产品要素的产品合同放入同一产品池中;以及,对抽取的产品要素按预设的格式进行格式化保存;要素审核步骤:将前述格式化保存的要素发送到关联的要素审核系统中进行审核。2.根据权利要求1所述的方法,其特征在于:在文档解析分类步骤中,对于个性化合同组中的每个产品合同,基于文档索引链的部分匹配方式获取该产品合同包含的合同类型,每个产品合同至少对应两个合同类型;其中,基于文档索引链的部分匹配方式获取该产品合同包含的合同类型的步骤如下:获取该产品合同的文档索引链信息,将文档索引链信息分别与前述单一类合同组中的每类合同模板的文档索引链进行比对,获取该产品合同与各类合同模板的部分匹配信息;根据前述部分匹配信息,按照前述产品合同的文档章节顺序对文档索引链进行拆解,使得拆解后的每段文档索引链都能够匹配一个合同模板的文档索引链,且相邻段文档索引链之间无章节重复内容;获取拆解后的多个文档索引链段对应的多个合同模板,建立前述产品合同与前述多个合同模板的合同类型对应关系。3.根据权利要求2所述的方法,其特征在于:在要素标注抽取步骤中,对于单一类合同组的每类产品合同,通过每类产品合同的参照合同的要素标注信息和要素抽取规则形成对应合同类型的要素抽取配置信息;对于个性化合同组的产品合同,通过如下方式形成要素抽取配置信息:对于每个产品合同G,根据该产品合同G的文档章节顺序,依顺序获取该合同对应的多个合同类型,包括合同类型G1、合同类型G2、
……
、合同类型GN,其中,N为大于等于2的整数;获取用户在标注前述合同类型G1的产品合同时抽取的所有产品要素信息,从前述抽取的产品要素中获取与该产品合同G匹配的多个产品要素放入要素池,并获取上述匹配的多
个产品要素的要素抽取配置信息作为第一段要素抽取配置信息;依此类推,直至获取用户在标注前述合同类型GN的产品合同时抽取的所有产品要素信息,从前述抽取的产品要素中获取与该产品合同G匹配的多个产品要素放入要素池,并获取上述匹配的多个产品要素的要素抽取配置信息作为第N段要素抽取配置信息;对前述第一段要素抽取配置信息至第N段要素抽取配置信息进行汇总,得到每个产品合同G的要素抽取配置信息。4.根据权利要求1所述的方法,其特征在于:对应要素池中的每个产品要素存储其要素关联信息,所述要素关联包括产品要素关键词信息、要素标签信息、要素抽取规则,以及产品要素关键词、要素抽取规则和要素标签三者的对应关系。5.根据权利要求1所述的方法,其特征在于:根据产品合同的应用场景,所述...

【专利技术属性】
技术研发人员:宋弢丛闪地朱晓力
申请(专利权)人:上海国泰君安证券资产管理有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1