【技术实现步骤摘要】
产品合同的要素智能抽取和审核方法及系统
[0001]本专利技术涉及数据处理
,尤其涉及一种产品合同的要素智能抽取和审核方法及系统。
技术介绍
[0002]在金融行业中有大量的基金产品合同要素抽取需求和应用场景,例如信息披露、产品备案、监管报送、内部数据分析、风险揭示书的生成,以及说明书的生成等。
[0003]传统的产品合同要素抽取通常是采用人工整理的方式进行,随着监管系统需要上报的信息不断增加,产品数量的不断沉淀,对于大量存量产品需要补充监管或者内部数据分析要素时,依靠传统的人工整理方式不仅花费大量的人力和财力,也难以满足监管部门数据报送的时效性要求,并且由于人工审核合同无法避免人为因素的波动造成的漏审、误审等操作风险,进而影响业务进程的顺利进行。因此,需要利用信息化技术实现对产品合同的要素抽取和管理。
[0004]目前,现有技术中已经提供了利用信息化技术实现对各类合同的要素化管理的技术方案,通过对合同文档中关键要素信息的自动识别与抽取,达到将合同文本转变为合同要素化结构数据的目的。其中,文本要素的抽取通常使用CRF、深度学习等机器学习方法,作为举例,比如中国专利申请CN201910096569 .5公开的一种不良资产经营领域的合同要素化方法:其就是利用机器学习算法与规则匹配技术相结合,通过对历史合同样本的知识学习并构建启发式模型,实现对合同文档文本中关键要素信息的自动识别与抽取,达到将合同文本转变为合同要素化结构数据的目的。同时,现有技术还提供了一种比对抽取方法,其是利用历史文档集通过比对找出 ...
【技术保护点】
【技术特征摘要】
1.一种产品合同的要素智能抽取和审核方法,其特征在于包括:文档解析分类步骤:采集产品文档库中存储的产品合同,对每个产品合同进行文档解析以建立该产品合同的文档索引链;根据各产品合同的文档索引链对产品文档库中所有的产品合同进行组类划分;其中,将文档索引链的层级关系完全一致的产品合同划分为同一合同类型,汇总产品文档库的所有合同类型信息,将只包括一个产品合同的合同类型设置为无效类型,将包括两个以上产品合同的合同类型设置为有效类型,将所有对应有效类型的产品合同划分为单一类合同组,将所有对应无效类型的产品合同划分为个性化合同组;以及,获取单一类合同组中的所有合同类型,基于各合同类型的文档索引链建立每个合同类型的合同模板;要素标注抽取步骤:对组类划分后的产品合同,依据前述有效类型从每类产品合同中选择至少一个产品合同作为参照合同,获取用户通过要素标注工具对前述参照合同设置的要素标注信息和要素抽取规则,根据前述要素标注信息和要素抽取规则抽取参照合同的产品要素并形成对应的要素抽取配置信息,不同类型的产品合同对应不同的要素抽取配置信息;将抽取的产品要素放入要素池,将该参照合同放入产品池并建立该参照合同与要素池中前述产品要素的对应关系;要素抽取批量处理步骤:对于每类产品合同中的其它产品合同,根据产品合同的合同类型获取对应的要素抽取配置信息后,按照要素抽取配置信息进行产品要素自动抽取处理,将抽取的产品要素放入要素池,将包含相同产品要素的产品合同放入同一产品池中;以及,对抽取的产品要素按预设的格式进行格式化保存;要素审核步骤:将前述格式化保存的要素发送到关联的要素审核系统中进行审核。2.根据权利要求1所述的方法,其特征在于:在文档解析分类步骤中,对于个性化合同组中的每个产品合同,基于文档索引链的部分匹配方式获取该产品合同包含的合同类型,每个产品合同至少对应两个合同类型;其中,基于文档索引链的部分匹配方式获取该产品合同包含的合同类型的步骤如下:获取该产品合同的文档索引链信息,将文档索引链信息分别与前述单一类合同组中的每类合同模板的文档索引链进行比对,获取该产品合同与各类合同模板的部分匹配信息;根据前述部分匹配信息,按照前述产品合同的文档章节顺序对文档索引链进行拆解,使得拆解后的每段文档索引链都能够匹配一个合同模板的文档索引链,且相邻段文档索引链之间无章节重复内容;获取拆解后的多个文档索引链段对应的多个合同模板,建立前述产品合同与前述多个合同模板的合同类型对应关系。3.根据权利要求2所述的方法,其特征在于:在要素标注抽取步骤中,对于单一类合同组的每类产品合同,通过每类产品合同的参照合同的要素标注信息和要素抽取规则形成对应合同类型的要素抽取配置信息;对于个性化合同组的产品合同,通过如下方式形成要素抽取配置信息:对于每个产品合同G,根据该产品合同G的文档章节顺序,依顺序获取该合同对应的多个合同类型,包括合同类型G1、合同类型G2、
……
、合同类型GN,其中,N为大于等于2的整数;获取用户在标注前述合同类型G1的产品合同时抽取的所有产品要素信息,从前述抽取的产品要素中获取与该产品合同G匹配的多个产品要素放入要素池,并获取上述匹配的多
个产品要素的要素抽取配置信息作为第一段要素抽取配置信息;依此类推,直至获取用户在标注前述合同类型GN的产品合同时抽取的所有产品要素信息,从前述抽取的产品要素中获取与该产品合同G匹配的多个产品要素放入要素池,并获取上述匹配的多个产品要素的要素抽取配置信息作为第N段要素抽取配置信息;对前述第一段要素抽取配置信息至第N段要素抽取配置信息进行汇总,得到每个产品合同G的要素抽取配置信息。4.根据权利要求1所述的方法,其特征在于:对应要素池中的每个产品要素存储其要素关联信息,所述要素关联包括产品要素关键词信息、要素标签信息、要素抽取规则,以及产品要素关键词、要素抽取规则和要素标签三者的对应关系。5.根据权利要求1所述的方法,其特征在于:根据产品合同的应用场景,所述...
【专利技术属性】
技术研发人员:宋弢,丛闪地,朱晓力,
申请(专利权)人:上海国泰君安证券资产管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。