一种合同审计方法和系统,及计算机可读存储介质技术方案

技术编号:31078329 阅读:17 留言:0更新日期:2021-12-01 11:32
本发明专利技术公开了一种合同审计方法和系统,及计算机可读存储介质,上述合同审计方法包括:采集合同文档数据,并按照预设处理策略对合同文档数据进行预处理,获得训练数据和测试数据;基于训练数据和测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;根据预设规则库和目标抽取模型,获得待审计合同对应的目标抽取结果;根据预设审计规则和目标抽取结果,获得待审计合同对应的审计结果;其中,预设审计规则表征基于Drools规则引擎设计的审计逻辑,从而在进行合同审计时能够大大减少误差,提高了合同审计的准确性。准确性。准确性。

【技术实现步骤摘要】
一种合同审计方法和系统,及计算机可读存储介质


[0001]本专利技术涉及数据检测技术,尤其涉及一种合同审计方法和系统,及计算机可读存储介质。

技术介绍

[0002]合同是记录公司主要经济事项的重要媒介,是众多审计领域的关键资料。其中,合同审计是指内部审计机构和人员对合同的签订、履行、变更、终止过程及合同管理进行独立客观的监督和评价活动。合同审计的核心是合同关键信息抽取和审计逻辑设计。目前,主要通过规则匹配的方案进行关键信息的抽取,同时,利用固定的审计逻辑进行审计结果的确定。
[0003]然而,规则匹配的抽取方法并没有学习能力,同时审计逻辑设计无法满足真实的审计需求,且缺乏错误反馈机制及模型自动更新机制。也就是说,待审计合同的类型和其中的关键信息是复杂多变的,在合同审计业务中仅仅依靠规则匹配的抽取方案和固定的审计逻辑在海量的合同中进行审计工作,得到的审计结果往往存在较大的误差,降低了合同审计的准确性。

技术实现思路

[0004]为解决上述技术问题,本专利技术期望提供一种合同审计方法和系统,及计算机可读存储介质,在进行合同审计时能够大大减少误差,提高了合同审计的准确性。
[0005]为达到上述目的,本专利技术的技术方案是这样实现的:
[0006]本专利技术提供了一种合同审计方法,所述方法包括:
[0007]采集合同文档数据,并按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据;
[0008]基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;
[0009]根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果;
[0010]根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果;其中,所述预设审计规则表征基于Drools规则引擎设计的审计逻辑。
[0011]在上述方案中,所述按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据,包括:
[0012]解析所述合同文档数据,获得所述合同文档数据对应的目标文本数据;
[0013]根据所述合同文档数据对应的关键信息对所述目标文本数据进行筛选处理,获得筛选后数据;
[0014]对所述筛选后数据进行标注处理,获得已标注语料和未标注语料;
[0015]将所述已标注语料确定为所述训练数据,将所述未标注语料确定为测试数据。
[0016]在上述方案中,所述根据所述合同文档数据对应的关键信息对所述目标文本数据
进行筛选处理,获得筛选后数据,包括:
[0017]确定所述合同文档数据对应的合同类型;
[0018]根据所述合同类型和所述关键信息获取第一触发词集;
[0019]按照所述第一触发词集对所述目标文本数据进行筛选处理,获得所述筛选后数据。
[0020]由此可见,在本专利技术中,合同审计系统在确定训练数据和测试数据时,可以基于关键信息,对从合同文档数据中解析获得的目标文本数据进行筛选,从而可以有效地提高训练数据和测试数据的数据质量
[0021]在上述方案中,所述基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型,包括:
[0022]基于所述训练数据,根据所述机器学习法和/或所述深度学习法训练获得初始抽取模型;
[0023]利用所述测试数据对所述初始抽取模型进行测试处理,获得所述目标抽取模型。
[0024]在上述方案中,所述根据所述合同文档数据对应的关键信息对所述目标文本数据进行筛选处理,获得筛选后数据,包括:
[0025]根据所述合同类型和所述关键信息获取近义词库;
[0026]利用所述近义词库对所述关键信息进行替换处理,获得替换后的关键信息;
[0027]根据所述合同类型和所述替换后的关键信息获取第二触发词集;
[0028]按照所述第二触发词集对所述目标文本数据进行筛选处理,获得所述筛选后数据。
[0029]由此可见,在本专利技术中,合同审计系统还可以利用与合同类型和关键信息相对应的近义词库进行训练数据和测试数据的扩展和增强,从而可以大大减少后续标注处理的复杂程度。
[0030]在上述方案中,所述预设规则库包括:特殊格式匹配规则、正则表达规则以及筛选排序规则,所述根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果,包括:
[0031]根据所述特殊格式匹配规则获取待审计合同对应的语句数据;
[0032]利用所述正则表达规则和所述目标抽取模型,获得所述语句数据对应的初始抽取结果;
[0033]基于所述筛选排序规则,获取所述初始抽取结果对应的目标抽取结果。
[0034]由此可见,在本专利技术中,合同审计系统可以结合预设规则库和目标抽取模型对语句数据进行目标抽取结果的获取,从而可以大大提高抽取获得的关键信息的准确程度。
[0035]在上述方案中,所述根据所述特殊格式匹配规则获取待审计合同对应的语句数据,包括:
[0036]解析所述待审计合同,获得所述待审计合同对应的待审计文本数据;
[0037]若所述待审计文本数据不满足所述特殊格式匹配规则,则直接按行处理所述待审计文本数据,获得所述语句数据;
[0038]若所述待审计文本数据满足所述特殊格式匹配规则,则利用预设特殊模板获取所述待审计文本数据对应的所述语句数据。
[0039]由此可见,在本专利技术中,为了能够更加准确的获取待审计合同中的语句数据,合同审计系统可以通过预设特殊模板对待审计文本数据中的特殊格式进行识别和处理,从而可以完成不同类型和格式的数据的解析,大大提高了语句数据的精确程度。
[0040]在上述方案中,所述利用所述正则表达规则和所述目标抽取模型,获得所述语句数据对应的初始抽取结果,包括:
[0041]分别按照所述正则表达规则、所述机器学习法以及所述深度学习法对所述语句数据进行抽取处理,获得抽取信息列表;
[0042]根据所述抽取信息列表获得所述初始抽取结果。
[0043]在上述方案中,所述筛选排序规则包括关键词权重设置规则、白样本库设置规则以及Drools字段候选规则,所述基于所述筛选排序规则,获取所述初始抽取结果对应的目标抽取结果,包括:
[0044]根据所述关键词权重设置规则、所述白样本库设置规则以及所述Drools字段候选规则中的至少一个规则,确定所述初始抽取结果对应的权重值;
[0045]根据所述权重值确定所述目标抽取结果。
[0046]在上述方案中,所述根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果之后,所述方法还包括:
[0047]展示所述目标抽取结果;
[0048]接收所述目标抽取结果对应的反馈指示。
[0049]在上述方案中,所述反馈指示包括抽取正确和抽取错误,所述根据预设审计规则和所述目标抽取结果,获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种合同审计方法,其特征在于,所述方法包括:采集合同文档数据,并按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据;基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型;根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果;根据预设审计规则和所述目标抽取结果,获得所述待审计合同对应的审计结果;其中,所述预设审计规则表征基于Drools规则引擎设计的审计逻辑。2.根据权利要求1所述的方法,其特征在于,所述采集合同文档数据,包括:从合同管理系统中采集所述合同文档数据。3.根据权利要求1所述的方法,其特征在于,所述按照预设处理策略对所述合同文档数据进行预处理,获得训练数据和测试数据,包括:解析所述合同文档数据,获得所述合同文档数据对应的目标文本数据;根据所述合同文档数据对应的关键信息对所述目标文本数据进行筛选处理,获得筛选后数据;对所述筛选后数据进行标注处理,获得已标注语料和未标注语料;将所述已标注语料确定为所述训练数据,将所述未标注语料确定为测试数据。4.根据权利要求3所述的方法,其特征在于,所述根据所述合同文档数据对应的关键信息对所述目标文本数据进行筛选处理,获得筛选后数据,包括:确定所述合同文档数据对应的合同类型;根据所述合同类型和所述关键信息获取第一触发词集;按照所述第一触发词集对所述目标文本数据进行筛选处理,获得所述筛选后数据。5.根据权利要求1、3或4所述的方法,其特征在于,所述基于所述训练数据和所述测试数据,利用机器学习法和/或深度学习法进行模型训练和模型检测,获得目标抽取模型,包括:基于所述训练数据,根据所述机器学习法和/或所述深度学习法训练获得初始抽取模型;利用所述测试数据对所述初始抽取模型进行测试处理,获得所述目标抽取模型。6.根据权利要求4所述的方法,其特征在于,所述根据所述合同文档数据对应的关键信息对所述目标文本数据进行筛选处理,获得筛选后数据,包括:根据所述合同类型和所述关键信息获取近义词库;利用所述近义词库对所述关键信息进行替换处理,获得替换后的关键信息;根据所述合同类型和所述替换后的关键信息获取第二触发词集;按照所述第二触发词集对所述目标文本数据进行筛选处理,获得所述筛选后数据。7.根据权利要求1所述的方法,其特征在于,所述预设规则库包括:特殊格式匹配规则、正则表达规则以及筛选排序规则。8.根据权利要求7所述的方法,其特征在于,所述根据预设规则库和所述目标抽取模型,获得待审计合同对应的目标抽取结果,包括:根据所述特殊格式匹配规则获取待审计合同对应的语句数据;
利用所述正则表达规则和所述目标抽取模型,获得所述语句数据对应的初始抽取结果;基于所述筛选排序规则,获取所述初始抽取结果对应的目标抽取结果。9.根据权利要求8所述的方法,其特征在于,所述根据所述特殊格式匹配规则获取待审计合同对应的语句数据,包括:解析所述待审计合同,获得所述待审计合同对应的待审计文本数据;若所述待审计文本数据不满足所述特殊格式匹配规则,则直接按行处理所述待审计文本数据,获得所述语句数据;若所述待审计文本数据满足所述特殊格式匹配规则,则利用预设特殊模板获取所述待审计文本数据对应的所述语句数据。10.根据权利要求8所述的方法,其特征在于,所述利用所述正则表达规则和所述目标抽取模型,获得所述语句数据对应的初始抽取结果,包括:分别按照所述正则表达规则、所述机器学习法以及所述深度学习法对所述语句数据进行抽取处理,获得抽取信息列表;根据所述抽取信息列表获得所述初始抽取结果。11.根据权利要求8所述的方法,其特征在于,所述筛选排序规则包括关键词权重设置...

【专利技术属性】
技术研发人员:王飞翔郭宇晨唐海庆张国宏张丽娟
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1