合同模板待填写内容的类别识别方法、装置及存储介质制造方法及图纸

技术编号:37674249 阅读:22 留言:0更新日期:2023-05-26 04:38
本发明专利技术涉及数据处理技术领域,是关于一种合同模板待填写内容的类别识别方法、装置及存储介质,方法包括:获取海量合同数据;根据合同行为知识图谱,确定合同行为标签和待填写内容的类别标签的标注规则,以根据所述标注规则进行合同中待填写内容的数据集标注,得到标注后的数据集;利用所述合同行为知识图谱、标注后的数据集和预设神经网络模型进行训练,得到待填写内容的类别识别模型;获取目标合同模板,使用所述待填写内容的类别识别模型对所述目标合同模板进行识别,并输出所述目标合同模板中每个待填写内容对应的识别结果,其中,所述识别结果包括类别标签和位置。通过该技术方案,提高合同的生成效率,减轻合同编辑人员的压力。压力。压力。

【技术实现步骤摘要】
合同模板待填写内容的类别识别方法、装置及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种合同模板待填写内容的类别识别方法、装置及存储介质。

技术介绍

[0002]随着经济水平的不断上升,企业合同数量与日俱增,对于高效、可靠的合同解析、生成和审核的需求日益迫切。对于合同生成任务而言,由于企业涉及业务相对固定,可通过操作固定的合同模板,生成新合同,以满足不同的业务场景需求。企业中的合同编辑人员可通过多种终端设备,填写合同模板中指定位置的内容,生成一份完整的合同。例如:在买卖合同模板中,“买方:_____法定代表人:_____”中第一个“_____”填写“买方名称”文本,第二个“_____”填写“买方法定代表人”文本。在合同的制作过程中,合同模板指定位置的内容根据实际情况变化,使得一份合同模板可以适应不同场景的需求。在合同生成过程中,自动识别出合同模板指定位置和待填内容的属性标签,可辅助合同的自动解析和归档管理,有效提高合同生成的效率。
[0003]目前,合同模板指定位置的确定依赖于合同编辑人员人工操作。合同编辑人员需要在合同模板中先找到待填写的指定位置,通过预定义的占位符标识该指定位置,再将待填写信息加入至指定位置中。该方法仅支持单一的合同模板位置形式,且无法自动给出各个指定位置所需要填写的内容类型。待填写内容的类型指合同模板指定位置待填写内容的语义属性,例如:在买卖合同模板中,“买方:_____”中“_____”标识“买方名称”类型。
[0004]在合同模板待填写内容的类型识别中,面临三个方面的问题:(1)人工编辑模板文件效率低下;(2)合同模板中指定位置的占位符多样化,常见的有“__”、“【】”、空格等;(3)待填内容的属性标签之间容易产生歧义,例如:“甲方雇用乙方担任学校【】(17_工作岗位)工作,合同期限为【】年(16_合同有效期),自【】年【】月【】日(14_合同开始日期)至【】年【】月【】日(15_合同终止日期)”中合同起始日期和合同终止日期的位置易混淆。

技术实现思路

[0005]为克服相关技术中存在的问题,本专利技术提供一种合同模板待填写内容的类别识别方法、装置及存储介质,可以满足不同合同类型的需求,自动识别待填写内容的位置和待填文本的属性标签,为合同审查、合同自动化生成等法律文本理解、生成任务提供支持,提高合同的生成效率,减轻合同编辑人员的压力。
[0006]根据本专利技术实施例的第一方面,提供一种合同模板待填写内容的类别识别方法,所述方法包括:
[0007]获取海量合同数据;
[0008]根据合同行为知识图谱,确定合同行为标签和待填写内容的类别标签的标注规则,以根据所述标注规则进行合同中待填写内容的数据集标注,得到标注后的数据集;
[0009]利用所述合同行为知识图谱、标注后的数据集和预设神经网络模型进行训练,得
到待填写内容的类别识别模型;
[0010]获取目标合同模板,使用所述待填写内容的类别识别模型对所述目标合同模板进行识别,并输出所述目标合同模板中每个待填写内容对应的识别结果,其中,所述识别结果包括类别标签和位置。
[0011]在一个实施例中,优选地,根据合同行为知识图谱,确定合同行为标签和待填写内容的类别标签的标注规则,包括:
[0012]根据所述海量合同数据,针对多个待填写内容的关联问题,确定所述待填写内容的位置准则;
[0013]根据现有的要素表和条款表,针对不同的合同类型,确定各个待填写内容对应的类别标签;
[0014]根据现有的要素表和条款表,确定合同行为图谱,将所述待填写内容的类别归类到对应的合同行为标签下,以得到合同行为标签和待填写内容的类别标签的标注规则。
[0015]在一个实施例中,优选地,使用所述待填写内容的类别识别模型对所述目标合同模板进行识别,并输出所述目标合同模板中每个待填写内容对应的类别,包括:
[0016]以段落标识将所述目标合同模板划分为多个段落,每个段落划分为多个句子;
[0017]对于每个句子,采用预训练BERT模型确定对应的句子向量表示;
[0018]将每个句子向量表示输入至句子级Bi

LSTM,输出的句子向量表示进行拼接,以得到句子级别的向量表示;
[0019]对于每个段落,采用预训练BERT模型确定对于的段落向量表示;
[0020]将每个段落向量表示输入至段落级Bi

LSTM,输出的段落向量表示进行拼接,以得到文档级别的向量表示;
[0021]对于每个句子中的每个字符,根据所述句子级别的向量表示和文档级别的向量表示,通过门控机制进行融合,得到最终的句子向量表示;
[0022]根据所述最终的句子向量表示进行合同行为分类,以确定每个句子对应合同行为标签;
[0023]将每个句子对应的合同行为标签作为先验信息,采用阅读理解模型确定每个句子对应的待填写内容的位置和类别标签。
[0024]在一个实施例中,优选地,采用阅读理解模型确定每个句子对应的待填写内容的位置和类别标签,包括:
[0025]将合同行为标签和待填写内容的类别标签组成的问句作为所述阅读理解模型的问题,经预训练BERT模型进行编码后输入至所述阅读理解模型,以输出所述待填写内容的位置和类别标签。
[0026]在一个实施例中,优选地,所述合同行为包括收款行为和支付行为等。
[0027]在一个实施例中,优选地,所述方法还包括:
[0028]在确定所述目标合同模板中每个待填写内容对应的识别结果后,对买卖方进行预测,并根据买卖方预测结果校对所述每个待填写内容对应的识别结果。
[0029]根据本专利技术实施例的第二方面,提供一种合同模板待填写内容的类别识别装置,所述装置包括:
[0030]获取模块,用于获取海量合同数据;
[0031]标注模块,用于根据合同行为知识图谱,确定合同行为标签和待填写内容的类别标签的标注规则,以根据所述标注规则进行合同中待填写内容的数据集标注,得到标注后的数据集;
[0032]训练模块,用于利用所述合同行为知识图谱、标注后的数据集和预设神经网络模型进行训练,得到待填写内容的类别识别模型;
[0033]识别模块,用于获取目标合同模板,使用所述待填写内容的类别识别模型对所述目标合同模板进行识别,并输出所述目标合同模板中每个待填写内容对应的识别结果,其中,所述识别结果包括类别标签和位置。
[0034]在一个实施例中,优选地,所述标注模块用于:
[0035]根据所述海量合同数据,针对多个待填写内容的关联问题,确定所述待填写内容的位置准则;
[0036]根据现有的要素表和条款表,针对不同的合同类型,确定各个待填写内容对应的类别标签;
[0037]根据现有的要素表和条款表,确定合同行为图谱,将所述待填写内容的类别归类到对应的合同行为标签下,以得到合同行为标签和待填写内容的类别标签的标注规则。...

【技术保护点】

【技术特征摘要】
1.一种合同模板待填写内容的类别识别方法,其特征在于,所述方法包括:获取海量合同数据;根据合同行为知识图谱,确定合同行为标签和待填写内容的类别标签的标注规则,以根据所述标注规则进行合同中待填写内容的数据集标注,得到标注后的数据集;利用所述合同行为知识图谱、标注后的数据集和预设神经网络模型进行训练,得到待填写内容的类别识别模型;获取目标合同模板,使用所述待填写内容的类别识别模型对所述目标合同模板进行识别,并输出所述目标合同模板中每个待填写内容对应的识别结果,其中,所述识别结果包括类别标签和位置。2.根据权利要求1所述的方法,其特征在于,根据合同行为知识图谱,确定合同行为标签和待填写内容的类别标签的标注规则,包括:根据所述海量合同数据,针对多个待填写内容的关联问题,确定所述待填写内容的位置准则;根据现有的要素表和条款表,针对不同的合同类型,确定各个待填写内容对应的类别标签;根据现有的要素表和条款表,确定合同行为图谱,将所述待填写内容的类别归类到对应的合同行为标签下,以得到合同行为标签和待填写内容的类别标签的标注规则。3.根据权利要求1所述的方法,其特征在于,使用所述待填写内容的类别识别模型对所述目标合同模板进行识别,并输出所述目标合同模板中每个待填写内容对应的类别,包括:以段落标识将所述目标合同模板划分为多个段落,每个段落划分为多个句子;对于每个句子,采用预训练BERT模型确定对应的句子向量表示;将每个句子向量表示输入至句子级Bi

LSTM,输出的句子向量表示进行拼接,以得到句子级别的向量表示;对于每个段落,采用预训练BERT模型确定对应的段落向量表示;将每个段落向量表示输入至段落级Bi

LSTM,输出的段落向量表示进行拼接,以得到文档级别的向量表示;对于每个句子中的每个字符,根据所述句子级别的向量表示和文档级别的向量表示,通过门控机制进行融合,得到最终的句子向量表示;根据所述最终的句子向量表示进行合同行为分类,以确定每个句子对应合同行为标签;将每个句子对应的合同行为标签作为先验信息,采用阅读理解模型确定每个句子对应的待填写内容的位置和类别标签。4.根据...

【专利技术属性】
技术研发人员:顾敏杜向阳王丽颖
申请(专利权)人:南京擎盾信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1