System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据筛选,特别涉及一种基于用户合同习惯的合同模板智能生成方法。
技术介绍
1、拟定合同模板是一项繁琐且复杂的工作,传统的合同模板拟定通常是由人工完成的,这种方法存在效率低下、成本较高等缺点,需要耗费大量的时间和精力。随着人工智能技术及自然语言处理技术的快速发展,合同模板拟定已成为自然语言处理技术的重要应用之一。
2、现有合同模板生成技术主要通过利用对预训练文本生成模型进行迁移学习训练,然后通过训练后的预训练文本生成模型生成合同模板。具体通常利用对预训练文本生成模型进行微调以实现源域向目标域迁移的过程,但是用于微调的数据集通常为公开的合同文本数据集。因此该方法生成的合同模板通常不具备用户的合同习惯,生成的合同文本难以满足用户的实际需求,影响合同拟定效率。
技术实现思路
1、本专利技术为克服上述现有技术难以满足用户的实际需求,影响合同拟定效率的问题,提供了一种基于用户合同习惯的合同模板智能生成方法,其结合用户历史合同数据分析用户合同习惯,并对合同文本数据进行筛选,使微调后的预训练文本生成模型能够满足用户的合同习惯,提升合同拟定效率。
2、为解决上述技术问题,本专利技术采用的技术方案是:
3、一种基于用户合同习惯的合同模板智能生成方法,所述方法包括步骤如下:
4、获取用户历史合同文本数据集,并从每份用户历史合同文本中提取得到若干个第一关键词;
5、通过分析每份用户历史合同文本中提取的第一关键词,得到每个第一关键词对
6、根据每份用户历史合同文本中各个第一关键词的合同表达特征分析表示用户历史合同习惯的合同结构特征参数;
7、获取公开合同文本数据集,并根据合同表达特征和合同结构特征参数计算公开合同文本的用户习惯相似度;
8、根据用户习惯相似度优化聚类距离,以此对公开合同文本数据集进行聚类筛选,得到满足条件的公开合同文本;
9、利用筛选得到的公开合同文本作为训练数据对预训练文本生成模型进行迁移学习训练。
10、优选地,通过分析每份用户历史合同文本中提取的第一关键词,得到每个第一关键词对应在用户历史合同文本中表示用户历史合同习惯的合同表达特征,包括:
11、将每份用户历史合同分为多个条款文本区间;
12、计算各条款文本区间每个第一关键词的数量的均值;
13、计算其他第一关键词的数量在每个条款文本区间的占比;
14、根据得到第一关键词的数量的均值与其他第一关键词的数量在每个条款文本区间的占比进行计算,对计算的结果进行极差标准化,得到每个第一关键词对应在用户历史合同文本中表示用户历史合同习惯的合同表达特征。
15、优选地,所述根据每份用户历史合同文本中各个第一关键词的合同表达特征,分析表示用户历史合同习惯的合同结构特征参数,包括:
16、根据用户历史合同文本中每个第一关键词的合同表达特征,计算得到每个条款文本区间中每个第一关键词出现的第一加权次数均值;
17、计算用户历史合同文本中所有第一关键词出现的第二加权次数均值;
18、计算第一加权次数均值与第二加权次数均值之间的差值;
19、对差值进行平方放大处理后,对用户历史合同文本中各个条款文本区间的差值进行平均处理,得到表示每份用户历史合同习惯的合同结构特征参数。
20、进一步地,根据用户历史合同文本中每个第一关键词的合同表达特征,计算得到每个条款文本区间中每个第一关键词出现的第一加权次数均值,包括:
21、获取每个用户历史合同文本中每个第一关键词的合同表达特征;
22、获取每个用户历史合同文本中每个条款文本区间中每个第一关键词的数量;
23、获取所有用户历史合同文本中第一关键词的种类数量;
24、根据得到的合同表达特征、每个第一关键词的数量、第一关键词的种类数量,计算得到每个条款文本区间中每个第一关键词出现的第一加权次数均值。
25、进一步地,所述计算用户历史合同文本中所有第一关键词出现的第二加权次数均值,包括:
26、获取所有用户历史合同文本中每个第一关键词的合同表达特征;
27、获取所有用户历史合同文本中每个第一关键词的数量;
28、获取所有用户历史合同文本中第一关键词的种类数量;
29、根据得到的合同表达特征、每个第一关键词的数量、第一关键词的种类数量,计算得到用户历史合同文本中每个第一关键词出现的第二加权次数均值。
30、优选地,所述从每份用户历史合同文本中提取得到若干个第一关键词,还包括:将从每份用户历史合同文本中提取得到若干个第一关键词转化为第一词向量;
31、所述获取的公开合同文本数据集,并根据合同表达特征和合同结构特征参数计算公开合同文本的用户习惯相似度,包括:
32、通过爬虫技术获取公开合同文本数据集,提取公开合同文本数据集中的第二关键词,并转化为第二词向量;
33、计算选取的公开合同文本中第二关键词对应的合同结构特征参数、合同表达特征;
34、根据选取的第二关键词对应的合同结构特征参数、选取的第一关键词对应的合同结构特征参数,计算合同结构相似度;
35、根据选取的第二关键词对应的合同表达特征、选取的第一关键词对应的合同表达特征,计算合同表达特征相似度;
36、根据选取的第一关键词的第一词向量、选取的第二关键词的第二词向量,计算词向量相似度;
37、结合合同结构相似度、合同表达特征相似度、词向量相似度,计算公开合同文本的用户习惯相似度。
38、进一步地,在将提取公开合同文本数据集中的第二关键词转化为第二词向量之前,计算选取的公开合同文本中第二关键词对应的合同结构特征参数、合同表达特征之后,所述方法还包括:
39、按照用户历史合同文本中第一关键词的合同表达特征,从大到小的顺序排列为第一关键词序列;
40、依次不重复选取某一个公开合同文本中与用户历史合同文本中第一关键词的合同表达特征的差值最小的第二关键词;将选取得到的第二关键词按照选取顺序排列为第二关键词序列;
41、分别按照第一关键词序列、第二关键词序列的排列顺序选取第一关键词、第二关键词。
42、再进一步地,根据用户习惯相似度优化聚类距离,以此对公开合同文本数据集进行聚类筛选,得到满足条件的公开合同文本,包括:
43、将公开合同文本的词向量按照第二关键词序列顺序组成多维数据;
44、根据得到的公开合同文本的用户习惯相似度,计算用户习惯特征距离;
45、通过手肘法获取类簇数量k,将用户习惯特征距离作为不同公开合同文本之间的距离度量,对多维数据进行聚类处理,得到k个类簇;
46、计算各类簇的用户习惯相似度均值,各本文档来自技高网...
【技术保护点】
1.一种基于用户合同习惯的合同模板智能生成方法,其特征在于:所述方法包括步骤如下:
2.根据权利要求1所述一种基于用户合同习惯的合同模板智能生成方法,其特征在于:通过分析每份用户历史合同文本中提取的第一关键词,得到每个第一关键词对应在用户历史合同文本中表示用户历史合同习惯的合同表达特征,包括:
3.根据权利要求1所述一种基于用户合同习惯的合同模板智能生成方法,其特征在于:所述根据每份用户历史合同文本中各个第一关键词的合同表达特征,分析表示用户历史合同习惯的合同结构特征参数,包括:
4.根据权利要求3所述一种基于用户合同习惯的合同模板智能生成方法,其特征在于:根据用户历史合同文本中每个第一关键词的合同表达特征,计算得到每个条款文本区间中每个第一关键词出现的第一加权次数均值,包括:
5.根据权利要求3所述一种基于用户合同习惯的合同模板智能生成方法,其特征在于:所述计算用户历史合同文本中所有第一关键词出现的第二加权次数均值,包括:
6.根据权利要求1所述一种基于用户合同习惯的合同模板智能生成方法,其特征在于:所述从每份用户历史
7.根据权利要求6所述一种基于用户合同习惯的合同模板智能生成方法,其特征在于:在将提取公开合同文本数据集中的第二关键词转化为第二词向量之前,计算选取的公开合同文本中第二关键词对应的合同结构特征参数、合同表达特征之后,所述方法还包括:
8.根据权利要求6所述一种基于用户合同习惯的合同模板智能生成方法,其特征在于:根据用户习惯相似度优化聚类距离,以此对公开合同文本数据集进行聚类筛选,得到满足条件的公开合同文本,包括:
9.根据权利要求8所一种述基于用户合同习惯的合同模板智能生成方法,其特征在于:所述根据得到的公开合同文本的用户习惯相似度,计算用户习惯特征距离,包括:
10.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述一种基于用户合同习惯的合同模板智能生成方法。
...【技术特征摘要】
1.一种基于用户合同习惯的合同模板智能生成方法,其特征在于:所述方法包括步骤如下:
2.根据权利要求1所述一种基于用户合同习惯的合同模板智能生成方法,其特征在于:通过分析每份用户历史合同文本中提取的第一关键词,得到每个第一关键词对应在用户历史合同文本中表示用户历史合同习惯的合同表达特征,包括:
3.根据权利要求1所述一种基于用户合同习惯的合同模板智能生成方法,其特征在于:所述根据每份用户历史合同文本中各个第一关键词的合同表达特征,分析表示用户历史合同习惯的合同结构特征参数,包括:
4.根据权利要求3所述一种基于用户合同习惯的合同模板智能生成方法,其特征在于:根据用户历史合同文本中每个第一关键词的合同表达特征,计算得到每个条款文本区间中每个第一关键词出现的第一加权次数均值,包括:
5.根据权利要求3所述一种基于用户合同习惯的合同模板智能生成方法,其特征在于:所述计算用户历史合同文本中所有第一关键词出现的第二加权次数均值,包括:
6.根据权利要求1所述一种基于用户合同习惯的合同模板智能生成方法,其特征...
【专利技术属性】
技术研发人员:王波,马彪,崔琦,徐迪,王聪,徐恒君,刘建,王一男,孙洪刚,陈琳,张翔,
申请(专利权)人:沈阳慧筑云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。