合同文书语法的纠错方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:35541241 阅读:22 留言:0更新日期:2022-11-09 15:09
本申请涉及一种合同文书语法的纠错方法、装置、计算机设备及存储介质,其中方法包括收集合同领域数据,并基于合同领域数据,创建合同文书纠错数据集;获取待处理合同数据,识别出待处理合同数据中的待处理错误语句;基于合同文书纠错数据集,获取正确合同语句和标注合同语句,并将正确合同语句、标注合同语句以及待处理错误语句输入预设模型中进行训练,以识别出待处理错误语句对应的错误类型;获取错误类型对应的纠错方式,通过纠错方式对待处理错误语句进行纠错处理,得到正确合同文书;爬取正确合同文书中每一词语的释义,生成纠错释义知识库。本发明专利技术实现了对不同错误类型的合同文书语法进行纠错,有利于提高合同文书语法的纠错准确性。错准确性。错准确性。

【技术实现步骤摘要】
合同文书语法的纠错方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种合同文书语法的纠错方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着经济水平的不断上升,企业合同数量与日俱增,随之而来的语法纠错任务也越来越繁重。传统的人工纠错不仅周期长、劳动强度大,而且效率低,快速、高效地自动合同文书语法纠错是合同审查中亟待解决的任务。中文语法纠错任务旨在利用自然语言处理技术,自动识别和纠正出文本中语法错误。语法错误包括缺失、冗余、错别字、用词错误、语序错误等错误类型。而针对合同文本而言,纠错偏向于一种风险提示,更关注合同要素内容的纠错和争议解决条款中的机构名称的纠错。如果要素中出现错别字或者用词错误,将可能导致合同产生争议。
[0003]目前,语法纠错主要采用两类方法:第一种先识别出错误类型,再针对错误类型进行针对性地纠错;另一种则借鉴机器翻译的思想,将语言纠错等价为机器翻译的过程,即错误文本翻译为正确文本。然而,合同文书语法纠错与通用的语法纠错侧重点不同,需要更多的法学专业知识辅助纠错任务。在合同语法纠错任务中,错误数据的订正标注难度较大,需要有法学知识的人员才能准确标注,这使得合同语法纠错任务中难以获得大量的标注数据。因此,采用基于神经网络模型的语法纠错模型难以得到充分地训练,无法获取高效的信息特征,使得合同文书语法的纠错准确率较低。

技术实现思路

[0004]本申请实施例的目的在于提出一种合同文书语法的纠错方法、装置、计算机设备及存储介质,以提高合同文书语法的纠错准确率。
[0005]为了解决上述技术问题,本申请实施例提供一种合同文书语法的纠错方法,包括:收集合同领域数据,并基于所述合同领域数据,创建合同文书纠错数据集,其中,所述合同文书纠错数据集包括未登录词库、混淆数据集以及合同纠错数据集;获取待处理合同数据,识别出所述待处理合同数据中的待处理错误语句;基于所述合同文书纠错数据集,获取正确合同语句和标注合同语句,并将所述正确合同语句、所述标注合同语句以及所述待处理错误语句输入预设模型中进行训练,以识别出所述待处理错误语句对应的错误类型;获取所述错误类型对应的纠错方式,通过所述纠错方式对所述待处理错误语句进行纠错处理,得到正确合同文书;爬取所述正确合同文书中每一词语的释义,生成纠错释义知识库。
[0006]为了解决上述技术问题,本申请实施例提供一种合同文书语法的纠错装置,包括:合同文书纠错数据集创建模块,用于收集合同领域数据,并基于所述合同领域数据,创建合同文书纠错数据集,其中,所述合同文书纠错数据集包括未登录词库、混淆数据
集以及合同纠错数据集;待处理错误语句识别模块,用于获取待处理合同数据,识别出所述待处理合同数据中的待处理错误语句;错误类型识别模块,用于基于所述合同文书纠错数据集,获取正确合同语句和标注合同语句,并将所述正确合同语句、所述标注合同语句以及所述待处理错误语句输入预设模型中进行训练,以识别出所述待处理错误语句对应的错误类型;正确合同文书生成模块,用于获取所述错误类型对应的纠错方式,通过所述纠错方式对所述待处理错误语句进行纠错处理,得到正确合同文书;纠错释义知识库生成模块,用于爬取所述正确合同文书中每一词语的释义,生成纠错释义知识库。
[0007]为解决上述技术问题,本专利技术采用的一个技术方案是:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的合同文书语法的纠错方法。
[0008]本专利技术实施例提供了一种合同文书语法的纠错方法、装置、计算机设备及存储介质。其中,方法包括:收集合同领域数据,并基于合同领域数据,创建合同文书纠错数据集,其中,合同文书纠错数据集包括未登录词库、混淆数据集以及合同纠错数据集;获取待处理合同数据,识别出待处理合同数据中的待处理错误语句;基于合同文书纠错数据集,获取正确合同语句和标注合同语句,并将正确合同语句、标注合同语句以及待处理错误语句输入预设模型中进行训练,以识别出待处理错误语句对应的错误类型;获取错误类型对应的纠错方式,通过纠错方式对待处理错误语句进行纠错处理,得到正确合同文书;爬取正确合同文书中每一词语的释义,生成纠错释义知识库。本专利技术实施例中通过创建合同文书纠错数据集,以满足不同合同类型的需求;然后通过将未登录词库作为分词词库,识别出待处理错误语句,并确认待处理语句对应的错误类型,再根据不同的错误类型对待处理错误语句进行纠错处理,同时爬取每一词语的释义,实现了对不同错误类型的合同文书语法进行纠错,有利于提高合同文书语法的纠错准确性。
附图说明
[0009]为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1是本申请实施例提供的合同文书语法的纠错方法流程的一实现流程图;图2是本申请实施例提供的合同文书语法的纠错方法中子流程的又一实现流程图;图3是本申请实施例提供的合同文书语法的纠错方法中子流程的又一实现流程图;图4是本申请实施例提供的合同文书语法的纠错方法中子流程的又一实现流程图;图5是本申请实施例提供的合同文书语法的纠错方法中子流程的又一实现流程图;
图6是本申请实施例提供的合同文书语法的纠错方法中子流程的又一实现流程图;图7是本申请实施例提供的合同文书语法的纠错方法中子流程的又一实现流程图;图8是本申请实施例提供的合同文书语法的纠错装置示意图;图9是本申请实施例提供的计算机设备的示意图。
具体实施方式
[0011]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
[0012]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0013]为了使本
的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0014]下面结合附图和实施方式对本专利技术进行详细说明。
[0015]需要说明的是,本申请实施例所提供的合同文书语法的纠错方法一般由服务器执行,相应地,合同文书语法的纠错装置一般配置于服务器中。
[0016]请参阅图1,图1示出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种合同文书语法的纠错方法,其特征在于,包括:收集合同领域数据,并基于所述合同领域数据,创建合同文书纠错数据集,其中,所述合同文书纠错数据集包括未登录词库、混淆数据集以及合同纠错数据集;获取待处理合同数据,识别出所述待处理合同数据中的待处理错误语句;基于所述合同文书纠错数据集,获取正确合同语句和标注合同语句,并将所述正确合同语句、所述标注合同语句以及所述待处理错误语句输入预设模型中进行训练,以识别出所述待处理错误语句对应的错误类型;获取所述错误类型对应的纠错方式,通过所述纠错方式对所述待处理错误语句进行纠错处理,得到正确合同文书;爬取所述正确合同文书中每一词语的释义,生成纠错释义知识库。2.根据权利要求1所述的合同文书语法的纠错方法,其特征在于,所述收集合同领域数据,并基于所述合同领域数据,创建合同文书纠错数据集,包括:获取所述合同领域数据,将所述合同领域数据中的字符进行两两组合,得到候选词;构建所述候选词的前缀字典树和后缀字典树,其中,所述前缀字典树和所述后缀字典树以单个字符为节点,每个所述节点记录从根节点到当前节点构成词汇出现的频次;获取所述前缀字典树和所述后缀字典树的频次列表,并计算每一所述候选词以及所述候选词构成片段的左右信息熵;基于所述左右信息熵和所述频次列表,从所述合同领域数据中筛选出未登录词,得到所述未登录词库;构建所述合同领域数据的所述混淆数据集以及所述合同纠错数据集。3.根据权利要求2所述的合同文书语法的纠错方法,其特征在于,所述构建所述合同领域数据的所述混淆数据集以及所述合同纠错数据集,包括:将所述合同领域数据返回开发端,以使得所述开发端对所述合同领域数据进行标注校对,得到所述混淆数据集;识别合同领域数据中的错误语句以及所述错误语句对应的错误类型;根据所述错误类型以及所述混淆数据集,对所述错误语句进行纠错处理,得到初始数据集,其中,所述初始数据集中包括多个合同文书数据集;计算所述初始数据集中每一所述合同文书数据集的困惑度,并基于所述困惑度对所述合同文书数据集进行筛选,得到所述合同纠错数据集。4.根据权利要求1所述的合同文书语法的纠错方法,其特征在于,所述获取待处理合同数据,识别出所述待处理合同数据中的待处理错误语句,包括:获取所述待处理合同数据;对所述待处理合同数据进行分词处理和实体识别处理,判断所述待处理合同数据是否存在错误词语;若存在所述错误词语,则统计所述错误词语对应的错误词频,并判断所述错误词语是否属于所述未登录词库中的未登录词;若所述错误词语属于所述未登录词且所述错误词频超过预设阈值,则获取所述错误词语对应的语句,作为所述待处理错误语句。5.根据权利要求1所述的合同文书语法的纠错方法,其特征在于,所述基于所述合同文
书纠错数据集,获取正确合同语句和标注合同语句,并将所述正确合同语句、所述标注合同语句以及所述待处理错误语句输入预设模型中进行训练,以识别出所述待处理错误语句对应的错误类型,包括:基于所述合同文书纠错数据集,获取所述正确合同语句和所述标注合同语句;将所述正确合同语句、所述标注合同语句以及所述待处理错误语句输入序列...

【专利技术属性】
技术研发人员:顾敏杜向阳
申请(专利权)人:深圳擎盾信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1