【技术实现步骤摘要】
合同文书语法的纠错方法、装置、计算机设备及存储介质
[0001]本申请涉及人工智能
,尤其涉及一种合同文书语法的纠错方法、装置、计算机设备及存储介质。
技术介绍
[0002]随着经济水平的不断上升,企业合同数量与日俱增,随之而来的语法纠错任务也越来越繁重。传统的人工纠错不仅周期长、劳动强度大,而且效率低,快速、高效地自动合同文书语法纠错是合同审查中亟待解决的任务。中文语法纠错任务旨在利用自然语言处理技术,自动识别和纠正出文本中语法错误。语法错误包括缺失、冗余、错别字、用词错误、语序错误等错误类型。而针对合同文本而言,纠错偏向于一种风险提示,更关注合同要素内容的纠错和争议解决条款中的机构名称的纠错。如果要素中出现错别字或者用词错误,将可能导致合同产生争议。
[0003]目前,语法纠错主要采用两类方法:第一种先识别出错误类型,再针对错误类型进行针对性地纠错;另一种则借鉴机器翻译的思想,将语言纠错等价为机器翻译的过程,即错误文本翻译为正确文本。然而,合同文书语法纠错与通用的语法纠错侧重点不同,需要更多的法学专业知识辅助纠错任务。在合同语法纠错任务中,错误数据的订正标注难度较大,需要有法学知识的人员才能准确标注,这使得合同语法纠错任务中难以获得大量的标注数据。因此,采用基于神经网络模型的语法纠错模型难以得到充分地训练,无法获取高效的信息特征,使得合同文书语法的纠错准确率较低。
技术实现思路
[0004]本申请实施例的目的在于提出一种合同文书语法的纠错方法、装置、计算机设备及存储介质,以提高合同文 ...
【技术保护点】
【技术特征摘要】
1.一种合同文书语法的纠错方法,其特征在于,包括:收集合同领域数据,并基于所述合同领域数据,创建合同文书纠错数据集,其中,所述合同文书纠错数据集包括未登录词库、混淆数据集以及合同纠错数据集;获取待处理合同数据,识别出所述待处理合同数据中的待处理错误语句;基于所述合同文书纠错数据集,获取正确合同语句和标注合同语句,并将所述正确合同语句、所述标注合同语句以及所述待处理错误语句输入预设模型中进行训练,以识别出所述待处理错误语句对应的错误类型;获取所述错误类型对应的纠错方式,通过所述纠错方式对所述待处理错误语句进行纠错处理,得到正确合同文书;爬取所述正确合同文书中每一词语的释义,生成纠错释义知识库。2.根据权利要求1所述的合同文书语法的纠错方法,其特征在于,所述收集合同领域数据,并基于所述合同领域数据,创建合同文书纠错数据集,包括:获取所述合同领域数据,将所述合同领域数据中的字符进行两两组合,得到候选词;构建所述候选词的前缀字典树和后缀字典树,其中,所述前缀字典树和所述后缀字典树以单个字符为节点,每个所述节点记录从根节点到当前节点构成词汇出现的频次;获取所述前缀字典树和所述后缀字典树的频次列表,并计算每一所述候选词以及所述候选词构成片段的左右信息熵;基于所述左右信息熵和所述频次列表,从所述合同领域数据中筛选出未登录词,得到所述未登录词库;构建所述合同领域数据的所述混淆数据集以及所述合同纠错数据集。3.根据权利要求2所述的合同文书语法的纠错方法,其特征在于,所述构建所述合同领域数据的所述混淆数据集以及所述合同纠错数据集,包括:将所述合同领域数据返回开发端,以使得所述开发端对所述合同领域数据进行标注校对,得到所述混淆数据集;识别合同领域数据中的错误语句以及所述错误语句对应的错误类型;根据所述错误类型以及所述混淆数据集,对所述错误语句进行纠错处理,得到初始数据集,其中,所述初始数据集中包括多个合同文书数据集;计算所述初始数据集中每一所述合同文书数据集的困惑度,并基于所述困惑度对所述合同文书数据集进行筛选,得到所述合同纠错数据集。4.根据权利要求1所述的合同文书语法的纠错方法,其特征在于,所述获取待处理合同数据,识别出所述待处理合同数据中的待处理错误语句,包括:获取所述待处理合同数据;对所述待处理合同数据进行分词处理和实体识别处理,判断所述待处理合同数据是否存在错误词语;若存在所述错误词语,则统计所述错误词语对应的错误词频,并判断所述错误词语是否属于所述未登录词库中的未登录词;若所述错误词语属于所述未登录词且所述错误词频超过预设阈值,则获取所述错误词语对应的语句,作为所述待处理错误语句。5.根据权利要求1所述的合同文书语法的纠错方法,其特征在于,所述基于所述合同文
书纠错数据集,获取正确合同语句和标注合同语句,并将所述正确合同语句、所述标注合同语句以及所述待处理错误语句输入预设模型中进行训练,以识别出所述待处理错误语句对应的错误类型,包括:基于所述合同文书纠错数据集,获取所述正确合同语句和所述标注合同语句;将所述正确合同语句、所述标注合同语句以及所述待处理错误语句输入序列...
【专利技术属性】
技术研发人员:顾敏,杜向阳,
申请(专利权)人:深圳擎盾信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。