基于键值记忆网络的案件案由分类方法及介质技术

技术编号:25599037 阅读:96 留言:0更新日期:2020-09-11 23:56
本发明专利技术提供了一种基于键值记忆网络的案件案由分类方法及介质,包括:1)数据预处理:从司法文书中提取案情描述文本信息和文书引用的法律条文信息;2)模型构建:建立基于键值记忆网络的案件案由分类模型,包括对引用法条的建模、案件案情描述文本的建模和对键值记忆增强神经网络的建模;3)模型训练:通过训练数据对建立的案由分类模型进行优化,得到最优参数;4)模型预测:输入测试数据集的案件案情描述文本,模型预测案件对应的案由类别。本发明专利技术使用键值记忆增强神经网络进行案由分类,能够借助法律条文的引用信息有效提取案情关键信息,提高样本数量较少的案由的分类准确率,进而提升案由分类的总体准确度。

【技术实现步骤摘要】
基于键值记忆网络的案件案由分类方法及介质
本专利技术涉及数据处理
,具体地,涉及基于键值记忆网络的案件案由分类方法及介质。尤其地,涉及一种基于键值记忆增强神经网络的案件案由分类方法。
技术介绍
案由分类对构建智能法律文书案件评查系统具有重要意义,给专业人员(例如法官和律师)提供方便的参考,提高他们的工作效率。案由分类同时也是立案、审判实务中不可回避的问题,案由确定的准确与否有利于对受理案件进行分类管理,有利于人民法院在审判务实中准确确定案件诉讼争点和正确使用法律,提高案件司法统计的准确性、科学性。专利文献CN110502634A(申请号:201910742625.8)公开了一种案由的判定和抓取方法及其系统,判定方法包括以下步骤:获取待判定的案件描述文本数据;对文本数据进行分词处理和去噪处理;从经过分词处理和去噪处理的文本数据中进行关键字提取,所述关键字用以表征主要事实说明;将提取到的关键字数据带入案由分类器,生成对案情的判定结果,所述案由分类器通过训练案例网络库学习语料获得;所述抓取方法包括以下步骤:利用网络爬虫在案例网络库网站进行搜索爬取,抓取其中的案例信息数据;对获取到的案例信息数据通过正则表达式进行结构化数据清洗。但该方法案由的判定和抓取准确度偏低。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于键值记忆网络的案件案由分类方法及介质。根据本专利技术提供的一种基于键值记忆网络的案件案由分类方法,包括如下步骤:数据预处理步骤:从司法文书中提取案情描述文本信息和文书引用的法律条文信息;模型构建步骤:建立基于键值记忆网络的案件案由分类模型,包括对引用法条的建模、案件案情描述文本的建模和对键值记忆增强神经网络的建模;模型训练步骤:通过训练数据对建立的案由分类模型进行优化,得到最优参数。模型预测步骤:输入测试数据集的案件案情描述文本,模型预测案件对应的案由类别。优选地,所述从司法文书中提取案情描述文本信息和文书引用的法律条文信息包括:司法文书中包含对案件案情的描述和法院机构判定案件引用的法条;所述法条与案由具有数据相关性,相同案由的案件引用相同或相关的法条,法条是判定案件性质的依据,也是案由分类的依据。将文书中引用的法条使用正则表达式从文书中提取出来得到引用的所有法条的编号,以及从文书文本中按照规则提取案情描述文本段落得到案情描述文本信息,对文本进行分词,用词向量表示。优选地,所述模型构建步骤具体包括:对引用法条表示向量的建模;对案情描述文本表示向量的建模;对键值记忆增强神经网络的建模。优选地,对引用法条表示向量的建模,具体包括:将文书引用的所有法条编号使用独热编码进行编码,法条编码乘以随机初始化的参数矩阵,得到引用法条表示向量。优选地,所述对案情描述文本表示向量建模,具体包括:使用特定神经网络模型作为编码器获得案情描述文本表示向量,作为键值记忆增强神经网络输入;键记忆模块随机初始化,训练得出不同案由的案件案情对应的法条表达,即法条在案由层面上的表示向量,法条相关的案情描述的键;对应不同法条的案件案情描述文本表示向量通过写操作写入案情描述记忆模块。优选地,所述对键值记忆增强神经网络的建模,具体包括:每个案件的引用法条表示向量用来控制对案情描述记忆模块的读写操作,训练数据集中每个案件的引用法条表示向量与键记忆模块计算相似度,得到这个案件的引用法条表示向量与每个案由相关的法条表示向量的相关性权重,法条上越相关,案件的案情描述就越相关,这个相关性权重去指导该案件案情描述文本的写入和读出,所述相关性权重既是读权重也是写权重;键值记忆增强神经网络同时输入案件案情描述文本表示向量,根据写权重将这个案情描述文本表示向量写入具体的案情描述记忆模块的卡槽中,更新案情描述记忆模块;根据读权重读出案情描述记忆模块中的向量表示,得到一个基于法条表示记忆增强的案情描述文本的表示向量;获得的基于法条表示记忆增强的案情描述文本的表示向量和原本编码器得到的文本表示向量进行串联,输入进一个案件案由分类器;原本编码器得到的文本表示向量指:使用特定神经网络模型作为编码器获得的案情描述文本表示向量;案件案由分类器由一个softmax全连接网络构成,最后得到特定案件在不同案由上的概率分布。优选地,所述根据写权重将这个案情描述文本表示向量写入案情描述记忆模块中,更新案情描述记忆模块,具体包括:写入操作时根据特定案件的引用法条表示向量计算写入时的清除向量和增加向量,清除向量和增加向量是由该案件的案情描述文本表示向量通过两个不同的全连接网络得到;最后更新案情描述记忆模块需要同时考虑获得的相关性权重,清除向量与相关性权重相乘得到最终这个案件在每个案情描述记忆模块卡槽上的清除程度,增加向量和相关性权重相乘是清除后的每个卡槽应该增加的表示向量。优选地,所述模型训练步骤:通过训练数据使用基于梯度下降法的优化器对建立的案由分类模型进行优化,得到最优参数,具体包括:对编码器做预训练,根据训练数据,输入案情描述文本到编码器预测案由,做监督训练;其次将训练数据输入所构建的案由分类模型,使用基于梯度下降法的优化器训练模型得到最优参数,包括以下三个步骤:初始化模型参数步骤:模型使用交叉熵作为目标函数进行训练,训练前对除编码器以外的各神经网络参数使用正态分布进行随机初始化,网络中bias通常设置为0;使用训练数据集训练模型步骤:将训练集按batch输入网络每次迭代后保存一次模型,迭代至模型收敛,获得收敛后的模型;使用验证数据集验证模型步骤:使用获得的收敛后的模型来对验证数据集进行测试,选出验证误差最小的模型作为最终模型。优选地,所述案由分类模型由编码器、键值记忆增强神经网络以及案件案由分类器组成;所述基于梯度下降法的优化器包括:Adam优化器;所述特定神经网络模型为以下任一种:CNN、RNN、BERT。根据本专利技术提供的一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现上述中任一项所述的基于键值记忆网络的案件案由分类方法的步骤。与现有技术相比,本专利技术具有如下的有益效果:本专利技术通过案件引用的法条辅助筛选与案由更加相关的案情描述文本表示,并可以存储在值记忆模块中以增强表示,提高样本数量较小的案由的案例的案由分类准确率,达到总体更高的案由分类准确度。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1是本专利技术提出的基于键值记忆增强神经网络的案件案由分类模型架构图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说本文档来自技高网...

【技术保护点】
1.一种基于键值记忆网络的案件案由分类方法,其特征在于,包括如下步骤:/n数据预处理步骤:从司法文书中提取案情描述文本信息和文书引用的法律条文信息;/n模型构建步骤:建立基于键值记忆网络的案件案由分类模型,包括对引用法条的建模、案件案情描述文本的建模和对键值记忆增强神经网络的建模;/n模型训练步骤:通过训练数据对建立的案由分类模型进行优化,得到最优参数。/n模型预测步骤:输入测试数据集的案件案情描述文本,模型预测案件对应的案由类别。/n

【技术特征摘要】
1.一种基于键值记忆网络的案件案由分类方法,其特征在于,包括如下步骤:
数据预处理步骤:从司法文书中提取案情描述文本信息和文书引用的法律条文信息;
模型构建步骤:建立基于键值记忆网络的案件案由分类模型,包括对引用法条的建模、案件案情描述文本的建模和对键值记忆增强神经网络的建模;
模型训练步骤:通过训练数据对建立的案由分类模型进行优化,得到最优参数。
模型预测步骤:输入测试数据集的案件案情描述文本,模型预测案件对应的案由类别。


2.如权利要求1所述的基于键值记忆网络的案件案由分类方法,其特征在于,所述从司法文书中提取案情描述文本信息和文书引用的法律条文信息包括:
司法文书中包含对案件案情的描述和法院机构判定案件引用的法条;
所述法条与案由具有数据相关性,相同案由的案件引用相同或相关的法条,法条是判定案件性质的依据,也是案由分类的依据。将文书中引用的法条使用正则表达式从文书中提取出来得到引用的所有法条的编号,以及从文书文本中按照规则提取案情描述文本段落得到案情描述文本信息,对文本进行分词,用词向量表示。


3.如权利要求1所述的基于键值记忆网络的案件案由分类方法,其特征在于,所述模型构建步骤具体包括:
对引用法条表示向量的建模;
对案情描述文本表示向量的建模;
对键值记忆增强神经网络的建模。


4.如权利要求3所述的基于键值记忆网络的案件案由分类方法,其特征在于,对引用法条表示向量的建模,具体包括:
将文书引用的所有法条编号使用独热编码进行编码,法条编码乘以随机初始化的参数矩阵,得到引用法条表示向量。


5.如权利要求3所述的基于键值记忆网络的案件案由分类方法,其特征在于,所述对案情描述文本表示向量建模,具体包括:
使用特定神经网络模型作为编码器获得案情描述文本表示向量,作为键值记忆增强神经网络输入;
键记忆模块随机初始化,训练得出不同案由的案件案情对应的法条表达,即法条在案由层面上的表示向量,法条相关的案情描述的键;
对应不同法条的案件案情描述文本表示向量通过写操作写入案情描述记忆模块。


6.如权利要求3所述的基于键值记忆网络的案件案由分类方法,其特征在于,所述对键值记忆增强神经网络的建模,具体包括:
每个案件的引用法条表示向量用来控制对案情描述记忆模块的读写操作,训练数据集中每个案件的引用法条表示向量与键记忆模块计算相似度,得到这个案件的引用法条表示向量与每个案由相关的法条表示向量的相关性权重,法条上越相关,案件的案情描述就越相关,这个相关性权重去指导该案件案情描述文本的写入和读出,所述相关性权重既是读权重也是写权重;
键值记忆增强神经网络同...

【专利技术属性】
技术研发人员:黄璇璇程威宇沈艳艳
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1