当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于图卷积神经网络的行政处罚文书的类案推荐方法技术

技术编号:32329848 阅读:66 留言:0更新日期:2022-02-16 18:37
本发明专利技术涉及一种基于图卷积神经网络的行政处罚文书的类案推荐方法,包括:数据集的爬取、整合和预处理、文书子图构建、字词的联合特征匹配向量提取、基于孪生BERT的节点特征向量提取、基于图卷积的特征向量的聚合、分类获取最终的匹配结果、行政处罚文书的推荐。本发明专利技术对行政处罚文书的局部匹配向量进行了提取,并将其对应附加在图节点上,充分利用了行政处罚文书半结构化的特点。对提高行政执法文书的匹配以及推荐的准确率有至关重要的作用。配以及推荐的准确率有至关重要的作用。配以及推荐的准确率有至关重要的作用。

【技术实现步骤摘要】
一种基于图卷积神经网络的行政处罚文书的类案推荐方法


[0001]本专利技术涉及一种基于图卷积神经网络的行政处罚文书的类案推荐方法,属于深度学习和司法


技术介绍

[0002]目前国内在行政执法领域存在案多人少、基层执法人员工作压力大、监督不到位的问题。人工智能技术与司法领域的深度融合,使司法智能化得到了不断的发展。司法智能化是提升执法监督效能、提升决策效率的重要手段。司法智能化是指在司法领域运用人工智能技术对案件内容、法律规则、判处结果等信息进行深层次学习,从而模拟和辅助司法从业人员进行判断并作出决策的过程,而类似案件推荐是司法智能化的主要研究内容之一。在司法领域,行政处罚文书作为行政执法行为的重要载体,一种合理且高效的行政处罚文书的类似案件推荐方法,就成了辅助司法从业人员在行政处罚文书辅助决策任务场景中进行决策的重要的技术手段。身处于大数据时代,行政处罚文书也越来越公开化、透明化,提出一种行政处罚文书的类案推荐的方法,能够减轻执法人员工作压力的同时,也可以进一步推进司法智能化和便民化。
[0003]近年来,在司法领域对于类案推荐方面取得了一些成果。2012年,关于甄别与判断类似案件的标准与方法,王利明等人提出了基本事实相似、法律关系相似、争议点相似、争议的法律问题相似4种判断要素。之后,张志铭等人提出基于案件事实的法律性质相似的判断要素,即案件的事实是否涉及相同的法律问题,是否属于同样法律性质的案件。通过设置规则性的判断标准来进行类案检索推荐,是目前国内常见的一种技术手段。此外,基于文本语义相似度与知识图谱的类案推荐也逐渐成为了研究热点。文本语义相似度计算进行类案推荐,一般通过对用户输入的文书内容进行要素抽取,根据案由缩小匹配范围,然后利用神经网络对文本进行矢量化计算,与案例库中的案例进行语义相似度计算并排序得到精准化的类案。2019年,华中科技大学王君泽等人对案情内容中不同词性类别的词项设置权重,对未登录词进行识别,对案情内容的数量表述相似度进行计算,减少了噪声信息,提高了匹配准确性。国内也有研究者通过知识图谱进行类案推荐,利用知识图谱构建与挖掘技术来实现对象级信息抽取,通过构建中文的知识图谱并依据法律领域知识库来构造法律对象的本体库,作为进一步的检索推荐的基础。
[0004]在相似行政处罚文书的推荐过程中,行政处罚文书的匹配是最为关键的一步。采用传统的文本匹配方法,首先要将中文文本向量化表示,之后再进行相似度的计算。近年来,随着深度学习在自然语言处理等领域的飞速发展,出现了越来越多基于深度学习的文本相似匹配方法,同样也带给行政处罚文书的类案推荐带来了新的机遇。2018年,王海亮在基于文本挖掘的法律咨询系统的文书推荐模块中,采用了word2vec的方法,在得到词的向量化表示的基础上,对文本使用两种基于 word2vec文档向量化方法进行表示,并将两个不同方法得到的文档表示串联作为最终的文档表达,从而完成法律文书的匹配与推荐。同年,徐浩广采用文书关键词抽取算法和中文文本相似度计算算法,来给执法人员推荐具有相似
案情的法律文书。2020年,程豪提出基于孪生BERT的相似案例匹配模型,该模型主体框架采用孪生结构,以BERT为文书编码网络,通过余弦相似度公式计算文书相似值,从而实现相似案例的匹配。但这些方法都存在一些缺点:第一,对于传统的文本匹配方法,如TF

IDF、LDA等来进行行政处罚文书的相似匹配,是仅仅考虑了词级别的相似度,而忽略了行政处罚文书自带的语义信息和结构信息。第二,采用word2vec方法进行行政处罚文书的相似度匹配,本质上是一个词聚类的方法,是词的静态的表征,同样没有将行政处罚文书的间隔较长的上下文信息进行有效的利用,即没有考虑全局信息。也就是说word2vec技术应用在行政处罚文书的匹配上是忽略了其中的结构和全局信息。第三,对于孪生BERT的相似案例匹配,首先单个行政处罚文书的平均长度远远超过了普通的BERT模型的最大训练文本长度(512),其次,由于行政处罚文书都具有半结构化的特点,而BERT模型没有更好的充分利用行政处罚文书相对较为结构化的特点。
[0005]因此,如何能够在利用好行政处罚文书的半结构化的特点的同时,对单个长度超过512的行政处罚文书进行文本相似度匹配进而给执法人员推荐具有相似案情的推荐成了一大难题。

技术实现思路

[0006]针对现有技术的不足,本专利技术提供一种基于图卷积神经网络的行政处罚文书的类案推荐方法。
[0007]专利技术概述:
[0008]本专利技术的目的是解决现有司法领域存在的行政处罚文书类案推荐效率低且准确率不高的问题,提供了一种基于图卷积的行政处罚文书的类案推荐方法,包括:数据集的爬取、整合和预处理、文书子图构建、字词的联合特征匹配向量提取、基于孪生BERT的节点特征向量提取、基于图卷积 (GCN)的特征向量的聚合、分类获取最终的匹配结果、行政处罚文书的推荐。
[0009]通过爬取的方式获取并构建原始行政处罚文书数据集,之后为了避免标点符号和空格等无关因素的影响,使用简单的正则表达式和jieba分词对数据进行预处理来构建文书数据集。为了充分提取行政处罚文书中的语义和结构信息,对行政处罚文书进行子图构建,从而能够更好地利用行政处罚文书数据比较结构化的特点。为了充分挖掘文书中词与词之间的相似匹配向量,设计字词的联合特征匹配向量提取模块来获取更具鲁棒性的词向量的相似特征表示。同时,为了能够更好利用文书中的上下文关系和全局信息,采用孪生的BERT模块来对全局信息进行提取。为了将匹配向量聚合为一对行政处罚文书的最终匹配向量采用基于图卷积(GCN)的聚合模块设计,来捕获多层次的特征信息。为了得到最终的相似度结果,将聚合后的特征向量通过一个分类器来计算两篇行政执法文书的匹配相似度。为了实现行政处罚文书的类案推荐,从相似库中找寻匹配分数靠前的行政处罚文书进行推荐。
[0010]术语解释:
[0011]1、jieba:jieba库是一款优秀的Python第三方中文分词库,jieba支持三种分词模式:精确模式、全模式和搜索引擎模式。
[0012]2、类案推荐:在司法领域,对于一篇新的法律案例,与案例语料库中每个案例的相
似度进行对比计算得到最终相似度,根据最终相似度进行排序,得到案由、违法事实和处罚较为相似的案例语料库中的案件。
[0013]3、行政处罚文书:行政处罚决定书是行政管理机关针对当事人的违法行为,在经过调查取证掌握违法证据的基础上,制作的记载当事人违法事实、处罚理由、依据和决定等事项的具有法律强制力的书面法律文书。
[0014]4、图卷积(GCN):图卷积实际上跟CNN的作用一样,就是一个特征提取器,只不过它的对象是图数据,是利用其他结点的信息来推导该结点的信息。在半监督学习中,图卷积本质不是传播标签,而是在传播特征,图卷积将不知道标签的特征,传染到已知标签的特征节点上,利用已知标签节点的分类器推测其属性。
[0015]5、TextRank,基于PageRank本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图卷积神经网络的行政处罚文书的类案推荐方法,其特征在于,包括步骤如下:A、数据集的爬取、整合和预处理首先,爬取行政处罚决定书,提取其中的文本内容,构建行政处罚文书原始数据集;然后,从政处罚文书原始数据集中自然语言中剔除掉无关因素,最后,按照行政处罚文书的半结构化的形式进行重构,并生成新的行政处罚文书数据集;B、文书子图构建首先,进行初步的关键字子图构建,将提取的每个关键词当作一个节点,如果两个关键词在文本的同一个句子中出现过,就用边将这两个节点相连;再通过关键词检测与合并来减少关键字子图中节点的个数,并将其重构成新的子图;然后,利用节点与行政处罚文书中每句话的TF

IDF余弦相似值,将每个句子附加到与其相似度最大的节点上;最后,利用每个节点上的附加的句子集的TF

IDF相似度来更新两两节点之间边的权重,从而完成子图的构建;C、字词的联合特征匹配向量提取对步骤B获取的任意两个子图进行句子集合并,即:分别计算两个句子集之间基于字词的相似度,包括TF

IDF余弦相似度、BM25余弦相似度、Simhash相似度、Jaccard相似度,串联得到基于字词的联合特征匹配向量;D、基于孪生BERT的节点特征向量提取基于孪生BERT的特征向量的提取模块包括结构完全相同且参数共享的两个BERT模型;步骤A获取的任意两篇行政处罚文书分别输入两个BERT模型,得到编码向量表示,连接两个编码向量,得到基于孪生BERT的节点特征向量;E、基于图卷积的特征向量的聚合将构建的子图和子图中每个节点上连接的匹配向量,输入到多层GCN神经网络来捕获多层次的特征信息;F、分类获取最终的匹配结果取GCN的最后一层所有节点的隐藏向量的平均值,将最终GCN层中的隐藏表示合并为一个固定尺寸的图匹配向量,之后将得到的最终匹配向量,通过一个分类网络进行分类来获取最终的匹配相似度;G、行政处罚文书的推荐基于行政处罚文书中的处罚所依据的法条构建相似库,将输入的行政处罚文书与相似库中行政处罚文书依次进行步骤B至步骤F,选取分数靠前的行政处罚文书进行推荐给执法人员。2.根据权利要求1所述的一种基于图卷积神经网络的行政处罚文书的类案推荐方法,其特征在于,步骤A中,数据集的爬取、整合和预处理,包括步骤如下:a、从行政处罚文书网爬取获取各省的行政处罚决定书,并提取标签为html的文本内容,构建行政处罚文书原始数据集并保存为.csv文件;b、首先,使用jieba分词工具来从自然语言中剔除掉无关因素;然后,选取大量文书共同拥有的特征字段若干个,通过基于规则的方法抽取这些特征字段;
最后,根据行政处罚文书的规范形式重构生成新的行政处罚文书数据集。3.根据权利要求1所述的一种基于图卷积神经网络的行政处罚文书的类案推荐方法,其特征在于,步骤B中,文书子图构建,包括步骤如下:c、关键词子图的构建:通过TextRank算法提取出一个行政处罚文书的关键词,每个关键词当作一个节点,如果两个关键词在文本的同一个句子中出现过,就用边将这两个节点相连;TextRank算法的公式如公式(1)所示:式(1)中,w
ji
表示两个节点之间的边连接具有不同的重要程度,d表示阻尼系数,i、j、k分别代表文本中句子i、句子j、句子k,V
i
为利用TextRank算法构建的词图G

(V,E)的节点集合V的句子i对应的节点,In(V
i
)、out(V
j
)分别为节点V
i
的入度和V
j
的出度;WS(V
i
)和WS(V
j
)分别为节点V
i
和V
j
的rank值,即排序值;d、关键词检测与合并,重构关键字子图:将相近的关键词和同义词进行替换和合并;e、节点匹配句与边的更新,即:将一篇行政执法文书中的每个句子分配并附加到对应的节点上;首先,计算每个句子与每一个节点v
i
的TF

IDF余弦相似值;然后,将每个句子附加到与其TF

IDF余弦相似值最大的节点上;通过以上步骤,在重构的关键字子图上,每个节点上附带有一个或多个句子,关键字子图中两两节点之间的边权更新为附加在这两个节点上句子集之间的TF

IDF余弦相似值,从而完成每篇行政执法文书的文书子图G(V,E)的构建,V表示文书子图的节点v
i
,E表示具有权重w
ij
的边e
ij
=(v
i
,v
j
)的集合。4.根据权利要求3所述的一种基于图卷积神经网络的行政处罚文书的类案推荐方法,其特征在于,所述步骤C,字词的联合特征匹配向量提取,包括步骤如下:对于文书子图G(V,E)中的节点v
i
,计算其上附加的分别来自文书A和文书B的句子集AS(v
i
)和BS(v
i
)的基于字面的联合相似度,包括TF

IDF余弦相似度、BM25余弦相似度、Simhash相似度、Jaccard相似度,串联得到基于字面的联合特征匹配向量StM。5.根据权利要求1所述的一种基于图卷积神经网络的行政处罚文书的类案推荐方法,其特征在于,所述步骤D,基于孪生BERT的节点特征向量提取,是指:通过基于孪生BERT的特征向量的提取模块提取节点特征向量;BERT模型包括输入层、编码...

【专利技术属性】
技术研发人员:贲晛烨孙浩李玉军周莹冯晓炜姚军
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1