一种基于图卷积神经网络的行政处罚文书的类案推荐方法技术

技术编号：32329848 阅读：66 留言：0更新日期：2022-02-16 18:37

本发明专利技术涉及一种基于图卷积神经网络的行政处罚文书的类案推荐方法，包括：数据集的爬取、整合和预处理、文书子图构建、字词的联合特征匹配向量提取、基于孪生BERT的节点特征向量提取、基于图卷积的特征向量的聚合、分类获取最终的匹配结果、行政处罚文书的推荐。本发明专利技术对行政处罚文书的局部匹配向量进行了提取，并将其对应附加在图节点上，充分利用了行政处罚文书半结构化的特点。对提高行政执法文书的匹配以及推荐的准确率有至关重要的作用。配以及推荐的准确率有至关重要的作用。配以及推荐的准确率有至关重要的作用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图卷积神经网络的行政处罚文书的类案推荐方法

[0001]本专利技术涉及一种基于图卷积神经网络的行政处罚文书的类案推荐方法，属于深度学习和司法

技术介绍

[0002]目前国内在行政执法领域存在案多人少、基层执法人员工作压力大、监督不到位的问题。人工智能技术与司法领域的深度融合，使司法智能化得到了不断的发展。司法智能化是提升执法监督效能、提升决策效率的重要手段。司法智能化是指在司法领域运用人工智能技术对案件内容、法律规则、判处结果等信息进行深层次学习，从而模拟和辅助司法从业人员进行判断并作出决策的过程，而类似案件推荐是司法智能化的主要研究内容之一。在司法领域，行政处罚文书作为行政执法行为的重要载体，一种合理且高效的行政处罚文书的类似案件推荐方法，就成了辅助司法从业人员在行政处罚文书辅助决策任务场景中进行决策的重要的技术手段。身处于大数据时代，行政处罚文书也越来越公开化、透明化，提出一种行政处罚文书的类案推荐的方法，能够减轻执法人员工作压力的同时，也可以进一步推进司法智能化和便民化。
[0003]近年来，在司法领域对于类案推荐方面取得了一些成果。2012年，关于甄别与判断类似案件的标准与方法，王利明等人提出了基本事实相似、法律关系相似、争议点相似、争议的法律问题相似4种判断要素。之后，张志铭等人提出基于案件事实的法律性质相似的判断要素，即案件的事实是否涉及相同的法律问题，是否属于同样法律性质的案件。通过设置规则性的判断标准来进行类案检索推荐，是目前国内常见的一种技术手段。此外，基于文本语义相似度与...

【技术保护点】

【技术特征摘要】
1.一种基于图卷积神经网络的行政处罚文书的类案推荐方法，其特征在于，包括步骤如下：A、数据集的爬取、整合和预处理首先，爬取行政处罚决定书，提取其中的文本内容，构建行政处罚文书原始数据集；然后，从政处罚文书原始数据集中自然语言中剔除掉无关因素，最后，按照行政处罚文书的半结构化的形式进行重构，并生成新的行政处罚文书数据集；B、文书子图构建首先，进行初步的关键字子图构建，将提取的每个关键词当作一个节点，如果两个关键词在文本的同一个句子中出现过，就用边将这两个节点相连；再通过关键词检测与合并来减少关键字子图中节点的个数，并将其重构成新的子图；然后，利用节点与行政处罚文书中每句话的TF
‑
IDF余弦相似值，将每个句子附加到与其相似度最大的节点上；最后，利用每个节点上的附加的句子集的TF
‑
IDF相似度来更新两两节点之间边的权重，从而完成子图的构建；C、字词的联合特征匹配向量提取对步骤B获取的任意两个子图进行句子集合并，即：分别计算两个句子集之间基于字词的相似度，包括TF
‑
IDF余弦相似度、BM25余弦相似度、Simhash相似度、Jaccard相似度，串联得到基于字词的联合特征匹配向量；D、基于孪生BERT的节点特征向量提取基于孪生BERT的特征向量的提取模块包括结构完全相同且参数共享的两个BERT模型；步骤A获取的任意两篇行政处罚文书分别输入两个BERT模型，得到编码向量表示，连接两个编码向量，得到基于孪生BERT的节点特征向量；E、基于图卷积的特征向量的聚合将构建的子图和子图中每个节点上连接的匹配向量，输入到多层GCN神经网络来捕获多层次的特征信息；F、分类获取最终的匹配结果取GCN的最后一层所有节点的隐藏向量的平均值，将最终GCN层中的隐藏表示合并为一个固定尺寸的图匹配向量，之后将得到的最终匹配向量，通过一个分类网络进行分类来获取最终的匹配相似度；G、行政处罚文书的推荐基于行政处罚文书中的处罚所依据的法条构建相似库，将输入的行政处罚文书与相似库中行政处罚文书依次进行步骤B至步骤F，选取分数靠前的行政处罚文书进行推荐给执法人员。2.根据权利要求1所述的一种基于图卷积神经网络的行政处罚文书的类案推荐方法，其特征在于，步骤A中，数据集的爬取、整合和预处理，包括步骤如下：a、从行政处罚文书网爬取获取各省的行政处罚决定书，并提取标签为html的文本内容，构建行政处罚文书原始数据集并保存为.csv文件；b、首先，使用jieba分词工具来从自然语言中剔除掉无关因素；然后，选取大量文书共同拥有的特征字段若干个，通过基于规则的方法抽取这些特征字段；
最后，根据行政处罚文书的规范形式重构生成新的行政处罚文书数据集。3.根据权利要求1所述的一种基于图卷积神经网络的行政处罚文书的类案推荐方法，其特征在于，步骤B中，文书子图构建，包括步骤如下：c、关键词子图的构建：通过TextRank算法提取出一个行政处罚文书的关键词，每个关键词当作一个节点，如果两个关键词在文本的同一个句子中出现过，就用边将这两个节点相连；TextRank算法的公式如公式(1)所示：式(1)中，w
ji
表示两个节点之间的边连接具有不同的重要程度，d表示阻尼系数，i、j、k分别代表文本中句子i、句子j、句子k，V
i
为利用TextRank算法构建的词图G
′
(V，E)的节点集合V的句子i对应的节点，In(V
i
)、out(V
j
)分别为节点V
i
的入度和V
j
的出度；WS(V
i
)和WS(V
j
)分别为节点V
i
和V
j
的rank值，即排序值；d、关键词检测与合并，重构关键字子图：将相近的关键词和同义词进行替换和合并；e、节点匹配句与边的更新，即：将一篇行政执法文书中的每个句子分配并附加到对应的节点上；首先，计算每个句子与每一个节点v
i
的TF
‑
IDF余弦相似值；然后，将每个句子附加到与其TF
‑
IDF余弦相似值最大的节点上；通过以上步骤，在重构的关键字子图上，每个节点上附带有一个或多个句子，关键字子图中两两节点之间的边权更新为附加在这两个节点上句子集之间的TF
‑
IDF余弦相似值，从而完成每篇行政执法文书的文书子图G(V，E)的构建，V表示文书子图的节点v
i
，E表示具有权重w
ij
的边e
ij
＝(v
i
，v
j
)的集合。4.根据权利要求3所述的一种基于图卷积神经网络的行政处罚文书的类案推荐方法，其特征在于，所述步骤C，字词的联合特征匹配向量提取，包括步骤如下：对于文书子图G(V，E)中的节点v
i
，计算其上附加的分别来自文书A和文书B的句子集AS(v
i
)和BS(v
i
)的基于字面的联合相似度，包括TF
‑
IDF余弦相似度、BM25余弦相似度、Simhash相似度、Jaccard相似度，串联得到基于字面的联合特征匹配向量StM。5.根据权利要求1所述的一种基于图卷积神经网络的行政处罚文书的类案推荐方法，其特征在于，所述步骤D，基于孪生BERT的节点特征向量提取，是指：通过基于孪生BERT的特征向量的提取模块提取节点特征向量；BERT模型包括输入层、编码...

【专利技术属性】
技术研发人员：贲晛烨，孙浩，李玉军，周莹，冯晓炜，姚军，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人