当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于检索增强的法律意见自动生成方法技术

技术编号:39735649 阅读:9 留言:0更新日期:2023-12-17 23:37
本发明专利技术公开了一种基于检索增强的法律意见自动生成方法,包括法律意见数据集构建步骤

【技术实现步骤摘要】
一种基于检索增强的法律意见自动生成方法


[0001]本专利技术涉及一种基于检索增强的法律意见自动生成方法,属于自然语言处理领域


技术介绍

[0002]近年来,法律与自然语言处理技术的结合衍生出了许多法律智能产品,如:智能法律咨询系统,法律意见书自动生成系统等

它们很大程度上降低了获取法律服务的成本,同时对推进智慧司法建设具有重大意义

目前的法律意见生成相关的研究可以分为两个方面:
(1)
刑事法律意见生成:根据案情事实描述预测出被告人所涉及到的罪名,并根据刑法等法律条款做出合理的解释
。(2)
民事法律意见生成:根据案情事实描述回应原告和被告的诉求,并依据民法等法律条款给出合理的解释

当前的方法常常使用基于
Transformer
结构的生成模型来处理案情事实从而生成流畅度较高的法律意见

此外,额外添加罪名预测或者法律条款预测等子任务来提升生成的法院意见的逻辑性

大型语言模型在众多自然语言处理任务中取得了优异的表现,如
LLaMA


因此,许多方法直接将大型语言模型应用到法律意见生成任务之中也取得了较好的表现

[0003]但是目前的方法仍存在一定的缺陷:
[0004]无法处理复杂的案情事实

目前的生成模型均采用
Transformer
的结构,其模型的输入长度与模型计算量呈现二次方的关系

在真实场景之中,案情事实较为复杂,具体表现在,案情事实描述往往较长

因此,在模型训练中设置的最大输入长度越大对硬件设备的要求越高,目前的方法所采用的最大输入长度在
1024

token
以内,这使得模型无法处理复杂的案情事实

[0005]无法灵活地适应法律条款更新

以往的方法通过设计一个法律条款预测的多标签分类子任务来引入额外的法律知识,从而提升生成的法院意见的逻辑性

法律条款是会经历制定

修改和废除的过程

先前的方法需要重新训练才能更好地应对法律条款的更新,这会增加模型的训练和部署成本

[0006]为解决上述问题
,
我们设计了一种基于检索增强的法律意见自动生成方法

[0007]名词解释:
[0008]Transformer
层:
Transformer
是编码器

解码器模型

本专利技术使用的
BERT
预训练模型,其中提及到的
Transformer
层指的是
Transformer
编码器,主要由多头注意力机制

前馈神经网络

残差连接和归一化层组成

[0009]token
:即令牌,预训练模型在处理文本时,首先使用模型的
tokenizer
将文本拆分成一个
token
序列,并根据词表查询出每个
token
的编号,从而将文本转化成向量以便于模型处理


BERT
处理输入文本时,会在开头添加一个特殊
token“[CLS]”。
在预训练过程中,
BERT
会随机掩码一部分的
token
,即将其改为“[MASK]”token
,通过进行掩码语言模型训练来增强
BERT
的表示能力

[0010]LoRA
:一种参数高效微调方案,常用于大型语言模型微调,可以有效降低显存需求
同时不引入推理成本

[0011]MIPS
:全称,
Maximum Inner Product Search
,给定一个向量
query
和一个向量集
X(
维度一致
)
,找出向量集
X
中与
query
点积较大的一些向量

[0012]Faiss
:全称,
FacebookAI Similarity Search
,提供数据压缩方法,并实现了向量快速检索功能

[0013]BM25

BM25
是信息索引领域用来计算查询与文档相似度得分的经典算法,考虑到了查询中每个单词与文档之间的相关性,查询中单词与查询之间的相关性以及单词的词频信息

[0014]Lawformer
:中国法律长文件的预训练语言模型


技术实现思路

[0015]本专利技术设计了一种基于检索增强法律意见自动生成方法,能够在有限的硬件资源下,处理复杂的案情事实,通过使用法律条款检索器能够灵活应对法律条款的更新和提升生成的法律意见的流畅度和逻辑性

[0016]一种基于检索增强的法律意见自动生成方法,包括以下步骤:
[0017]步骤一

构建法律条款检索器,所述法律条款检索器包括案情事实编码器
Encoder
fact
和法律条款编码器
Encoder
law

[0018]步骤二

构建法律条款知识库和法律意见数据集所述法律意见数据集包括法律意见中的时间信息和法律条款信息;
[0019]步骤三

通过法律条款知识库和法律意见数据集训练案情事实编码器
Encoder
fact
和法律条款编码器
Encoder
law
得到训练好的法律条款检索器;
[0020]步骤四

训练法律意见生成模型:将需要生成法律意见的案情事实输入法律意见生成模型,法律意见生成模型首先按照中文句末标点符号来划分得到
n
个句子,然后将
n
个句子平均划分为
s
个片段;
[0021]再在每个片段前拼接
t

token
,然后使用
BERT
预训练模型对片段进行编码,在处理第一个片段时,使用
t
个“[MASK]”来初始化拼接部分,之后的片段均采用前一个片段的拼接部分即
t

token
对应的表示来初始化,最终,取最后一个拼接片段中的拼接部分对应的表示作为案情事实的表示;
[0022]再将获取到的案情事实表示投影到大型语言模型
LLaMA
的词嵌入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于检索增强的法律意见自动生成方法,其特征在于,包括以下步骤:步骤一

构建法律条款检索器,所述法律条款检索器包括案情事实编码器
Encoder
fact
和法律条款编码器
Encoder
law
;步骤二

构建法律条款知识库和法律意见数据集所述法律意见数据集包括法律意见中的时间信息和法律条款信息;步骤三

通过法律条款知识库和法律意见数据集训练案情事实编码器
Encoder
fact
和法律条款编码器
Encoder
law
得到训练好的法律条款检索器;步骤四

训练法律意见生成模型:将需要生成法律意见的案情事实输入法律意见生成模型,法律意见生成模型首先按照中文句末标点符号来划分得到
n
个句子,然后将
n
个句子平均划分为
s
个片段;再在每个片段前拼接
t

token
,然后使用
BERT
预训练模型对片段进行编码,在处理第一个片段时,使用
t
个“[MASK]”来初始化拼接部分,之后的片段均采用前一个片段的拼接部分即
t

token
对应的表示来初始化,最终,取最后一个拼接片段中的拼接部分对应的表示作为案情事实的表示;再将获取到的案情事实表示投影到大型语言模型
LLaMA
的词嵌入空间中并将获取到的案情事实输入到
LLaMA
之中从而生成法律意见;根据
LLaMA
生成的法律意见计算法律意见生成器的训练损失并使得收敛之后即得到训练好的法律意见生成模型;步骤五

生成法律意见:将待处理的案情事实输入训练好的法律条款检索器来检索出与待处理的案情事实相关的法律条款,然后将检索出的法律条款和待处理的案情事实输入到训练好的法律意见生成模型之中得到最终的法律意见
。2.
如权利要求1所述的基于检索增强的法律意见自动生成方法,其特征在于,所述步骤二的具体步骤如下:所述步骤二中,构建法律条款知识库和法律意见数据集的方法如下:从中国裁判文书网中爬取出裁判文书并提取出法律意见,抽取出法律意见中的时间信息和法律条款信息,最后构建出法律意见数据集,从国家法律法规数据库中爬取出法律条款构建出法律条款知识库
。3.
如权利要求1所述的基于检索增强的法律意见自动生成方法,其特征在于,所述步骤二中,所述法律意见数据集包括法律条款知识库
L

{L1,
L2,
...

L
n
}
,案情事实
F

[f1,
f2,
...

f
s
]
,与案情事实相关的法律条款其中,
n
+
为与案情事实相关的法律条款的数量,选取
L
+
作为案情事实
F
的正样本;与案情事实无关的法律条款集合为
L

L
+
;使用
BM25

L

L
+
中搜索与案情事实最相似的法律条款作为案情事实
F
的负样本,记为
n

为与案情事实不相关的法律条款的数量;
s
表示案情事实中的
token
数量
。4.
如权利要求2所述的基于检索增强的法律意见自动生成方法,其特征在于,所述步骤三中,法律条款检索器的训练损失如下所示:
其中,
sim()
用来计算案情事实和法律条款之间的相似度,此处,
sim(F

L)

Encoder
fact
(F)
T
·
Encoder
law
(L)

T
表示矩阵转置,
F
表示案情事实,
Encoder
fact
()
表示案情事实编码器编码,
Encoder
law
()
表示法律条款编码器编码;表示第
j
个与案情事实相关的法律条款,表示第
i
个与案情事实相关的法律条款,表示第
k
个与案情事实不相关的法律条款;
+
表示正样本,

表示负样本;训练法律条款检索器时,使得收敛以优化案情事实编码器
Encoder
fact
和法律条款编码器
Encoder
law
。5.
如权利要求4所述的基于检索增强的法律意见自动生成方法,其特征在于,所述步骤三中,案情事实编码器
Encoder
fact
和法律条款编码器
Encoder
law
的数据处理流程如下:案情事实编码器
Encoder
fact
对案情事实
F

[f1,
f2,
...

f
s
]
进行编码得到案情事实
F
的表示其中,是一个
s
×
d
维的矩阵,
s
为法律文本的长度,
d
为编码器中隐藏层状态的维度,
f
s
表示法律文本中第
s

token
,表示案情事实中第
s

token
的表示;取中“[CLS]”token
的表...

【专利技术属性】
技术研发人员:刘玉玲赵国龙谭威武
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1