【技术实现步骤摘要】
一种基于检索增强的法律意见自动生成方法
[0001]本专利技术涉及一种基于检索增强的法律意见自动生成方法,属于自然语言处理领域
。
技术介绍
[0002]近年来,法律与自然语言处理技术的结合衍生出了许多法律智能产品,如:智能法律咨询系统,法律意见书自动生成系统等
。
它们很大程度上降低了获取法律服务的成本,同时对推进智慧司法建设具有重大意义
。
目前的法律意见生成相关的研究可以分为两个方面:
(1)
刑事法律意见生成:根据案情事实描述预测出被告人所涉及到的罪名,并根据刑法等法律条款做出合理的解释
。(2)
民事法律意见生成:根据案情事实描述回应原告和被告的诉求,并依据民法等法律条款给出合理的解释
。
当前的方法常常使用基于
Transformer
结构的生成模型来处理案情事实从而生成流畅度较高的法律意见
。
此外,额外添加罪名预测或者法律条款预测等子任务来提升生成的法院意见的逻辑性
。
大型语言模型在众多自然语言处理任务中取得了优异的表现,如
LLaMA
等
。
因此,许多方法直接将大型语言模型应用到法律意见生成任务之中也取得了较好的表现
。
[0003]但是目前的方法仍存在一定的缺陷:
[0004]无法处理复杂的案情事实
。
目前的生成模型均采用
Transformer
的结构,其模型的输入长度 ...
【技术保护点】
【技术特征摘要】
1.
一种基于检索增强的法律意见自动生成方法,其特征在于,包括以下步骤:步骤一
、
构建法律条款检索器,所述法律条款检索器包括案情事实编码器
Encoder
fact
和法律条款编码器
Encoder
law
;步骤二
、
构建法律条款知识库和法律意见数据集所述法律意见数据集包括法律意见中的时间信息和法律条款信息;步骤三
、
通过法律条款知识库和法律意见数据集训练案情事实编码器
Encoder
fact
和法律条款编码器
Encoder
law
得到训练好的法律条款检索器;步骤四
、
训练法律意见生成模型:将需要生成法律意见的案情事实输入法律意见生成模型,法律意见生成模型首先按照中文句末标点符号来划分得到
n
个句子,然后将
n
个句子平均划分为
s
个片段;再在每个片段前拼接
t
个
token
,然后使用
BERT
预训练模型对片段进行编码,在处理第一个片段时,使用
t
个“[MASK]”来初始化拼接部分,之后的片段均采用前一个片段的拼接部分即
t
个
token
对应的表示来初始化,最终,取最后一个拼接片段中的拼接部分对应的表示作为案情事实的表示;再将获取到的案情事实表示投影到大型语言模型
LLaMA
的词嵌入空间中并将获取到的案情事实输入到
LLaMA
之中从而生成法律意见;根据
LLaMA
生成的法律意见计算法律意见生成器的训练损失并使得收敛之后即得到训练好的法律意见生成模型;步骤五
、
生成法律意见:将待处理的案情事实输入训练好的法律条款检索器来检索出与待处理的案情事实相关的法律条款,然后将检索出的法律条款和待处理的案情事实输入到训练好的法律意见生成模型之中得到最终的法律意见
。2.
如权利要求1所述的基于检索增强的法律意见自动生成方法,其特征在于,所述步骤二的具体步骤如下:所述步骤二中,构建法律条款知识库和法律意见数据集的方法如下:从中国裁判文书网中爬取出裁判文书并提取出法律意见,抽取出法律意见中的时间信息和法律条款信息,最后构建出法律意见数据集,从国家法律法规数据库中爬取出法律条款构建出法律条款知识库
。3.
如权利要求1所述的基于检索增强的法律意见自动生成方法,其特征在于,所述步骤二中,所述法律意见数据集包括法律条款知识库
L
=
{L1,
L2,
...
,
L
n
}
,案情事实
F
=
[f1,
f2,
...
,
f
s
]
,与案情事实相关的法律条款其中,
n
+
为与案情事实相关的法律条款的数量,选取
L
+
作为案情事实
F
的正样本;与案情事实无关的法律条款集合为
L
‑
L
+
;使用
BM25
在
L
‑
L
+
中搜索与案情事实最相似的法律条款作为案情事实
F
的负样本,记为
n
‑
为与案情事实不相关的法律条款的数量;
s
表示案情事实中的
token
数量
。4.
如权利要求2所述的基于检索增强的法律意见自动生成方法,其特征在于,所述步骤三中,法律条款检索器的训练损失如下所示:
其中,
sim()
用来计算案情事实和法律条款之间的相似度,此处,
sim(F
,
L)
=
Encoder
fact
(F)
T
·
Encoder
law
(L)
,
T
表示矩阵转置,
F
表示案情事实,
Encoder
fact
()
表示案情事实编码器编码,
Encoder
law
()
表示法律条款编码器编码;表示第
j
个与案情事实相关的法律条款,表示第
i
个与案情事实相关的法律条款,表示第
k
个与案情事实不相关的法律条款;
+
表示正样本,
‑
表示负样本;训练法律条款检索器时,使得收敛以优化案情事实编码器
Encoder
fact
和法律条款编码器
Encoder
law
。5.
如权利要求4所述的基于检索增强的法律意见自动生成方法,其特征在于,所述步骤三中,案情事实编码器
Encoder
fact
和法律条款编码器
Encoder
law
的数据处理流程如下:案情事实编码器
Encoder
fact
对案情事实
F
=
[f1,
f2,
...
,
f
s
]
进行编码得到案情事实
F
的表示其中,是一个
s
×
d
维的矩阵,
s
为法律文本的长度,
d
为编码器中隐藏层状态的维度,
f
s
表示法律文本中第
s
个
token
,表示案情事实中第
s
个
token
的表示;取中“[CLS]”token
的表...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。