一种基于enhancematrix的法律案件候选段落的选取方法及装置制造方法及图纸

技术编号:29960424 阅读:23 留言:0更新日期:2021-09-08 09:18
本发明专利技术涉及自然语言处理、人工智能等领域,特别涉及一种基于enhancematrix的法律案件候选段落的选取方法及装置,方法包括对带有推理性质的法律阅读理解数据集进行处理,获取具有候选段落标注的法律数据集;将每个样本中的问题与段落分别进行连接,并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵,根据该两个矩阵计算相似度矩阵R;针对每个样本构建EM矩阵,并利用EM矩阵对相似度矩阵R进行增量处理;将处理后的特征输入二分类任务分类器进行训练,通过训练好的模型获取概率最高的n个段落作为候选段落;本发明专利技术提高段落选择的准确率,最大程度的减少向下游任务传递的噪音信息。务传递的噪音信息。务传递的噪音信息。

【技术实现步骤摘要】
一种基于enhance matrix的法律案件候选段落的选取方法及装置


[0001]本专利技术涉及自然语言处理、人工智能等领域,特别涉及一种基于enhance matrix的法律案件候选段落的选取方法及装置。

技术介绍

[0002]随着社会的发展和大数据时代的到来,法院每年都要处理大量的诉讼案件,人民法院需要根据当事人的诉讼请求、答辩意见以及证据交换的情况,归纳争议焦点,这个过程需要法官根据法律规定和审判经验,结合案件具体情况进行综合归纳,这个过程十分耗费人力,随着人工智能的发展,已将有很多自认语言处理领域的技术应用在法律案件争议焦点归纳上面,并取得了不错的成绩;在获得争议焦点之后,还要考虑对“为什么得到这个争议焦点”提供证据,为争议焦点的获取提供可解释性;由于存在案件类型多,争议焦点数目多,答案寻找存在多跳情况等问题,基于规则的方式已经无法当前的需求,分案件、争议焦点的情况下使用多跳机器阅读理解可以更加出色的完成这个任务。
[0003]多跳机器阅读理解是当前人工智能的一个重要研究方向,在自动问答系统、聊天机器人中具有广泛的应用。阅读理解答案的正误大多能根据背景材料中的少量几个段落来推断,本文将这些关键段落称为候选段落,候选段落抽取有助于对答案直接相关的段落进行准确定位,目前已有工作专门针对散文阅读理解开展基于抽象词语关联的答案获取方法的研究,针对散文选择题开展选项和背景材料的一致性蕴含问题,文献采用了较为简单的词语匹配抽取算法,正确率不高;另外,多数阅读理解系统从问题出发将候选段落抽取同答案生成融合为一个问题来提出联合模型,但该方法缺乏可解释性,且最终答题的精确度并未得到显著提高,本专利技术的主要工作体现在候选段落抽取这一部分,减少向下游任务传递噪声数据。
[0004]答案候选句抽取算法大体可以分为3类:基于信息检索的方法、基于概率主题模型的方法和基于深度学习的词嵌入方法,但是这3类方法依然存在以下问题:
[0005]1)基于信息检索的方法将候选句抽取任务看成一个检索问题,早期语义相似度计算方法主要基于空间向量模型,利用TF

IDF刻画文档语句相似度,是一种无监督的学习方式,这种方法简单地采用词匹配和重叠的方式,难以捕获句子之间微妙的相关信息;
[0006]2)基于概率主题模型方法的基本思路是通过每一篇文档的主题分布和每一个主题中词的分布来确定句子的相关度,一般采用经典的概率主题模型(Latent Dirichlet Allocation,LDA)或在语义分析方法(Latent Semantic Analysis,LSA)等,将高维的文档降维到潜在语义低维空间来计算语义相关度,这类方法主要从篇章级别对文档进行建模,而对于微阅读模式的句子级建模表现较差。

技术实现思路

[0007]本专利技术针对现有的候选段落获取技术在处理具有多跳特点的法律领域相关文档
时,无法正确选择与问题相关的候选段落、学习到段落之间的推理关系等缺点,提出一种基于enhance matrix的法律案件候选段落的选取方法及装置,所述方法包括以下步骤:
[0008]对带有推理性质的法律阅读理解数据集进行处理,将一个样本数据中的候选段落的标签标为1,非候选段落标为0,获取具有候选段落标注的法律数据集;
[0009]将每个样本中的问题与段落分别进行连接,并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵,根据该两个矩阵计算相似度矩阵R;
[0010]针对每个样本构建EM矩阵,在EM矩阵中EM
ij
表示第i个段落和第j个段落关于词语的增量关系;
[0011]对相似度矩阵R和EM矩阵进行相加操作,将相加之后的矩阵通过softmax函数计算得到段落之间的相似权值,使用段落向量和对应权值的乘积相加得到更新后的段落向量表示;
[0012]将更新后的段落接二分类任务,使用sigmoid作为激活函数,对法律阅读理解候选段落数据集进行训练,得到训练好的模型;
[0013]在训练好的模型中输入未知候选段落的法律文本,输出段落分类的概率,取top n得到最终候选段落结果。
[0014]进一步的,第i个段落和第j个段落关于词语的增量关系的计算包括:
[0015]判断段落i和段落j与样本问题之间时候存在词语包含关系,存在设置为1;
[0016]计算段落i与段落j之间关于词语的词向量相似度并取top k计算值的和;
[0017]将计将前两步骤得到的值进行相加,将相加的值作为第i个段落和第j个段落关于词语的增量关系。
[0018]进一步的,段落i与段落j之间关于词语的词向量相似度表示为:
[0019][0020]其中,COS(x
i
y
j
)表示段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离;m为段落x的分词个数,n为段落y的分词个数。
[0021]进一步的,段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离COS(x
i
y
j
)表示为:
[0022][0023]其中,w为词向量的维度大小,x
ik
为段落x的第i个向量k个维度的向量值;y
jk
为段落y的第i个向量k个维度的向量值。
[0024]进一步的,一个样本数据的问题必须通过至少2个候选段落的推理来得出,即一个样本的至少有两个候选段落,且样本数据至少有一个非候选段落。
[0025]进一步的,通过Bert网络得到的段落向量,样本中所有段落向量构成向量矩阵X,X与不同的权重W计算得到矩阵Q、K,则相似度矩阵R表示为:
[0026][0027]其中,d
k
为向量矩阵Q、K的维度,K
T
表示矩阵K的转置矩阵。
[0028]本专利技术还提出一种基于enhance matrix的法律案件候选段落的选取装置,包括候选段落数据处理模块、Bert表征模块、增量处理模块、模型训练模块以及候选段落输出模块,其中:
[0029]候选段落数据处理模块,用于执行对获取带有推理性质的阅读理解数据集进行处理,根据数据集要求答案必须通过至少2个候选段落的推理来得出答案的特点来选出候选段落并进行标签标注,获取将是否为候选段落作为标签的数据集;
[0030]Bert表征模块,用于执行对候选段落数据集中每个样本中的段落和问题进行表征算法,将问题文本和段落文本合并,截取或补全为512长度的输入,输入到已经过预训练的Bert模型,获得问题和段落向量的表示,提取出段落向量来构造每个样本的段落向量矩阵;
[0031]增量处理模块,用于执行对段落向量矩阵执行增量处理算法,即通过attention机制来学习段落向量之间的相似度矩阵R,随后根据两个不同段落与样本问题之间的词语包含关系以及两个不同段落关于词语向量的相似度的计算结果生成enhance matrix矩阵,并使用enhanc本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于enhance matrix的法律案件候选段落的选取方法,其特征在于,包括以下步骤:对带有推理性质的法律阅读理解数据集进行处理,将一个样本数据中的候选段落的标签标为1,非候选段落标为0,获取具有候选段落标注的法律数据集;将每个样本中的问题与段落分别进行连接,并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵,根据该两个矩阵计算相似度矩阵R;针对每个样本构建EM矩阵,在EM矩阵中EM
ij
表示第i个段落和第j个段落关于词语的增量关系;对相似度矩阵R和EM矩阵进行相加操作,将相加之后的矩阵通过softmax函数计算得到段落之间的相似权值,使用段落向量和对应权值的乘积相加得到更新后的段落向量表示;将更新后的段落接二分类任务,使用sigmoid作为激活函数,对法律阅读理解候选段落数据集进行训练,得到训练好的模型;在训练好的模型中输入未知候选段落的法律文本,输出段落分类的概率,取top n得到最终候选段落结果。2.根据权利要求1所述的一种基于enhance matrix的法律案件候选段落的选取方法,其特征在于,第i个段落和第j个段落关于词语的增量关系的计算包括:判断段落i和段落j与样本问题之间时候存在词语包含关系,存在设置为1;计算段落i与段落j之间关于词语的词向量相似度并取top k计算值的和;将计将前两步骤得到的值进行相加,将相加的值作为第i个段落和第j个段落关于词语的增量关系。3.根据权利要求2所述的一种基于enhance matrix的法律案件候选段落的选取方法,其特征在于,段落i与段落j之间关于词语的词向量相似度表示为:其中,COS(x
i
y
j
)表示段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离;m为段落x的分词个数,n为段落y的分词个数。4.据权利要求3所述的一种基于enhance matrix的法律案件候选段落的选取方法,其特征在于,段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离COS(x
i
y
j
)表示为:其中,w为词向量的维度大小,x
ik
为段落x的第i个向量k个维度的向量值;y
jk
为段落y的第i个向量k个维度的向量值。5.根据权利要求1所述的一种基于enhance matrix的法律案件候选段落的选取方法,其特征在于,一个样本数据的问题必须通过至少2个候选段落的推理来得出,即一个样本的至少有两个候选段落,且样本数据至少有一个非候选段落。6.根据权利要求1所述...

【专利技术属性】
技术研发人员:胡峰董磊邓维斌
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1