一种基于enhancematrix的法律案件候选段落的选取方法及装置制造方法及图纸

技术编号：29960424 阅读：23 留言：0更新日期：2021-09-08 09:18

本发明专利技术涉及自然语言处理、人工智能等领域，特别涉及一种基于enhancematrix的法律案件候选段落的选取方法及装置，方法包括对带有推理性质的法律阅读理解数据集进行处理，获取具有候选段落标注的法律数据集；将每个样本中的问题与段落分别进行连接，并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵，根据该两个矩阵计算相似度矩阵R；针对每个样本构建EM矩阵，并利用EM矩阵对相似度矩阵R进行增量处理；将处理后的特征输入二分类任务分类器进行训练，通过训练好的模型获取概率最高的n个段落作为候选段落；本发明专利技术提高段落选择的准确率，最大程度的减少向下游任务传递的噪音信息。务传递的噪音信息。务传递的噪音信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于enhance matrix的法律案件候选段落的选取方法及装置

[0001]本专利技术涉及自然语言处理、人工智能等领域，特别涉及一种基于enhance matrix的法律案件候选段落的选取方法及装置。

技术介绍

[0002]随着社会的发展和大数据时代的到来，法院每年都要处理大量的诉讼案件，人民法院需要根据当事人的诉讼请求、答辩意见以及证据交换的情况，归纳争议焦点，这个过程需要法官根据法律规定和审判经验，结合案件具体情况进行综合归纳，这个过程十分耗费人力，随着人工智能的发展，已将有很多自认语言处理领域的技术应用在法律案件争议焦点归纳上面，并取得了不错的成绩；在获得争议焦点之后，还要考虑对“为什么得到这个争议焦点”提供证据，为争议焦点的获取提供可解释性；由于存在案件类型多，争议焦点数目多，答案寻找存在多跳情况等问题，基于规则的方式已经无法当前的需求，分案件、争议焦点的情况下使用多跳机器阅读理解可以更加出色的完成这个任务。
[0003]多跳机器阅读理解是当前人工智能的一个重要研究方向，在自动问答系统、聊天机器人中具有广泛的应用。阅读理解答案的正误大多能根据背景材料中的少量几个段落来推断，本文将这些关键段落称为候选段落，候选段落抽取有助于对答案直接相关的段落进行准确定位，目前已有工作专门针对散文阅读理解开展基于抽象词语关联的答案获取方法的研究，针对散文选择题开展选项和背景材料的一致性蕴含问题，文献采用了较为简单的词语匹配抽取算法，正确率不高；另外,多数阅读理解系统从问题出发将候选段落抽取同答案生成融合为一个问...

【技术保护点】

【技术特征摘要】
1.一种基于enhance matrix的法律案件候选段落的选取方法，其特征在于，包括以下步骤：对带有推理性质的法律阅读理解数据集进行处理，将一个样本数据中的候选段落的标签标为1，非候选段落标为0，获取具有候选段落标注的法律数据集；将每个样本中的问题与段落分别进行连接，并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵，根据该两个矩阵计算相似度矩阵R；针对每个样本构建EM矩阵，在EM矩阵中EM
ij
表示第i个段落和第j个段落关于词语的增量关系；对相似度矩阵R和EM矩阵进行相加操作，将相加之后的矩阵通过softmax函数计算得到段落之间的相似权值，使用段落向量和对应权值的乘积相加得到更新后的段落向量表示；将更新后的段落接二分类任务，使用sigmoid作为激活函数，对法律阅读理解候选段落数据集进行训练，得到训练好的模型；在训练好的模型中输入未知候选段落的法律文本，输出段落分类的概率，取top n得到最终候选段落结果。2.根据权利要求1所述的一种基于enhance matrix的法律案件候选段落的选取方法，其特征在于，第i个段落和第j个段落关于词语的增量关系的计算包括：判断段落i和段落j与样本问题之间时候存在词语包含关系，存在设置为1；计算段落i与段落j之间关于词语的词向量相似度并取top k计算值的和；将计将前两步骤得到的值进行相加，将相加的值作为第i个段落和第j个段落关于词语的增量关系。3.根据权利要求2所述的一种基于enhance matrix的法律案件候选段落的选取方法，其特征在于，段落i与段落j之间关于词语的词向量相似度表示为：其中，COS(x
i
y
j
)表示段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离；m为段落x的分词个数，n为段落y的分词个数。4.据权利要求3所述的一种基于enhance matrix的法律案件候选段落的选取方法，其特征在于，段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离COS(x
i
y
j
)表示为：其中，w为词向量的维度大小，x
ik
为段落x的第i个向量k个维度的向量值；y
jk
为段落y的第i个向量k个维度的向量值。5.根据权利要求1所述的一种基于enhance matrix的法律案件候选段落的选取方法，其特征在于，一个样本数据的问题必须通过至少2个候选段落的推理来得出，即一个样本的至少有两个候选段落，且样本数据至少有一个非候选段落。6.根据权利要求1所述...

【专利技术属性】
技术研发人员：胡峰，董磊，邓维斌，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人