一种基于大数据的司法领域类案推送方法技术

技术编号:38543723 阅读:11 留言:0更新日期:2023-08-22 20:54
本发明专利技术涉及自然语言处理技术领域,具体涉及一种基于大数据的司法领域类案推送方法;包括将司法领域文书上传到数据库进行匹配;将司法领域文书及其匹配数据输入到训练好的类案相似度计算模型,输出该司法领域文书与每一个匹配数据的相似度;将所有相似度按照大小降序排列,并选取前k个相似度所对应的匹配数据进行推送;本发明专利技术解决了文书文本在预训练模型表征中文本特征趋同的难题,并通过数据扰动的方法进行数据增强,克服了司法领域文书类案推送情景下构建有监督样本时间、人工成本高的困难,可以高效、低成本和自动化地完成精准司法领域类案推送,帮助司法领域从业人员快速地获取与他们正在处理的案件相关的信息和先前的裁决结果。裁决结果。裁决结果。

【技术实现步骤摘要】
一种基于大数据的司法领域类案推送方法


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于大数据的司法领域类案推送方法。

技术介绍

[0002]在司法领域,类案推送的需求源于司法人员需要从大量案例中快速准确地找到与当前案件相似的案例,以便于更好地了解法律规定、判决标准等相关情况。传统的类案推送方法大多基于文本相似度算法,通过对案例的文本信息进行匹配来找到与当前案件相似的案例;由于司法领域案例数据的特殊性,比如涉及的案件类型复杂多样、判决标准不尽相同等,基于文本相似度算法的类案推送方法难以准确地反映出案例之间的相似性。因此,司法领域对于自动化、智能化的类案推送技术的需求越来越迫切。随着技术的飞速发展,大数据技术的出现促进了司法行业的数字化转型,使得司法领域可以实现对大量案例数据的自动化分析和挖掘,从而更好地服务于司法实践,提升司法决策的科学性和准确性;基于大数据的类案推送技术在市场上拥有广阔的应用前景。
[0003]近年来,随着预训练语言模型的快速发展,文本相似度算法有了更好的表现。其中,BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型在文本相似度等任务中表现出色;其可以在大规模无监督数据上进行预训练,从而得到丰富的语义信息,还可以根据具体任务在小规模的有监督数据上进行微调。然而,在实际应用中发现,BERT等预训练语言模型在处理长文本时容易出现语义坍缩(semantic collapse)问题,即将两个含义相似但表述不同的长文本映射为相同的向量表示。这导致在进行相似性评估时,相似度评估效果较差,难以准确地反映文本之间的相似性。

技术实现思路

[0004]本专利技术的目的在于提供一种基于大数据的司法领域类案推送方法,考虑司法领域案例数据的特殊性,解决传统的文本相似度算法由于忽略文本中单词的顺序和语义信息,导致在处理含义不同但表达方式相同的文本时,相似度评估效果较差,以至于类案推送结果缺乏可信度和可靠性验证,无法真正满足司法人员需求的问题。
[0005]本专利技术提供的具体方案包括:将司法领域文书上传到数据库进行匹配;将司法领域文书及其匹配数据输入到训练好的类案相似度计算模型,输出该司法领域文书与每一个匹配数据的相似度;将所有相似度按照大小降序排列,并选取前k个相似度所对应的匹配数据进行推送;
[0006]其中,类案相似度计算模型的训练过程包括:
[0007]S1.在获取的司法领域文书数据集D中采样,得到一个Batch_size大小为N的原始样本集;
[0008]S2.将原始样本集输入文本嵌入层和数据扰动层得到增强样本集;且增强样本集中的增强样本与原始样本集中的原始样本一一对应;
[0009]S3.将经过文本嵌入层的原始样本集进行embedding后输入Bert预训练模型得到N个原始样本的文本向量表示,将增强样本集输入Bert预训练模型得到N个增强样本的文本向量表示;
[0010]S4.基于步骤S3获取的数据,分别通过Simloss函数和Rewardloss函数计算对比学习损失和奖励损失并反向传播训练参数;
[0011]S5.重复步骤S1

S4,迭代训练直至模型收敛。
[0012]进一步的,步骤S1中Batch_size的大小N的计算公式为:
[0013][0014]其中,floor()表示向下取整,K表示显存大小,M表示司法领域文书数据集D中每条数据的平均显存大小,S表示司法领域文书数据集D中的数据总数。
[0015]进一步的,在步骤S2中,原始样本集中任一个原始样本输入文本嵌入层和数据扰动层,得到其对应的一个增强样本,包括:
[0016]S21.按照Bert模型词表将原始样本转化得到一个token序列;
[0017]S22.对token序列进行扰乱操作得到新token序列,所述扰乱操作包括乱序、dropout和随机替换;
[0018]S23.对新token序列进行embedding后实行逆梯度攻击,得到增强样本。
[0019]进一步的,步骤S23中对embedding后的新token序列实行逆梯度攻击,逆梯度攻击表示为:
[0020][0021]其中,x表示embedding后的新token序列,x
r
表示增强样本,g表示梯度,∈表示攻击程度。
[0022]进一步的,步骤S3将任一增强样本或任一经过文本嵌入层并进行embedding的原始样本输入Bert预训练模型,得到其对应的文本向量表示的过程包括:
[0023]S31.将样本输入Bert预训练模型,并获取Bert预训练模型中最后7个encoder层各自输出的embedding表达;
[0024]S32.提取每一个embedding表达中的CLS向量,利用线性层将所有CLS向量转换为一维向量,并进行归一化得到7个权重;
[0025]S33.将每一个权重与其对应的CLS向量相乘得到CLS权重向量,将所有CLS权重向量相加得到样本的文本向量表示。
[0026]进一步的,Simloss函数表示为:
[0027][0028]其中,表示第i=1,2,

,N个原始样本的文本向量表示,表示第i个原始样本
对应增强样本的文本向量表示,Sim()表示相似度计算函数,Dict()表示距离计算函数。
[0029]本专利技术的有益效果:
[0030]本专利技术采用对比学习和奖励学习解决了文书文本在预训练模型表征中文本特征趋同的难题,并通过数据扰动的方法进行数据增强,克服了司法领域文书类案推送情景下构建有监督样本时间长、人工成本高的困难,可以高效、低成本和自动化地完成精准司法领域类案推送,帮助司法领域从业人员快速地获取与他们正在处理的案件相关的信息和先前的裁决结果。
附图说明
[0031]图1为本专利技术的方法流程图;
[0032]图2为本专利技术类案相似度计算模型训练流程图;
[0033]图3为本专利技术类案相似度计算模型的结构示意图。
具体实施方式
[0034]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0035]本专利技术提供了一种基于大数据的司法领域类案推送方法,如图1所示,包括:将司法领域文书上传到数据库与其他文书进行匹配;将司法领域文书及其匹配数据输入到训练好的类案相似度计算模型,输出该司法领域文书与每一个匹配数据的相似度;将所有相似度按照大小降序排列,并选取前k个相似度所对应的匹配数据按照相似度大小从大到小依次进行推送。
[0036]其中,类案相似度计算模型的训练过程,如图2所示,包括:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的司法领域类案推送方法,其特征在于,包括:将司法领域文书上传到数据库进行匹配;将司法领域文书及其匹配数据输入到训练好的类案相似度计算模型,输出该司法领域文书与每一个匹配数据的相似度;将所有相似度按照大小降序排列,并选取前k个相似度所对应的匹配数据进行推送;其中,类案相似度计算模型的训练过程包括:S1.在获取的司法领域文书数据集D中采样,得到一个Batch_size大小为N的原始样本集;S2.将原始样本集输入文本嵌入层和数据扰动层得到增强样本集;且增强样本集中的增强样本与原始样本集中的原始样本一一对应;S3.将经过文本嵌入层的原始样本集进行embedding后输入Bert预训练模型得到N个原始样本的文本向量表示,将增强样本集输入Bert预训练模型得到N个增强样本的文本向量表示;S4.基于步骤S3获取的数据,分别通过Simloss函数和Rewardloss函数计算对比学习损失和奖励损失并反向传播训练参数;S5.重复步骤S1

S4,迭代训练直至模型收敛。2.根据权利要求1所述的一种基于大数据的司法领域类案推送方法,其特征在于,步骤S1中Batch_size的大小N的计算公式为:其中,floor()表示向下取整,K表示显存大小,M表示司法领域文书数据集D中每条数据的平均显存大小,S表示司法领域文书数据集D中的数据总数。3.根据权利要求1所述的一种基于大数据的司法领域类案推送方法,其特征在于,在步骤S2中,原始样本集中任一个原始样本输入文本嵌入层和数据扰动层,得到其对应的一个增强样本,包括:S21.按照Bert模型词表将原始样本转化得到一个token序列;S22.对token序列进行扰乱操作得到新token序列,所述扰乱操作包括乱序、dropout和随机替换;S23.对新token序列进行embedding后实行逆梯度攻击,得到增强样本。4.根据权利要求3所述的一种基于大数据的司法领域类案推送方法,其特征在于,步骤S23中对embedding后的新token序列实行逆梯度攻击,逆梯度攻击表示为:其中,x表示embedding后的新token序列,x
r
表示增强样本,g表示梯度,∈表示攻击程度。5.根据权利要求1所述的一种基于大数据的司法领域类案推送方法,其特征在于,步骤S3将任一增强样本或任一经过文本嵌入层并进行embedding的原始样本输入Bert预训练模
型,得到其对应...

【专利技术属性】
技术研发人员:王进王一雄周羽李俊莲曾思盈周青
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1