一种基于大数据的司法领域类案推送方法技术

技术编号：38543723 阅读：15 留言：0更新日期：2023-08-22 20:54

本发明专利技术涉及自然语言处理技术领域，具体涉及一种基于大数据的司法领域类案推送方法；包括将司法领域文书上传到数据库进行匹配；将司法领域文书及其匹配数据输入到训练好的类案相似度计算模型，输出该司法领域文书与每一个匹配数据的相似度；将所有相似度按照大小降序排列，并选取前k个相似度所对应的匹配数据进行推送；本发明专利技术解决了文书文本在预训练模型表征中文本特征趋同的难题，并通过数据扰动的方法进行数据增强，克服了司法领域文书类案推送情景下构建有监督样本时间、人工成本高的困难，可以高效、低成本和自动化地完成精准司法领域类案推送，帮助司法领域从业人员快速地获取与他们正在处理的案件相关的信息和先前的裁决结果。裁决结果。裁决结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的司法领域类案推送方法

[0001]本专利技术涉及自然语言处理
，具体涉及一种基于大数据的司法领域类案推送方法。

技术介绍

[0002]在司法领域，类案推送的需求源于司法人员需要从大量案例中快速准确地找到与当前案件相似的案例，以便于更好地了解法律规定、判决标准等相关情况。传统的类案推送方法大多基于文本相似度算法，通过对案例的文本信息进行匹配来找到与当前案件相似的案例；由于司法领域案例数据的特殊性，比如涉及的案件类型复杂多样、判决标准不尽相同等，基于文本相似度算法的类案推送方法难以准确地反映出案例之间的相似性。因此，司法领域对于自动化、智能化的类案推送技术的需求越来越迫切。随着技术的飞速发展，大数据技术的出现促进了司法行业的数字化转型，使得司法领域可以实现对大量案例数据的自动化分析和挖掘，从而更好地服务于司法实践，提升司法决策的科学性和准确性；基于大数据的类案推送技术在市场上拥有广阔的应用前景。
[0003]近年来，随着预训练语言模型的快速发展，文本相似度算法有了更好的表现。其中，BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型在文本相似度等任务中表现出色；其可以在大规模无监督数据上进行预训练，从而得到丰富的语义信息，还可以根据具体任务在小规模的有监督数据上进行微调。然而，在实际应用中发现，BERT等预训练语言模型在处理长文本时容易出现语义坍缩(semantic collapse)问题，即将两个含义相似但...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的司法领域类案推送方法，其特征在于，包括：将司法领域文书上传到数据库进行匹配；将司法领域文书及其匹配数据输入到训练好的类案相似度计算模型，输出该司法领域文书与每一个匹配数据的相似度；将所有相似度按照大小降序排列，并选取前k个相似度所对应的匹配数据进行推送；其中，类案相似度计算模型的训练过程包括：S1.在获取的司法领域文书数据集D中采样，得到一个Batch_size大小为N的原始样本集；S2.将原始样本集输入文本嵌入层和数据扰动层得到增强样本集；且增强样本集中的增强样本与原始样本集中的原始样本一一对应；S3.将经过文本嵌入层的原始样本集进行embedding后输入Bert预训练模型得到N个原始样本的文本向量表示，将增强样本集输入Bert预训练模型得到N个增强样本的文本向量表示；S4.基于步骤S3获取的数据，分别通过Simloss函数和Rewardloss函数计算对比学习损失和奖励损失并反向传播训练参数；S5.重复步骤S1
‑
S4，迭代训练直至模型收敛。2.根据权利要求1所述的一种基于大数据的司法领域类案推送方法，其特征在于，步骤S1中Batch_size的大小N的计算公式为：其中，floor()表示向下取整，K表示显存大小，M表示司法领域文书数据集D中每条数据的平均显存大小，S表示司法领域文书数据集D中的数据总数。3.根据权利要求1所述的一种基于大数据的司法领域类案推送方法，其特征在于，在步骤S2中，原始样本集中任一个原始样本输入文本嵌入层和数据扰动层，得到其对应的一个增强样本，包括：S21.按照Bert模型词表将原始样本转化得到一个token序列；S22.对token序列进行扰乱操作得到新token序列，所述扰乱操作包括乱序、dropout和随机替换；S23.对新token序列进行embedding后实行逆梯度攻击，得到增强样本。4.根据权利要求3所述的一种基于大数据的司法领域类案推送方法，其特征在于，步骤S23中对embedding后的新token序列实行逆梯度攻击，逆梯度攻击表示为：其中，x表示embedding后的新token序列，x
r
表示增强样本，g表示梯度，∈表示攻击程度。5.根据权利要求1所述的一种基于大数据的司法领域类案推送方法，其特征在于，步骤S3将任一增强样本或任一经过文本嵌入层并进行embedding的原始样本输入Bert预训练模
型，得到其对应...

【专利技术属性】
技术研发人员：王进，王一雄，周羽，李俊莲，曾思盈，周青，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人