一种案件检索方法及系统技术方案

技术编号：23161726 阅读：43 留言：0更新日期：2020-01-21 21:59

本发明专利技术公开了一种案件检索方法及系统，该方法包括：提取案件数据库中的案件要素信息与表述文本，对司法争议焦点描述文本进行聚类处理，形成争议焦点及要素标签库；基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注，形成案件卷宗争议焦点库；根据所述争议焦点及要素标签库、案件卷宗争议焦点库，构建并训练案件语言检索模型；对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点，并根据矛盾点提炼成该案件材料相匹配的争议焦点；利用所述案件语言检索模型，根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。本发明专利技术能够从案件争议焦点角度进行相似案件的检索推送。

全部详细技术资料下载

【技术实现步骤摘要】
一种案件检索方法及系统
本专利技术涉及数据检索
，具体来说，涉及一种案件检索方法及系统。
技术介绍
随着社会信息的公开化、透明化，案件的审判结果也越来越受到社会的关注。对于同一个案件，不同的法官的裁量尺度的差别也往往不一样。如果能够在判决案件之前，及时的推荐以往的相似案件，无疑会起到一个很好的参考作用。而在上述背景下，各级法院目前已经逐步上线了类案推荐系统，然而，现有的司类案推荐系统普遍采用的是基于向量空间模型相似度计算方法，通过检索关键词进行检索推送的。而这就使得司法人员在使用时，往往检索不到自己想要查询的审判要素点，或需要花费大量时间从推送的大量案件中逐个阅读查找，这不仅费事费力，而且效率低下。针对上述相关技术中存在的问题，目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中的问题，本专利技术提出一种案件检索方法及系统，能够从案件争议焦点角度进行相似案件的检索推送。本专利技术的技术方案是这样实现的：根据本专利技术的一方面，提供了一种案件检索方法。该案件检索方法包括以下步骤：提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理，并对得到的聚类类别进行标注与校验，形成争议焦点及要素标签库；基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注，形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库；根据所述争议焦点及要素标签库、案件卷宗争议焦点库，利用机器学习技术，构建并...

【技术保护点】
1.一种案件检索方法，其特征在于，包括以下步骤：/n提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理，并对得到的聚类类别进行标注与校验，形成争议焦点及要素标签库；/n基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注，形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库；/n根据所述争议焦点及要素标签库、案件卷宗争议焦点库，利用机器学习技术，构建并训练案件语言检索模型；/n对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点，并根据矛盾点提炼成该案件材料相匹配的可能的争议焦点；/n利用所述案件语言检索模型，根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。/n

【技术特征摘要】
1.一种案件检索方法，其特征在于，包括以下步骤：
提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理，并对得到的聚类类别进行标注与校验，形成争议焦点及要素标签库；
基于争议焦点及要素标签库，对案件数据库中的案件卷宗材料进行数据对应标注，形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库；
根据所述争议焦点及要素标签库、案件卷宗争议焦点库，利用机器学习技术，构建并训练案件语言检索模型；
对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点，并根据矛盾点提炼成该案件材料相匹配的可能的争议焦点；
利用所述案件语言检索模型，根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。

2.根据权利要求1所述的案件检索方法，其特征在于，在提取案件数据库中的案件要素信息与表述文本，对表述文本中的司法争议焦点描述文本进行聚类处理时，采用面向争议焦点的层次化主题聚类方法进行聚类处理，采用面向争议焦点的层次化主题聚类方法进行聚类处理包括以下步骤：
从案件数据库中提取案件要素信息与表述文本的原始数据；
采用GSOM算法对所述原始数据进行聚类，得到聚类类别；
将每个聚类类别划分为多个子类，并从每个子类中选择抽样数据作为该子类的类别代表，并进行密度聚类。

3.根据权利要求2所述的案件检索方法，其特征在于，所述GSOM算法的神经元权值调整函数公式为：
mi(t+1)＝mi(t)+hc(x)，i(t)[x(t)-mi(t)]；

其中，t代表算法的迭代次数；mi(t+1)代表算法迭代t+1次后第i个神经元的特征向量；hc(x)，i(t)代表近邻函数，其能够控制神经元的调整范围；x(t)代表随机选择的数据；c(x)代表获胜神经元；a(t)为学习速率，其随着算法迭代次数的增加而单调递减；||ri-rc(X)||代表获胜神经元与第i个神经元之间的距离；δ(t)为邻域函数。

4.根据权利要求1所述的案件检索方法，其特征在于，还包括：
在对欲检索的案件材料，通过基于案件争议焦点的话题矛盾检测方法，确定案件卷宗材料中的矛盾点之前，先对与检索的案件材料进行篇章分析和语句分析。

5.根据权利要求4所述的案件检索方法，其特征在于，所述话题矛盾检测方法包括通过矛盾检测模型进行检测，当检测模型中的模型公式的约束不相容时，优化算法会遇到收敛困难时，判定为存在矛盾并确定为矛盾点；
所述矛盾检测模型的模型公式为：
minf(x)
x∈Rn
s.t.c(x)＝0x≥0
其中，f：Rn→R为目标函数；c：Rn→Rm为系统模型；x≥0为边界约束。

6.一种案件检索系统，其特征在于，包括：
要素标签库形成模块，用于提取案件数据库中的案件要素...

【专利技术属性】
技术研发人员：万玉晴，聂耀鑫，衣永刚，
申请(专利权)人：太极计算机股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人