一种案件检索方法及系统技术方案

技术编号:23161726 阅读:36 留言:0更新日期:2020-01-21 21:59
本发明专利技术公开了一种案件检索方法及系统,该方法包括:提取案件数据库中的案件要素信息与表述文本,对司法争议焦点描述文本进行聚类处理,形成争议焦点及要素标签库;基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成案件卷宗争议焦点库;根据所述争议焦点及要素标签库、案件卷宗争议焦点库,构建并训练案件语言检索模型;对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的争议焦点;利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。本发明专利技术能够从案件争议焦点角度进行相似案件的检索推送。

【技术实现步骤摘要】
一种案件检索方法及系统
本专利技术涉及数据检索
,具体来说,涉及一种案件检索方法及系统。
技术介绍
随着社会信息的公开化、透明化,案件的审判结果也越来越受到社会的关注。对于同一个案件,不同的法官的裁量尺度的差别也往往不一样。如果能够在判决案件之前,及时的推荐以往的相似案件,无疑会起到一个很好的参考作用。而在上述背景下,各级法院目前已经逐步上线了类案推荐系统,然而,现有的司类案推荐系统普遍采用的是基于向量空间模型相似度计算方法,通过检索关键词进行检索推送的。而这就使得司法人员在使用时,往往检索不到自己想要查询的审判要素点,或需要花费大量时间从推送的大量案件中逐个阅读查找,这不仅费事费力,而且效率低下。针对上述相关技术中存在的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中的问题,本专利技术提出一种案件检索方法及系统,能够从案件争议焦点角度进行相似案件的检索推送。本专利技术的技术方案是这样实现的:根据本专利技术的一方面,提供了一种案件检索方法。该案件检索方法包括以下步骤:提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理,并对得到的聚类类别进行标注与校验,形成争议焦点及要素标签库;基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库;根据所述争议焦点及要素标签库、案件卷宗争议焦点库,利用机器学习技术,构建并训练案件语言检索模型;对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的可能的争议焦点;利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。此外,在提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理时,采用面向争议焦点的层次化主题聚类方法进行聚类处理。另外,采用面向争议焦点的层次化主题聚类方法进行聚类处理包括以下步骤:从案件数据库中提取案件要素信息与表述文本的原始数据;采用GSOM算法对所述原始数据进行聚类,得到聚类类别;将每个聚类类别划分为多个子类,并从每个子类中选择抽样数据作为该子类的类别代表,并进行密度聚类。此外,所述GSOM算法的神经元权值调整函数公式为:mi(t+1)=mi(t)+hc(x),i(t)[x(t)-mi(t)];其中,t代表算法的迭代次数;mi(t+1)代表算法迭代t+1次后第i个神经元的特征向量;hc(x),i(t)代表近邻函数,其能够控制神经元的调整范围;x(t)代表随机选择的数据;c(x)代表获胜神经元;a(t)为学习速率,其随着算法迭代次数的增加而单调递减;||ri-rc(X)||代表获胜神经元与第i个神经元之间的距离;δ(t)为邻域函数。优选的,所述卷宗材料包括以下至少之一:笔录材料、答辩状材料、判决书材料。另外,基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注包括:采用机器学习技术,将争议焦点标签与案件要素标签匹配到具体的案件卷宗材料文本中。此外,上述案件检索方法还包括:在对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点之前,先对与检索的案件材料进行篇章分析和语句分析。其中,所述篇章分析是对欲检索案件的卷宗材料基于文章结构级的分析,包括以下步骤:对欲检索案件的卷宗材料,根据材料的篇章构成进行结构划分,确定每个结构篇章;对每个结构篇章中的语句,进行逐条语句分析。所述语句分析包括以下步骤:对语句进行预处理,进行语句分词、词性标注处理;根据争议焦点标签库,找到相关性较大的语句,去掉无关的语句,减少干扰;标注语义角色,区分原被告各自的表述。另外,所述话题矛盾检测方法包括通过矛盾检测模型进行检测,当检测模型中的模型公式的约束不相容时,优化算法会遇到收敛困难时,判定为存在矛盾并确定为矛盾点;所述矛盾检测模型的模型公式为:minf(x)x∈Rns.t.c(x)=0x≥0其中,f:Rn→R为目标函数;c:Rn→Rm为系统模型;x≥0为边界约束。可选的,所述数据检索服务包括:基于争议焦点的相似案件检索和推送、基于争议焦点的法条归纳检索与推送、基于争议焦点的判罚估计检索与推送。根据本专利技术的另一方面,提供了一种案件检索系统。该案件检索系统包括:要素标签库形成模块,用于提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理,并对得到的聚类类别进行标注与校验,形成争议焦点及要素标签库;卷宗争议焦点形成模块,用于基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库;检索模型搭建模块,用于据所述争议焦点及要素标签库、案件卷宗争议焦点库,利用机器学习技术,构建并训练案件语言检索模型;案件矛盾点确认模块,用于对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的可能的争议焦点;检索服务模块,用于利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。此外,所述要素标签库形成模块在提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理时,采用面向争议焦点的层次化主题聚类方法进行聚类处理。另外,所述要素标签库形成模块包括数据提取子模块、聚类子模块、抽样数据选择子模块;其中,数据提取子模块,用于从案件数据库中提取案件要素信息与表述文本的原始数据;聚类子模块,用于通过采用GSOM算法对所述原始数据进行聚类,得到聚类类别;抽样数据选择子模块,用于将每个聚类类别划分为多个子类,并从每个子类中选择抽样数据作为该子类的类别代表,并进行密度聚类。此外,所述GSOM算法的神经元权值调整函数公式为:mi(t+1)=mi(t)+hc(x),i(t)[x(t)-mi(t)];其中,t代表算法的迭代次数;mi(t+1)代表算法迭代t+1次后第i个神经元的特征向量;hc(x),i(t)代表近邻函数,其能够控制神经元的调整范围;x(t)代表随机选择的数据;c(x)代表获胜神经元;a(t)为学习速率,其随着算法迭代次数的增加而单调递减;||ri-rc(x)||代表获胜神经元与第i个神经元之间的距离;δ(t)为邻域函数。可选的,所述卷宗材料包括以下至少之一:笔录材料、答辩状材料、判决书材料。另外,所述卷宗争议焦点形成模块基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注时,采用机器学习技术,将争议焦点标签与案件要素标签匹配到具体的案件卷宗材料文本中。此外,所述案件矛盾本文档来自技高网...

【技术保护点】
1.一种案件检索方法,其特征在于,包括以下步骤:/n提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理,并对得到的聚类类别进行标注与校验,形成争议焦点及要素标签库;/n基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库;/n根据所述争议焦点及要素标签库、案件卷宗争议焦点库,利用机器学习技术,构建并训练案件语言检索模型;/n对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的可能的争议焦点;/n利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。/n

【技术特征摘要】
1.一种案件检索方法,其特征在于,包括以下步骤:
提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理,并对得到的聚类类别进行标注与校验,形成争议焦点及要素标签库;
基于争议焦点及要素标签库,对案件数据库中的案件卷宗材料进行数据对应标注,形成具有争议焦点标签与案件要素标签的案件卷宗争议焦点库;
根据所述争议焦点及要素标签库、案件卷宗争议焦点库,利用机器学习技术,构建并训练案件语言检索模型;
对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点,并根据矛盾点提炼成该案件材料相匹配的可能的争议焦点;
利用所述案件语言检索模型,根据提炼出的争议焦点对欲检索的案件材料提供数据检索服务。


2.根据权利要求1所述的案件检索方法,其特征在于,在提取案件数据库中的案件要素信息与表述文本,对表述文本中的司法争议焦点描述文本进行聚类处理时,采用面向争议焦点的层次化主题聚类方法进行聚类处理,采用面向争议焦点的层次化主题聚类方法进行聚类处理包括以下步骤:
从案件数据库中提取案件要素信息与表述文本的原始数据;
采用GSOM算法对所述原始数据进行聚类,得到聚类类别;
将每个聚类类别划分为多个子类,并从每个子类中选择抽样数据作为该子类的类别代表,并进行密度聚类。


3.根据权利要求2所述的案件检索方法,其特征在于,所述GSOM算法的神经元权值调整函数公式为:
mi(t+1)=mi(t)+hc(x),i(t)[x(t)-mi(t)];



其中,t代表算法的迭代次数;mi(t+1)代表算法迭代t+1次后第i个神经元的特征向量;hc(x),i(t)代表近邻函数,其能够控制神经元的调整范围;x(t)代表随机选择的数据;c(x)代表获胜神经元;a(t)为学习速率,其随着算法迭代次数的增加而单调递减;||ri-rc(X)||代表获胜神经元与第i个神经元之间的距离;δ(t)为邻域函数。


4.根据权利要求1所述的案件检索方法,其特征在于,还包括:
在对欲检索的案件材料,通过基于案件争议焦点的话题矛盾检测方法,确定案件卷宗材料中的矛盾点之前,先对与检索的案件材料进行篇章分析和语句分析。


5.根据权利要求4所述的案件检索方法,其特征在于,所述话题矛盾检测方法包括通过矛盾检测模型进行检测,当检测模型中的模型公式的约束不相容时,优化算法会遇到收敛困难时,判定为存在矛盾并确定为矛盾点;
所述矛盾检测模型的模型公式为:
minf(x)
x∈Rn
s.t.c(x)=0x≥0
其中,f:Rn→R为目标函数;c:Rn→Rm为系统模型;x≥0为边界约束。


6.一种案件检索系统,其特征在于,包括:
要素标签库形成模块,用于提取案件数据库中的案件要素...

【专利技术属性】
技术研发人员:万玉晴聂耀鑫衣永刚
申请(专利权)人:太极计算机股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1