基于复杂信息项数据的司法文书的结构化分析方法及系统技术方案

技术编号:38616120 阅读:13 留言:0更新日期:2023-08-26 23:43
本发明专利技术公开了基于复杂信息项数据的司法文书的结构化分析方法及系统,该方法包括以下步骤:对原始司法文书中文本数据进行数据清洗;对文本进行基础处理;从关键信息中提取案件相关的实体信息;识别关键信息中描述实体信息的关键事件;分析关键信息中关键事件之间的关联关系;将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类;评估不同司法文书之间的相似程度;将结构化数据整合,形成可视化报告。本发明专利技术将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类,得到结构化数据的过程中,利用改进K

【技术实现步骤摘要】
基于复杂信息项数据的司法文书的结构化分析方法及系统


[0001]本专利技术属于检察领域,尤其是基于复杂信息项数据的司法文书的结构化分析方法及系统。

技术介绍

[0002]司法文书是指由司法机关制作的文书,包括判决书、裁定书、调解书等。它们记录了法院审理案件的过程和结果,是司法活动的重要产物。司法文书具有法律效力,对于当事人的权利和义务具有约束力。在司法实践中,司法文书扮演着非常重要的角色,是司法公正、透明的重要体现。
[0003]目前解析司法文书的方法主要有以下几种:1、传统的手工解析法:即采用人工阅读、理解、分析文书内容的方法,通过专业人员进行判断和归纳;2、基于机器学习或深度学习等技术,对司法文书进行自动分析、解析和抽取信息。这些技术能够识别文本中的实体和关系,以及提取出重要的信息和结论;3、将司法文书中的各个实体和关系构建成知识图谱,并进行可视化展示和查询。通过这种方式,可以更加直观地理解和分析司法文书中的内容。
[0004]上述方法中均可可以实现司法文书的解析,但是当司法文书中出现语言多样性、语义复杂性时,其单个方法的解决可能存在应用范围较窄,造成司法文书解析过程效率的低下。
[0005]在现有技术中,公开号为CN108197163A的中国专利公开了一种基于裁判文书的结构化处理方法,包括采用自然语言处理技术和高级机器学习技术,自动实现基于案由文本的关键词提取的案件类型分类,从而通过构建案件层次结构和设计的提取规则进行结构化处理,本专利技术通过相关词库的构建与扩展、裁判文书模块分割、设计确定聚簇数目K、初始聚类中心以及采用词语权重的增量作为第二特征选择来实现kmeans聚类算法的改进,并得到案例的类标签;根据不同案例类型创建不同层次框架,结合设计的提取规则,得到裁判文书的结构化处理。但该方法在对实体信息标注时未采用命名实体识别技术,标注效率低,同时在进行结构化处理时,未考虑关键事件及其关联关系,不能很好理解案件的发展轨迹和关键节点,影响结构化数据质量和准确性,且未对结构化数据按照目录结构和分析结果进行整合形成可视化报告,数据可读性不足。
[0006]针对相关技术中的问题,目前尚未提出有效的解决方案。

技术实现思路

[0007]专利技术目的:提供基于复杂信息项数据的司法文书的结构化分析方法及系统,以克服现有相关技术所存在的上述技术问题。
[0008]技术方案:基于复杂信息项数据的司法文书的结构化分析方法及系统,该结构化分析方法包括以下步骤:
S1、对原始司法文书中文本数据进行数据清洗;S2、基于深度学习算法和自然语言处理技术对文本进行基础处理,并提取关键信息;S3、通过命名实体识别技术,从关键信息中提取案件相关的实体信息;S4、识别关键信息中描述实体信息的关键事件,构建业务知识树;S5、分析关键信息中关键事件之间的关联关系;S6、将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类,得到结构化数据;S7、利用文本相似度计算评估不同司法文书之间的相似程度,并通过检索引擎查找相关文书信息;S8、将结构化数据按照目录结构和分析结果进行整合,形成可视化报告。
[0009]在进一步的实施例中,所述基于深度学习算法和自然语言处理技术对文本进行基础处理,并提取关键信息包括以下步骤:S21、使用分词工具将文本数据拆分成若干词汇,并为每个词汇分配一个词性标签;S22、选择BERT预训练模型并加载权值和配置文件;S23、将文本中的词汇输入到BERT预训练模型中,得到每个词汇的高维向量表示;S24、根据词汇的高维向量表示的相似性,将词汇进行初步聚类;S25、在每个聚类中,结合词性标签信息,挑选最具代表性且符合预期词性的词汇作为关键词,并生成关键词列表。
[0010]在进一步的实施例中,所述通过命名实体识别技术,从关键信息中提取案件相关的实体信息包括以下步骤:S31、通过选择和构建不同的特征来捕捉关键信息中的局部和全局信息;S32、根据训练集中的特征和标签构建最大熵模型;S33、使用训练集中的数据对最大熵模型进行训练;S34、使用验证集对训练好的最大熵模型进行评估,并检验最大熵模型的能力;S35、将训练好的最大熵模型应用于关键词列表,通过最大熵模型预测各类命名实体及文本中的位置。
[0011]在进一步的实施例中,所述识别关键信息中描述实体信息的关键事件,构建业务知识树包括以下步骤:S41、通过规则匹配,根据实体信息间的关系和上下文信息,识别出关键事件;S42、根据司法文书领域和需求,确定知识树的层级结构;S43、将关键事件按照预设的层级结构分类,并在每个层级内,将关键事件按照时间顺序、因果关系的逻辑关系进行排序;S44、将分类后的关键事件按照层级结构和逻辑顺序组织起来,形成完整的业务知识树。
[0012]在进一步的实施例中,所述分析关键信息中关键事件之间的关联关系包括以下步骤:S51、从业务知识树中提取各个层级的关键事件;
S52、使用自然语言处理技术,分析文本数据中关键事件之间的关联关系;S53、将识别出的关联关系用图形或表格的形式进行可视化展示,以便更直观地理解关键事件之间的联系;S54、根据关联关系的强度和方向,对业务知识树进行修正和优化,并不断更新和优化关键事件之间的关联关系分析。
[0013]在进一步的实施例中,所述将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类,得到结构化数据包括以下步骤:S61、文本数据中提取实体信息、关键事件和关联关系,将这些信息转换为特征向量;S62、根据实体信息、关键事件和关联关系的向量表示,计算对象的密度,并设定正数值作为密度半径;S63、按照密度大小,对对象空间进行网格划分;S64、观察每个网格中所有对象的密度分布并选择适当的初始聚类中心;S65、按照密度顺序检查其他对象,确定其他对象是否可以作为聚类中心;S66、将其他对象代入原始K

means算法中,进行反复迭代,对网格进行聚类;S67、将聚类结果映射回实体信息、关键事件和关联关系的文本表示,并根据设定的分类体系,为每个聚类分配类别标签;S68、将按照分类体系归类的实体信息、关键事件和关联关系输出为结构化数据。
[0014]在进一步的实施例中,所述根据实体信息、关键事件和关联关系的向量表示,计算对象的密度,并设定正数值作为密度半径包括以下步骤:S621、将实体信息、关键事件和关联关系的向量表示进行加权求和,形成综合特征向量;S622、通过余弦相似度计算对象之间的相似性;S623、对于每个对象,统计在其密度半径范围内的其他对象数量,并以此作为该对象的密度,并设定密度阈值。
[0015]在进一步的实施例中,所述将其他对象代入原始K

means算法中,进行反复迭代,对网格进行聚类包括以下步骤:S661、随机选择k个点作为初始簇中心,将每个网格点分配到距离它最近的簇中心所在的簇中;S662、针对每个簇,计算该簇中所有网格点的平均值,将计算结果作为新的簇中心;S663、对没有被分配到任何一个簇中的其他对象,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于复杂信息项数据的司法文书的结构化分析方法,其特征在于,该结构化分析方法包括以下步骤:S1、对原始司法文书中文本数据进行数据清洗;S2、基于深度学习算法和自然语言处理技术对文本进行基础处理,并提取关键信息;包括以下步骤:S21、使用分词工具将文本数据拆分成若干词汇,并为每个词汇分配一个词性标签;S22、选择BERT预训练模型并加载权值和配置文件;S23、将文本中的词汇输入到BERT预训练模型中,得到每个词汇的高维向量表示;S24、根据词汇的高维向量表示的相似性,将词汇进行初步聚类;S25、在每个聚类中,结合词性标签信息,挑选最具代表性且符合预期词性的词汇作为关键词,并生成关键词列表;S3、通过命名实体识别技术,从关键信息中提取案件相关的实体信息;包括以下步骤:S31、通过选择和构建不同的特征来捕捉关键信息中的局部和全局信息;S32、根据训练集中的特征和标签构建最大熵模型;S33、使用训练集中的数据对最大熵模型进行训练;S34、使用验证集对训练好的最大熵模型进行评估,并检验最大熵模型的能力;S35、将训练好的最大熵模型应用于关键词列表,通过最大熵模型预测各类命名实体及文本中的位置;S4、识别关键信息中描述实体信息的关键事件,构建业务知识树;S5、分析关键信息中关键事件之间的关联关系;S6、将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类,得到结构化数据;S7、利用文本相似度计算评估不同司法文书之间的相似程度,并通过检索引擎查找相关文书信息;S8、将结构化数据按照目录结构和分析结果进行整合,形成可视化报告。2.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法,其特征在于,所述识别关键信息中描述实体信息的关键事件,构建业务知识树包括以下步骤:S41、通过规则匹配,根据实体信息间的关系和上下文信息,识别出关键事件;S42、根据司法文书领域和需求,确定知识树的层级结构;S43、将关键事件按照预设的层级结构分类,并在每个层级内,将关键事件按照时间顺序、因果关系的逻辑关系进行排序;S44、将分类后的关键事件按照层级结构和逻辑顺序组织起来,形成完整的业务知识树。3.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法,其特征在于,所述分析关键信息中关键事件之间的关联关系包括以下步骤:S51、从业务知识树中提取各个层级的关键事件;S52、使用自然语言处理技术,分析文本数据中关键事件之间的关联关系;S53、将识别出的关联关系用图形或表格的形式进行可视化展示,以便更直观地理解关键事件之间的联系;
S54、根据关联关系的强度和方向,对业务知识树进行修正和优化,并不断更新和优化关键事件之间的关联关系分析。4.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法,其特征在于,所述将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类,得到结构化数据包括以下步骤:S61、文本数据中提取实体信息、关键事件和关联关系,将这些信息转换为特征向量;S62、根据实体信息、关键事件和关联关系的向量表示,计算对象的密度,并设定正数值作为密度半径;S63、按照密度大小,对对象空间进行网格划分;S64、观察每个网格中所有对象的密度分布并选择适当的初始聚类中心;S65、按照密度顺序...

【专利技术属性】
技术研发人员:王乐凯李嵩彭功仁陈宝龙周海龙周超陆佃杰
申请(专利权)人:北明成功软件山东有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1