基于复杂信息项数据的司法文书的结构化分析方法及系统技术方案

技术编号：38616120 阅读：13 留言：0更新日期：2023-08-26 23:43

本发明专利技术公开了基于复杂信息项数据的司法文书的结构化分析方法及系统，该方法包括以下步骤：对原始司法文书中文本数据进行数据清洗；对文本进行基础处理；从关键信息中提取案件相关的实体信息；识别关键信息中描述实体信息的关键事件；分析关键信息中关键事件之间的关联关系；将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类；评估不同司法文书之间的相似程度；将结构化数据整合，形成可视化报告。本发明专利技术将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据的过程中，利用改进K

全部详细技术资料下载

【技术实现步骤摘要】
基于复杂信息项数据的司法文书的结构化分析方法及系统

[0001]本专利技术属于检察领域，尤其是基于复杂信息项数据的司法文书的结构化分析方法及系统。

技术介绍

[0002]司法文书是指由司法机关制作的文书，包括判决书、裁定书、调解书等。它们记录了法院审理案件的过程和结果，是司法活动的重要产物。司法文书具有法律效力，对于当事人的权利和义务具有约束力。在司法实践中，司法文书扮演着非常重要的角色，是司法公正、透明的重要体现。
[0003]目前解析司法文书的方法主要有以下几种：1、传统的手工解析法：即采用人工阅读、理解、分析文书内容的方法，通过专业人员进行判断和归纳；2、基于机器学习或深度学习等技术，对司法文书进行自动分析、解析和抽取信息。这些技术能够识别文本中的实体和关系，以及提取出重要的信息和结论；3、将司法文书中的各个实体和关系构建成知识图谱，并进行可视化展示和查询。通过这种方式，可以更加直观地理解和分析司法文书中的内容。
[0004]上述方法中均可可以实现司法文书的解析，但是当司法文书中出现语言多样性、语义复杂性时，其单个方法的解决可能存在应用范围较窄，造成司法文书解析过程效率的低下。
[0005]在现有技术中，公开号为CN108197163A的中国专利公开了一种基于裁判文书的结构化处理方法，包括采用自然语言处理技术和高级机器学习技术，自动实现基于案由文本的关键词提取的案件类型分类，从而通过构建案件层次结构和设计的提取规则进行结构化处理，本专利技术通过相关词库的构建与扩展、裁判文书模块分割、设计...

【技术保护点】

【技术特征摘要】
1.基于复杂信息项数据的司法文书的结构化分析方法，其特征在于，该结构化分析方法包括以下步骤：S1、对原始司法文书中文本数据进行数据清洗；S2、基于深度学习算法和自然语言处理技术对文本进行基础处理，并提取关键信息；包括以下步骤：S21、使用分词工具将文本数据拆分成若干词汇，并为每个词汇分配一个词性标签；S22、选择BERT预训练模型并加载权值和配置文件；S23、将文本中的词汇输入到BERT预训练模型中，得到每个词汇的高维向量表示；S24、根据词汇的高维向量表示的相似性，将词汇进行初步聚类；S25、在每个聚类中，结合词性标签信息，挑选最具代表性且符合预期词性的词汇作为关键词，并生成关键词列表；S3、通过命名实体识别技术，从关键信息中提取案件相关的实体信息；包括以下步骤：S31、通过选择和构建不同的特征来捕捉关键信息中的局部和全局信息；S32、根据训练集中的特征和标签构建最大熵模型；S33、使用训练集中的数据对最大熵模型进行训练；S34、使用验证集对训练好的最大熵模型进行评估，并检验最大熵模型的能力；S35、将训练好的最大熵模型应用于关键词列表，通过最大熵模型预测各类命名实体及文本中的位置；S4、识别关键信息中描述实体信息的关键事件，构建业务知识树；S5、分析关键信息中关键事件之间的关联关系；S6、将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据；S7、利用文本相似度计算评估不同司法文书之间的相似程度，并通过检索引擎查找相关文书信息；S8、将结构化数据按照目录结构和分析结果进行整合，形成可视化报告。2.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法，其特征在于，所述识别关键信息中描述实体信息的关键事件，构建业务知识树包括以下步骤：S41、通过规则匹配，根据实体信息间的关系和上下文信息，识别出关键事件；S42、根据司法文书领域和需求，确定知识树的层级结构；S43、将关键事件按照预设的层级结构分类，并在每个层级内，将关键事件按照时间顺序、因果关系的逻辑关系进行排序；S44、将分类后的关键事件按照层级结构和逻辑顺序组织起来，形成完整的业务知识树。3.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法，其特征在于，所述分析关键信息中关键事件之间的关联关系包括以下步骤：S51、从业务知识树中提取各个层级的关键事件；S52、使用自然语言处理技术，分析文本数据中关键事件之间的关联关系；S53、将识别出的关联关系用图形或表格的形式进行可视化展示，以便更直观地理解关键事件之间的联系；
S54、根据关联关系的强度和方向，对业务知识树进行修正和优化，并不断更新和优化关键事件之间的关联关系分析。4.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法，其特征在于，所述将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类，得到结构化数据包括以下步骤：S61、文本数据中提取实体信息、关键事件和关联关系，将这些信息转换为特征向量；S62、根据实体信息、关键事件和关联关系的向量表示，计算对象的密度，并设定正数值作为密度半径；S63、按照密度大小，对对象空间进行网格划分；S64、观察每个网格中所有对象的密度分布并选择适当的初始聚类中心；S65、按照密度顺序...

【专利技术属性】
技术研发人员：王乐凯，李嵩，彭功仁，陈宝龙，周海龙，周超，陆佃杰，
申请(专利权)人：北明成功软件山东有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人