【技术实现步骤摘要】
基于复杂信息项数据的司法文书的结构化分析方法及系统
[0001]本专利技术属于检察领域,尤其是基于复杂信息项数据的司法文书的结构化分析方法及系统。
技术介绍
[0002]司法文书是指由司法机关制作的文书,包括判决书、裁定书、调解书等。它们记录了法院审理案件的过程和结果,是司法活动的重要产物。司法文书具有法律效力,对于当事人的权利和义务具有约束力。在司法实践中,司法文书扮演着非常重要的角色,是司法公正、透明的重要体现。
[0003]目前解析司法文书的方法主要有以下几种:1、传统的手工解析法:即采用人工阅读、理解、分析文书内容的方法,通过专业人员进行判断和归纳;2、基于机器学习或深度学习等技术,对司法文书进行自动分析、解析和抽取信息。这些技术能够识别文本中的实体和关系,以及提取出重要的信息和结论;3、将司法文书中的各个实体和关系构建成知识图谱,并进行可视化展示和查询。通过这种方式,可以更加直观地理解和分析司法文书中的内容。
[0004]上述方法中均可可以实现司法文书的解析,但是当司法文书中出现语言多样性、语义复杂性时,其单个方法的解决可能存在应用范围较窄,造成司法文书解析过程效率的低下。
[0005]在现有技术中,公开号为CN108197163A的中国专利公开了一种基于裁判文书的结构化处理方法,包括采用自然语言处理技术和高级机器学习技术,自动实现基于案由文本的关键词提取的案件类型分类,从而通过构建案件层次结构和设计的提取规则进行结构化处理,本专利技术通过相关词库的构建与扩展、裁判文书模块分割、设计 ...
【技术保护点】
【技术特征摘要】
1.基于复杂信息项数据的司法文书的结构化分析方法,其特征在于,该结构化分析方法包括以下步骤:S1、对原始司法文书中文本数据进行数据清洗;S2、基于深度学习算法和自然语言处理技术对文本进行基础处理,并提取关键信息;包括以下步骤:S21、使用分词工具将文本数据拆分成若干词汇,并为每个词汇分配一个词性标签;S22、选择BERT预训练模型并加载权值和配置文件;S23、将文本中的词汇输入到BERT预训练模型中,得到每个词汇的高维向量表示;S24、根据词汇的高维向量表示的相似性,将词汇进行初步聚类;S25、在每个聚类中,结合词性标签信息,挑选最具代表性且符合预期词性的词汇作为关键词,并生成关键词列表;S3、通过命名实体识别技术,从关键信息中提取案件相关的实体信息;包括以下步骤:S31、通过选择和构建不同的特征来捕捉关键信息中的局部和全局信息;S32、根据训练集中的特征和标签构建最大熵模型;S33、使用训练集中的数据对最大熵模型进行训练;S34、使用验证集对训练好的最大熵模型进行评估,并检验最大熵模型的能力;S35、将训练好的最大熵模型应用于关键词列表,通过最大熵模型预测各类命名实体及文本中的位置;S4、识别关键信息中描述实体信息的关键事件,构建业务知识树;S5、分析关键信息中关键事件之间的关联关系;S6、将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类,得到结构化数据;S7、利用文本相似度计算评估不同司法文书之间的相似程度,并通过检索引擎查找相关文书信息;S8、将结构化数据按照目录结构和分析结果进行整合,形成可视化报告。2.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法,其特征在于,所述识别关键信息中描述实体信息的关键事件,构建业务知识树包括以下步骤:S41、通过规则匹配,根据实体信息间的关系和上下文信息,识别出关键事件;S42、根据司法文书领域和需求,确定知识树的层级结构;S43、将关键事件按照预设的层级结构分类,并在每个层级内,将关键事件按照时间顺序、因果关系的逻辑关系进行排序;S44、将分类后的关键事件按照层级结构和逻辑顺序组织起来,形成完整的业务知识树。3.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法,其特征在于,所述分析关键信息中关键事件之间的关联关系包括以下步骤:S51、从业务知识树中提取各个层级的关键事件;S52、使用自然语言处理技术,分析文本数据中关键事件之间的关联关系;S53、将识别出的关联关系用图形或表格的形式进行可视化展示,以便更直观地理解关键事件之间的联系;
S54、根据关联关系的强度和方向,对业务知识树进行修正和优化,并不断更新和优化关键事件之间的关联关系分析。4.根据权利要求1所述的基于复杂信息项数据的司法文书的结构化分析方法,其特征在于,所述将提取的实体信息、关键事件及关联关系按照设定的分类体系进行归类,得到结构化数据包括以下步骤:S61、文本数据中提取实体信息、关键事件和关联关系,将这些信息转换为特征向量;S62、根据实体信息、关键事件和关联关系的向量表示,计算对象的密度,并设定正数值作为密度半径;S63、按照密度大小,对对象空间进行网格划分;S64、观察每个网格中所有对象的密度分布并选择适当的初始聚类中心;S65、按照密度顺序...
【专利技术属性】
技术研发人员:王乐凯,李嵩,彭功仁,陈宝龙,周海龙,周超,陆佃杰,
申请(专利权)人:北明成功软件山东有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。