本申请公开了裁判文书的信息抽取方法及装置,首先从裁判文书中获取至少一个包含目标文书要素的目标区块,每个目标区块对应一个内容主题;然后根据目标区块对应的内容主题选择目标区块对应的要素树,所述要素树包括至少一个要素节点和要素节点对应的抽取规则;再利用要素树从目标区块中抽取至少一个目标文书要素。本申请方法及装置可以从裁判文书中自动化抽取出基本的文书要素,进而实现对裁判文书的全面了解。
Information extraction method and device of judgment document
【技术实现步骤摘要】
裁判文书的信息抽取方法及装置
本申请涉及文本处理
,尤其涉及一种裁判文书的信息抽取方法及装置。
技术介绍
裁判文书是记载人民法院审理过程和结果等诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的唯一凭证。裁判文书通常具有规律的结构框架和编写格式,对于不同类型的裁判文书,其结构框架和编写格式可能略微不同。常见的文书类型包括民事裁判文书(如民事判决书),刑事裁判文书(如刑事判决书),行政裁判文书(如行政判决书),以及其他通用诉讼文书等。由于裁判文书中记载有审理过程和结果等重要信息,这些信息具有重要的分析和关注的价值,例如根据这些信息进行类案分析、案件检索等,因此从裁判文书中抽取出有价值的信息(即文书要素)成为相关领域内从业人士的基本需求。现有的从裁判文书中抽取信息的技术,直接以裁判文书篇章内容作为分析目标,并且只能从裁判文书中获取单一或部分的指定信息,例如判决结果,而无法自动结构化出全面的案情要素信息,因此取得的效果事倍功半。因此,为了能够全面了解裁判文书的内容,如何从裁判文书中,抽取完整的文书要素,成为本领域技术人员亟待解决的技术问题。
技术实现思路
本申请提供一种裁判文书的信息抽取方法及装置,以解决如何从裁判文书中,抽取完整的文书要素的问题。第一方面,本申请提供一种一种裁判文书的信息抽取方法,所述方法包括:从裁判文书中获取至少一个包含目标文书要素的目标区块,每个所述目标区块对应一个内容主题;根据所述目标区块对应的内容主题选择所述目标区块对应的要素树,所述要素树包括至少一个要素节点和所述要素节点对应的抽取规则;利用所述要素树从所述目标区块中抽取至少一个目标文书要素,每个所述目标文书要素与一个所述要素节点对应。第二方面,本申请还提供一种裁判文书的信息抽取装置,所述装置包括:获取模块,用于从裁判文书中获取至少一个包含目标文书要素的目标区块,每个所述目标区块对应一个内容主题;选择模块,用于根据所述目标区块对应的内容主题选择所述目标区块对应的要素树,所述要素树包括至少一个要素节点和所述要素节点对应的抽取规则;抽取模块,用于利用所述要素树从所述目标区块中抽取至少一个目标文书要素,每个所述目标文书要素与一个所述要素节点对应。由以上技术方案可知,本申请实施例提供一种裁判文书的信息抽取方法及装置,首先从裁判文书中获取至少一个包含目标文书要素的目标区块,每个目标区块对应一个内容主题;然后根据目标区块对应的内容主题选择目标区块对应的要素树,所述要素树包括至少一个要素节点和要素节点对应的抽取规则;再利用要素树从目标区块中抽取至少一个目标文书要素。本申请方法可以从裁判文书中自动化抽取出基本的文书要素,进而实现对裁判文书的全面了解。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请根据一示例性实施例示出的裁判文书的信息抽取方法流程图;图2为图1所示实施例中的步骤100的细化流程示意图;图3为本申请根据一示例性实施例示出的裁判文书的信息抽取装置框图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。在司法领域中,裁判文书是用于记载人民法院审理过程和结果等诉讼活动结果的专用文书,通常具有统一的结构组成和编写格式。本申请涉及的裁判文书包括但不限于民事判决书和刑事判决书。由于裁判文书中记载有审理过程和结果等重要信息,这些信息具有重要的分析和关注的价值,因此可以通过从裁判文书中抽取出有价值的信息来全面了解裁判文书。例如,了解案件类型、案号、审理法院名称、审理法院层级、地域、合议庭成员以及诸如受理时间、审理时间的时间要素等基本的文书要素。本申请实施例提供一种裁判文书的信息抽取方法,适用于对裁判文书中基本的文书要素进行抽取,实现对裁判文书的自动结构化。图1为本申请根据一示例性实施例示出的裁判文书的信息抽取方法流程图。如图1所示,该方法可以包括:步骤100,从裁判文书中获取至少一个包含目标文书要素的目标区块,每个所述目标区块对应一个内容主题。如前所述,裁判文书具有统一的结构组成和编写格式,每一部分组成(即文本区块)都对应一个内容主题,用于表征每一部分所涵盖内容的主旨。以《刑事判决书》为例,《刑事判决书》由头部信息、当事人信息、审理经过、诉讼方请求、被诉讼方辩解、争议焦点、证据目录、审理查明、法院观点、判决结果和尾部信息组成,前述每一主题对应的组成部分都具有特定的编写格式或者叙述方式,且每个组成部分都含有既定要素,例如头部信息必然包含“审理法院名称”、“案号”等等。现有技术是以裁判文书全文为分析目标,从中抽取单一或部分的文书要素,但是这种抽取方法不但容易提高分析计算复杂度,耗费大量不必要的计算资源,而且当裁判文书中存在多个类似的文书要素时,这些类似的文书要素会对抽取目标文书要素造成干扰,降低抽取结果的准确性。例如,若要抽取的目标文书要素为“受理时间”,文书中的“审判时间”或者“案发时间”容易与“受理时间”产生混淆。为了避免上述问题,本申请利用裁判文书具有规律的结构组成且每个组成部分涵盖既定要素的特点,对待处理的裁判文书进行切块处理,并从切得的至少一个文本区块中选择包含目标文书要素的目标区块作为分析目标,从目标区块中抽取目标文书要素,以提高抽取结果的准确性。图2为图1所示实施例中的步骤100的细化流程示意图,如图2所示,本申请实施例使用目录树从裁判文书中获取至少一个包含目标文书要素的目标区块,具体可以包括:步骤110,获取所述裁判文书的文书类型。本申请中,裁判文书的文书类型包括文件类型,如判决书、裁定书、决定书等,还可以包括案件类型,如刑事、民事、行政等。对于不同文书类型的裁判文书,其结构组成可能略有差别,因此需要获取待处理的裁判文书的文书类型,以根据文书类型使用不同结构的目录树对其进行处理。具体实现时,首先从裁判文书中获取文书名称,然后从文书名称中抽取类型关键词,不同的类型关键词表征不同的文书类型。由于裁判文书具有统一的撰写格式,而能够表征文书类型的文书名称记载在裁判文书的特定位置,例如上述《刑事判决书》中“刑事判决书”记载在第二行,因此可以在裁判文书的指定位置处获取文书名称。另外,为了能够从文书名称中抽取出类型关键词,可以预先设置类型关键词集,再将类型关键词集中的类型关键词与文书名称进行匹配,根据匹配结果从文书名称中抽取类型关键词。例如,当在文书名称中匹配到“民事”和“判决”时,确定文书类型为民事判决书本文档来自技高网...
【技术保护点】
1.一种裁判文书的信息抽取方法,其特征在于,所述方法包括:/n从裁判文书中获取至少一个包含目标文书要素的目标区块,每个所述目标区块对应一个内容主题;/n根据所述目标区块对应的内容主题选择所述目标区块对应的要素树,所述要素树包括至少一个要素节点和所述要素节点对应的抽取规则;/n利用所述要素树从所述目标区块中抽取至少一个目标文书要素,每个所述目标文书要素与一个所述要素节点对应。/n
【技术特征摘要】
1.一种裁判文书的信息抽取方法,其特征在于,所述方法包括:
从裁判文书中获取至少一个包含目标文书要素的目标区块,每个所述目标区块对应一个内容主题;
根据所述目标区块对应的内容主题选择所述目标区块对应的要素树,所述要素树包括至少一个要素节点和所述要素节点对应的抽取规则;
利用所述要素树从所述目标区块中抽取至少一个目标文书要素,每个所述目标文书要素与一个所述要素节点对应。
2.根据权利要求1所述的方法,其特征在于,所述要素节点对应的抽取规则包括前置定位规则和后置定位规则;
所述利用要素树从目标区块中抽取目标文书要素,包括:
利用所述前置定位规则确定所述目标文书要素在所述目标区块中的起始位置;
利用所述后置定位规则确定所述目标文书要素在所述目标区块中的结束位置;
抽取所述起始位置与所述结束位置之间的文本信息,以获得所述目标文书要素。
3.根据权利要求2所述的方法,其特征在于,所述利用前置定位规则确定所述目标文书要素在所述目标区块中的起始位置,包括:
利用所述前置定位规则识别所述目标文书要素的前置定位信息;
根据所述前置定位信息确定所述目标文书要素在所述目标区块中的起始位置。
4.根据权利要求2所述的方法,其特征在于,所述利用后置定位规则确定所述目标文书要素在所述目标区块中的结束位置,包括:
利用所述后置定位规则识别所述目标文书要素的后置定位信息;
根据所述后置定位信息确定所述目标文书要素在所述目标区块中的结束位置。
5.根据权利要求1所述的方法,其特征在于,所述要素节点对应的抽取规则包括至少一个时间抽取表达式;
所述利用要素树从目标区块中抽取目标文书要素,包括:
利用所述时间抽取表达式从所述目标区块抽取至少一个时间要素。
6.根据权利要求1所述的方法,其特征在于,所述要素节点对应的抽取规则包括后置处理规则和至少一个时间抽取表达式;
所述利用要素树从目标区块中抽取目标文书要素,包括:...
【专利技术属性】
技术研发人员:席丽娜,王文军,李德彦,
申请(专利权)人:中科鼎富北京科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。