一种裁判文书结构化方法及装置制造方法及图纸

技术编号:24497899 阅读:46 留言:0更新日期:2020-06-13 03:47
本申请提供了一种裁判文书结构化方法及装置,首先,利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,然后,利用特征模型从所述第一结构化文本的指定块文本中确定目标块文本,并利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本。最后,利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。可见,本申请所提供的裁判文书结构化方法可以通过对第一结构化文本进一步抽取和分类,得到更加细化的第二结构化文本,从而可以更完整地展示待处理裁判文书的内容。

A structural method and device of judgment document

【技术实现步骤摘要】
一种裁判文书结构化方法及装置
本申请涉及文本处理
,尤其涉及一种裁判文书结构化方法及装置。
技术介绍
通常,裁判文书等一类的法律文件的内容较为冗长,而且用词较为晦涩难懂,令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且,用户在浏览裁判文书的过程中,通常会需要浏览一些类案,即与当前裁判文书相类似的案件对应的裁判文书,以帮助理解和类比当前裁判文书。对于一些比较特殊的裁判文书,例如民事裁判文书,有一些隐含信息需要在浏览全部文本信息的基础上,有针对性地从文本信息的部分信息中提炼获得。针对此类裁判文书,用户浏览一篇裁判文书已经比较困难,要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难,不仅会浪费大量时间,而且也未必能够准确找到相似度最高的裁判文书。具体地,例如用户需要从裁判文书中查找与争议焦点相关的内容,则需要从裁判文书的首个字符开始浏览,在了解裁判文书所阐述的各部分内容之后,判断争议焦点可能出现的部分内容,进一步提炼和分析该部分内容以获得争议焦点相关的内容。但是,这种通过人工分析裁判文书的结构,进而获取结果的方式不仅费时,而且会受到学识、思维等不定因素的影响,极易导致所获取的结果准确性较低,不具有参考价值。可见,现有浏览裁判文书的方式效率和质量较低。
技术实现思路
本申请提供了一种裁判文书结构化方法及装置,以提高裁判文书的格式规范性,方便用户浏览。第一方面,本申请提供了一种裁判文书结构化方法,所述方法包括:利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;利用特征模型从所述第一结构化文本的指定块文本中确定目标块文本;利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述目标块文本中对应的子文本组成;利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。第二方面,本申请提供了一种裁判文书结构化装置,所述装置包括:第一抽取单元,用于利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;目标块文本确定单元,用于利用特征模型从所述第一结构化文本的指定块文本中确定目标块文本;第二抽取单元,用于利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述目标块文本中对应的子文本组成;更新单元,用于利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。由以上技术可知,本申请提供了一种裁判文书结构化方法及装置,首先,利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,然后,利用特征模型从所述第一结构化文本的指定块文本中确定目标块文本,并利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本。最后,利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。可见,本申请所提供的裁判文书结构化方法可以通过对第一结构化文本进一步抽取和分类,得到更加细化的第二结构化文本,从而可以更完整地展示待处理裁判文书的内容。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种裁判文书结构化方法的流程图;图2为本申请实施例提供的一种抽取第一结构化文本的方法的流程图;图3为本申请实施例提供的一种确定指定块文本的方法的流程图;图4为本申请实施例提供的一种确定目标块文本的方法的流程图;图5为本申请实施例提供的一种建立第二抽取模板的方法的流程图;图6为本申请实施例提供的一种生成子结构化文本的方法的流程图;图7为本申请实施例提供的一种更新第一结构化文本的方法的流程图;图8本申请实施例还提供了一种裁判文书结构化装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。通常,裁判文书等一类的法律文件的内容较为冗长,而且用词较为晦涩难懂,令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且,用户在浏览裁判文书的过程中,通常会需要浏览一些类案,即与当前裁判文书相类似的案件对应的裁判文书,以帮助理解和类比当前裁判文书。对于一些比较特殊的裁判文书,例如民事裁判文书,有一些隐含信息需要在浏览全部文本信息的基础上,有针对性地从文本信息的部分信息中提炼获得。针对此类裁判文书,用户浏览一篇裁判文书已经比较困难,要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难,不仅会浪费大量时间,而且也未必能够准确找到相似度最高的裁判文书。具体地,例如用户需要从裁判文书中查找与争议焦点相关的内容,则需要从裁判文书的首个字符开始浏览,在了解裁判文书所阐述的各部分内容之后,判断争议焦点可能出现的部分内容,进一步提炼和分析该部分内容以获得争议焦点相关的内容。但是,这种通过人工分析裁判文书的结构,进而获取结果的方式不仅费时,而且会受到学识、思维等不定因素的影响,极易导致所获取的结果准确性较低,不具有参考价值。可见,现有浏览裁判文书的方式效率和质量较低。为了解决上述问题,本申请提供了一种裁判文书结构化方法及装置,以将裁判文本形成结构化文本,以使用户可以快速确定自己在裁判文书中所需的内容。图1为本申请实施例提供的一种裁判文书结构化方法的流程图,如图1所示,所述方法包括:S1、利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成。将待处理裁判文书录入进裁判文书结构化装置中,其中,裁判文书结构化装置可以为服务器、PC(个人电脑)、平板电脑、手机等多种文本处理设备。其中,待处理裁判文书可以为民事案件中的各审判决书等。裁判文书结构化装置在接收到待处理裁判文书之后,需要对该待处理裁判文书进行预处理,确定需要进行结构化的文本,例如,录入至裁判文书结构化装置中的待处理裁判文书包括刑事一审判决书,刑事二审判决书和刑事终审判决书,但是,目前只需要对民事一审判决书进行结构化,此时就需要通过预处理将民事一审判决书的文本提取出来,通常可以通过匹配待处理裁判文书中的文件标题或者文档标题,确定需要结构化的待处理裁判文书。其中,块文本为待处理裁判文书中与第一抽取模板中各抽取节点相本文档来自技高网...

【技术保护点】
1.一种裁判文书结构化方法,其特征在于,所述方法包括:/n利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;/n利用特征模型从所述第一结构化文本的指定块文本中确定目标块文本;/n利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述目标块文本中对应的子文本组成;/n利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。/n

【技术特征摘要】
1.一种裁判文书结构化方法,其特征在于,所述方法包括:
利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;
利用特征模型从所述第一结构化文本的指定块文本中确定目标块文本;
利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述目标块文本中对应的子文本组成;
利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。


2.根据权利要求1所述的方法,其特征在于,所述利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本包括:
按照第一抽取模板中每一抽取节点,确定待处理裁判文书中的节点字符,所述抽取节点为与所述待处理裁判文书中各部分内容具有对应关系的字符串,所述节点字符为所述待处理裁判文书中与所述抽取节点相对应的部分内容的起始字符;
确定每一所述抽取节点对应的块文本,所述块文本为从所述抽取节点对应的节点字符起到下一节点字符之间的全部字符;
将每一所述抽取节点与所述块文本相对应,生成第一结构化文本。


3.根据权利要求1所述的方法,其特征在于,所述利用特征模型从所述第一结构化文本的指定块文本中确定目标块文本之前包括:
获取第一参考样本,所述第一参考样本具有与所述第一结构化文本相同的文本结构;
获取所述特征模型对应的待抽取特征;
确定所述待抽取特征在每一所述第一参考样本中对应的特征块文本;
汇总对应同一所述待抽取特征的特征块文本的数量;
确定指定块文本,所述指定块文本为所述数量与所述参考样本的总数量的比值大于或者等于预设阈值的所述数量对应的所述特征块文本。


4.根据权利要求1所述的方法,其特征在于,所述利用特征模型从所述第一结构化文本的指定块文本中确定目标块文本包括:
利用所述特征模型中的每一特征表达式匹配所述指定块文本,得到每一指定块文本中的特征字符串;
确定目标块文本,所述目标块文本为所述特征字符串起到预设终止符号之间的全部字符。


5.根据权利要求1所述的方法,其特征在于,所述利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本之前包括:
获取第二参考样本,所述第二参考样本与所述目标块文本具有相同的内容类别;
按照预设文本分类规则,将每一所述第二参考样本划分为样本块文本;
针对每一所述样本块文本设定一个分类标签;
结合同一所述第二参考样本的全部分类标签,生成对应的...

【专利技术属性】
技术研发人员:席丽娜王文军刘大双
申请(专利权)人:中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1