System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文书当事人属性提取方法及系统技术方案_技高网

一种文书当事人属性提取方法及系统技术方案

技术编号:45006361 阅读:2 留言:0更新日期:2025-04-15 17:22
本发明专利技术提供一种文书当事人属性提取方法及系统,属于数据提取技术领域,包括:根据当事人的类别对待提取文本进行分段处理,生成多个文本段落;从每个文本段落中提取与当事人相关的多个第一目标信息;将每个第一目标信息与预设数据规范进行比对,根据比对结果将所有第一目标信息分为符合预设数据规范的第二目标信息和不符合预设数据规范的第三目标信息;对每个第三目标信息进行修正,生成符合预设数据规范的第四目标信息;将每个第二目标信息和每个第四目标信息作为对应当事人属性的具体属性值进行输出。本发明专利技术通过将非结构化法律文书中的当事人属性信息高效转化为结构化、规范化的输出结果,从而有效提升提取当事人属性的准确性以及规范性。

【技术实现步骤摘要】

本专利技术涉及数据提取,尤其涉及一种文书当事人属性提取方法及系统


技术介绍

1、随着信息技术的发展,大量法律文书和相关文本材料以非结构化形式存储,其中包含的当事人信息对于案件分析、数据归档和自动化处理具有重要价值。

2、然而,现有技术在处理这些非结构化文本时,普遍采用基于关键字匹配、简单规则过滤或预定义模板的方式进行当事人的属性提取。这些方法依赖于人工设定的规则和特定格式,对于格式化程度较低或文本多样性较强的文书内容,往往无法有效提取出准确以及规范的当事人属性信息。

3、因此,如何提升提取当事人属性的准确性以及规范性,成为亟需解决的技术问题。


技术实现思路

1、本专利技术提供一种文书当事人属性提取方法、系统、电子设备及存储介质,用以解决现有技术中的缺陷,实现提升提取当事人属性的准确性以及规范性。

2、本专利技术提供一种文书当事人属性提取方法,包括如下步骤:

3、根据当事人的类别对待提取文本进行分段处理,生成多个文本段落;每个所述文本段落仅包括一个当事人;

4、从每个所述文本段落中提取与当事人相关的多个第一目标信息;每个所述第一目标信息仅对应一种当事人属性;

5、将每个所述第一目标信息与预设数据规范进行比对,根据比对结果将所有所述第一目标信息分为符合预设数据规范的第二目标信息和不符合预设数据规范的第三目标信息;

6、根据每种当事人属性对应的预设修正方法,对每个所述第三目标信息进行修正,生成符合预设数据规范的第四目标信息;

7、将每个所述第二目标信息和每个所述第四目标信息作为对应当事人属性的具体属性值进行输出。

8、根据本专利技术提供的一种文书当事人属性提取方法,每个所述第一目标信息仅对应一种第一数据类型,所述第一数据类型包括文本类型;所述将每个所述第一目标信息与预设数据规范进行比对,具体包括:

9、从每个文本类型的第一目标信息中提取至少一个与当事人属性相关的实际文本特征;

10、当判定任意一个所述实际文本特征与预设文本特征规范的表述形式不一致时,生成不符合预设数据规范的比对结果;

11、当判定全部所述实际文本特征均与预设文本特征规范的表述形式一致时,生成符合预设数据规范的比对结果。

12、根据本专利技术提供的一种文书当事人属性提取方法,每个所述第一目标信息仅对应一种第一数据类型,所述第一数据类型还包括数值类型;所述将每个所述第一目标信息与预设数据规范进行比对,具体还包括:

13、从每个数值类型的第一目标信息中提取至少一个实际数值特征;

14、根据每种当事人属性对应的预设数值特征数量,确定每个所述第一目标信息对应的目标数值特征数量;

15、当判定所述实际数值特征的数量与对应的目标数值特征数量不一致时,生成不符合预设数据规范的比对结果;

16、当判定所述实际数值特征的数量与对应的目标数值特征数量一致时,生成符合预设数据规范的比对结果。

17、根据本专利技术提供的一种文书当事人属性提取方法,所述从每个所述文本段落中提取与当事人相关的多个第一目标信息,具体包括:

18、通过正则表达式取值、nlp实体分类或字典值匹配中的至少一种方式,从每个所述文本段落中提取多个初始信息;

19、根据预设数据筛选方法,从所有所述初始信息中筛选出多个所述第一目标信息。

20、根据本专利技术提供的一种文书当事人属性提取方法,所述方法还包括:

21、通过json格式对每个所述当事人属性和每个所述当事人属性的具体属性值进行多层结构化封装,并进行存储。

22、根据本专利技术提供的一种文书当事人属性提取方法,在所述根据当事人的类别对待提取文本进行分段处理,生成多个文本段落之前,所述方法还包括:

23、从至少一个数据源中获取目标数据材料;

24、根据每个所述目标数据材料对应的第二数据类型,确定每个所述目标数据材料对应的数据提取方式,并基于所述数据提取方式从每个所述目标数据材料中提取初始文本;

25、对所述初始文本进行清洗,去除其中乱码、无关文字、无关符号以及错误的重复文字,生成所述待提取文本。

26、本专利技术还提供一种文书当事人属性提取系统,包括如下模块:

27、文本分段模块,用于根据当事人的类别对待提取文本进行分段处理,生成多个文本段落;每个所述文本段落仅包括一个当事人;

28、处理模块,用于从每个所述文本段落中提取与当事人相关的多个第一目标信息;每个所述第一目标信息仅对应一种当事人属性;

29、处理模块,还用于将每个所述第一目标信息与预设数据规范进行比对,根据比对结果将所有所述第一目标信息分为符合预设数据规范的第二目标信息和不符合预设数据规范的第三目标信息;

30、处理模块,还用于根据每种当事人属性对应的预设修正方法,对每个所述第三目标信息进行修正,生成符合预设数据规范的第四目标信息;

31、输出模块,用于将每个所述第二目标信息和每个所述第四目标信息作为对应当事人属性的具体属性值进行输出。

32、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文书当事人属性提取方法。

33、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文书当事人属性提取方法。

34、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文书当事人属性提取方法。

35、综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

36、通过根据当事人的类别对待提取文本进行分段处理,生成多个文本段落,每个文本段落仅包括一个当事人,从而实现了文本的初步结构化处理,明确了段落与当事人之间的对应关系,避免了多个当事人信息交叉混淆的问题。这种分段方案为后续的信息提取奠定了良好的基础,使得系统能够在较为独立的语义环境中高效提取相关数据,提升了处理的准确性。

37、通过从每个文本段落中提取与当事人相关的多个第一目标信息,并确保每个第一目标信息仅对应一种当事人属性,从而实现了属性信息的精准提取和分类,避免了属性混淆带来的冗余和误判问题。

38、通过将每个第一目标信息与预设数据规范进行比对,并根据比对结果将所有第一目标信息分为符合预设数据规范的第二目标信息和不符合预设数据规范的第三目标信息,从而有效筛选出符合标准的规范化数据,同时将不符合规范的数据进行隔离,为后续修正提供了明确的目标。通过根据每种当事人属性对应的预设修正方法,对每个第三目标信息进行修正,生成符合预设数据规范的第四目标信息,从而对提取过程中存在错误或不一致的属性信息进行了有效处理,确保了数据的完整性本文档来自技高网...

【技术保护点】

1.一种文书当事人属性提取方法,其特征在于,包括:

2.根据权利要求1所述的文书当事人属性提取方法,其特征在于,每个所述第一目标信息仅对应一种第一数据类型,所述第一数据类型包括文本类型;所述将每个所述第一目标信息与预设数据规范进行比对,具体包括:

3.根据权利要求1所述的文书当事人属性提取方法,其特征在于,每个所述第一目标信息仅对应一种第一数据类型,所述第一数据类型还包括数值类型;所述将每个所述第一目标信息与预设数据规范进行比对,具体还包括:

4.根据权利要求1所述的文书当事人属性提取方法,其特征在于,所述从每个所述文本段落中提取与当事人相关的多个第一目标信息,具体包括:

5.根据权利要求1所述的文书当事人属性提取方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的文书当事人属性提取方法,其特征在于,在所述根据当事人的类别对待提取文本进行分段处理,生成多个文本段落之前,所述方法还包括:

7.一种文书当事人属性提取系统,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述文书当事人属性提取方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述文书当事人属性提取方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述文书当事人属性提取方法。

...

【技术特征摘要】

1.一种文书当事人属性提取方法,其特征在于,包括:

2.根据权利要求1所述的文书当事人属性提取方法,其特征在于,每个所述第一目标信息仅对应一种第一数据类型,所述第一数据类型包括文本类型;所述将每个所述第一目标信息与预设数据规范进行比对,具体包括:

3.根据权利要求1所述的文书当事人属性提取方法,其特征在于,每个所述第一目标信息仅对应一种第一数据类型,所述第一数据类型还包括数值类型;所述将每个所述第一目标信息与预设数据规范进行比对,具体还包括:

4.根据权利要求1所述的文书当事人属性提取方法,其特征在于,所述从每个所述文本段落中提取与当事人相关的多个第一目标信息,具体包括:

5.根据权利要求1所述的文书当事人属性提取方法,其特征在于,所述方法还包括:

6....

【专利技术属性】
技术研发人员:徐徽刘文佳卫东雷
申请(专利权)人:北京华夏电通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1