System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据结构化方法、装置、电子设备及存储介质制造方法及图纸_技高网

数据结构化方法、装置、电子设备及存储介质制造方法及图纸

技术编号:42756508 阅读:1 留言:0更新日期:2024-09-18 13:44
本公开涉及大数据技术领域,尤其涉及数据结构化方法、装置、电子设备及存储介质。具体实现方案为:获取原始数据;其中,原始数据包括多个层级的实体信息;根据实体信息之间的层级关系,抽取多个层级对应的实体信息;将所有层级对应的实体信息进行融合,生成结构化数据。本公开通过这种多层级的实体抽取方式,基于实体之间的层级关系逐层抽取实体信息,抽取实体更为准确,不容易出错,生成的结构化数据的结构更为清晰,可以更好地应对复杂多层级的数据,便于后续管理和运用数据。

【技术实现步骤摘要】

本公开涉及大数据,尤其涉及数据结构化方法、装置、电子设备及存储介质


技术介绍

1、结构化数据是指具有固定格式和规则的数据,通常以表格、树状结构或关系模型的形式呈现。结构化数据通常具有明确的数据类型和字段,可以进行数据建模和数据分析等操作。结构化数据的常见形式包括关系型数据库中的表格、xml文档、csv文件、json数据等。

2、现有技术中通常采用规则匹配或模型方法对数据进行结构化处理。其中,规则匹配方法是指预先定义好相应的结构化数据模板,根据文本的特点和目标信息的位置,使用正则表达式进行匹配,提取对应的信息。而由于某些领域数据形式的多样性以及数据量庞大,采用规则匹配方法进行结构化所需的规则较多,对数据格式要求也较高,很难适用于处理复杂数据。此外,模型结构化方法是通过训练好的自然语言处理模型,识别和抽取文本中的实体和实体关系。而现有的模型方法仅支持抽取同一层级的实体,无法抽取有前后依赖关系的实体,无法处理复杂数据。


技术实现思路

1、本公开提供了一种数据结构化方法、装置、电子设备及存储介质。

2、根据本公开的第一方面,提供了一种数据结构化方法,包括:

3、获取原始数据;其中,所述原始数据包括多个层级的实体信息;

4、根据所述实体信息之间的层级关系,抽取多个层级对应的所述实体信息;

5、将所有层级对应的所述实体信息进行融合,生成结构化数据。

6、根据本公开的第二方面,提供了一种模型训练方法,包括:

7、获取正样本和负样本;其中,所述正样本包括多个层级的实体信息,所述负样本缺少多个层级的所述实体信息中的至少一个层级的所述实体信息;

8、将所述正样本和所述负样本输入自然语言处理模型,对所述自然语言处理模型进行训练,得到应用于上述技术方案中任意一项所述的数据结构化方法的实体识别模型。

9、根据本公开的第三方面,提供了一种数据结构化装置,包括:

10、数据获取模块,被配置为获取原始数据;其中,所述原始数据包括多个层级的实体信息;

11、信息抽取模块,被配置为根据所述实体信息之间的层级关系,抽取多个层级对应的所述实体信息;

12、信息融合模块,被配置为将所有层级对应的所述实体信息进行融合,生成结构化数据。

13、根据本公开的第四方面,提供了一种模型训练装置,包括:

14、样本获取模块,被配置为获取正样本和负样本;其中,所述正样本包括多个层级的实体信息,所述负样本缺少多个层级的所述实体信息中的至少一个层级的所述实体信息;

15、训练模块,被配置为将所述正样本和所述负样本输入自然语言处理模型,对所述自然语言处理模型进行训练,得到应用于上述技术方案中任意一项所述的数据结构化方法的实体识别模型。

16、根据本公开的第五方面,提供了一种电子设备,包括:

17、至少一个处理器;以及

18、与所述至少一个处理器通信连接的存储器;其中,

19、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述技术方案中任一项所述的方法。

20、根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述技术方案中任一项所述的方法。

21、根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述技术方案中任一项所述的方法。

22、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种数据结构化方法,包括:

2.根据权利要求1所述的方法,其中,所述获取原始数据之后,还包括:

3.根据权利要求2所述的方法,其中,所述对所述原始数据中的各所述实体信息进行定位,并标记每个所述实体信息对应的类别包括:

4.根据权利要求2所述的方法,其中,所述类别包括以下至少一项:处罚主体;处罚日期;处罚文号;处罚结果;处罚依据;处罚案由;处罚机构。

5.根据权利要求1-4中任意一项所述的方法,其中,所述根据所述实体信息之间的层级关系,抽取多个层级对应的所述实体信息之前,还包括:

6.根据权利要求5所述的方法,其中,所述根据所述实体信息之间的层级关系,抽取多个层级对应的所述实体信息包括:

7.根据权利要求1-6中任意一项所述的方法,其中,所述将所有层级对应的所述实体信息进行融合,生成结构化数据包括:

8.一种模型训练方法,包括:

9.一种数据结构化装置,包括:

10.一种模型训练装置,包括:

11.一种电子设备,包括:

12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种数据结构化方法,包括:

2.根据权利要求1所述的方法,其中,所述获取原始数据之后,还包括:

3.根据权利要求2所述的方法,其中,所述对所述原始数据中的各所述实体信息进行定位,并标记每个所述实体信息对应的类别包括:

4.根据权利要求2所述的方法,其中,所述类别包括以下至少一项:处罚主体;处罚日期;处罚文号;处罚结果;处罚依据;处罚案由;处罚机构。

5.根据权利要求1-4中任意一项所述的方法,其中,所述根据所述实体信息之间的层级关系,抽取多个层级对应的所述实体信息之前,还包括:

6.根据权利要求5所述的方法,其中,所述根据所述实体信息之间的层级...

【专利技术属性】
技术研发人员:刘瑗靳生龙
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1