半结构化数据规范处理方法、存储介质及设备技术

技术编号:33086951 阅读:49 留言:0更新日期:2022-04-15 10:52
本发明专利技术公开一种半结构化数据规范处理方法,包括:S1、根据业务实体,配置实体模型;S2、分析获取到的文本文件,识别出含有半结构化数据的内容;S3、通过解释数据转化为计算机能识别的XML数据;S4、对所述XML数据进行数据缺失值处理;S5、根据所述实体模型对S4处理后的数据进行标准化对标处理;S6、根据所述实体模型,对S5处理后的数据进行对标填值,形成标准格式化的数据结构;S7、将处理好的数据根据实体模型存入结构化数据库供使用。本发明专利技术通过分析半结构化数据中的模式和实体,自动抽取出半结构化数据中的实体及它们间的上下位关系,自动构建实体分类树,从而可以大大减少计算量,降低计算复杂度。计算复杂度。计算复杂度。

【技术实现步骤摘要】
半结构化数据规范处理方法、存储介质及设备


[0001]本专利技术属于数据处理
,具体涉及半结构化数据规范处理方法、存储介质及设备。

技术介绍

[0002]信息时代带来了海量的数字化文件,日益积累的数据使得信息的获取越来越困难。传统技术不能适应数据的扩展,不能对扩展的信息进行检索,对项目设计阶段没有考虑到的、同时又是系统关心的信息的存储不能很好的处理,每种不同业务的非结构化数据都需要单独开发程序处理,重用性差。例如,在数量巨大的页面中含有人工编辑的半结构化数据,这些数据散落在不同的文件中,造成人们无法从大量页面中迅速而准确地找到这些有用的半结构化信息,版式的不同更是限制了当下传统算法的可复用性,大大阻碍了数据利用效率的提升。

技术实现思路

[0003]本专利技术的目的是提供一种半结构化数据规范处理方法、存储介质及设备,能够对不同数据源的半结构化数据进行规范处理,提升数据使用的便利性。本专利技术由以下技术方案实现:
[0004]一种半结构化数据规范处理方法,包括:
[0005]S1、根据业务实体,配置实体模型;
[0006]S2、分析获取到的文本文件,识别出含有半结构化数据的内容;
[0007]S3、通过解释数据转化为计算机能识别的XML数据;
[0008]S4、对所述XML数据进行数据缺失值处理;
[0009]S5、根据所述实体模型对S4处理后的数据进行标准化对标处理;
[0010]S6、根据所述实体模型,对S5处理后的数据进行对标填值,形成标准格式化的数据结构;
[0011]S7、将处理好的数据根据实体模型存入结构化数据库供使用。
[0012]具体地,所述实体模型包括实体名称、实体描述、业务说明、实体数据项。
[0013]具体地,所述实体数据项包括:数据项名称、数据项Key值、数据项键值、数据项类型、数据项格式校验规则、数据项对标值。
[0014]具体地,步骤S2中,识别出的含有半结构化数据的内容包括半结构化数据中的实体及实体间的上下位关系。
[0015]具体地,步骤S4中,所述数据缺失值处理的方法包括:

无效数据排除;

通过其他数据项提取补充缺失值;

使用数据的均值来填充;

用众数填充。
[0016]具体地,步骤S5中,对数据进行标准化对标,具体为:根据第一步骤业务实体配置的标准化代码,按数据项键值对标,并对源数据增加标准化代码值。
[0017]具体地,步骤S6中,是将有标记标准化代码的数据读取到数据流,以Key值进行对
标填值,形成标准格式化的数据结构。
[0018]本专利技术还提供一种存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的半结构化数据规范处理方法。
[0019]本专利技术还提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上文所述的半结构化数据规范处理方法。
[0020]本专利技术的有益效果在于:提供了一种从半结构化数据自动构建相同种类的数据实体标准化的方法,通过分析半结构化数据中的模式和实体,自动抽取出半结构化数据中的实体及它们间的上下位关系,自动构建实体分类树,从而可以大大减少计算量,降低计算复杂度。
附图说明
[0021]为了更清楚地说明本专利技术实施例,下面将对实施例或现有技术中描述中需要使用的附图做简单说明。
[0022]图1是本专利技术提供的半结构化数据规范处理方法的流程示意图。
具体实施方式
[0023]为了使本专利技术的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本专利技术进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。此外,在以下说明中,省略了对公知技术的描述,以避免不必要地混淆本专利技术的概念。
[0024]本实施例提供一种半结构化数据规范处理方法,从半结构化数据自动构建相同种类的数据实体标准化的方法,通过分析半结构化数据中的模式和实体,自动抽取出半结构化数据中的实体及它们间的上下位关系。
[0025]结合图1所示,上述半结构化数据规范处理方法包括以下步骤:
[0026](1)根据业务实体,进行实体模型配置,如实体名称、实体描述、业务说明、实体数据项等信息,其中实体数据项包括:数据项名称、数据项Key值、数据项键值、数据项类型、数据项格式校验规则、数据项对标值等信息。
[0027](2)半结构化数据的抽取,通过分析获取到文本的文件,识别出含有半结构化数据的内容。
[0028](3)通过解释数据,转化为计算机能识别的xml数据。
[0029](4)对xml数据进行确实处理,数据缺失值处理方法可选择的具体手段包括:
[0030]①
无效数据排除,如某个特征数据缺失关键数据项或缺失数据项较多,直接丢弃不用;
[0031]②
通过其他数据项提取补充缺失值,如出生日期、性别可从证件号码提取,行政区划可从住址提取;
[0032]③
使用数据的均值来填充,例如缺失的频率数据;
[0033]④
用众数填充,使用明显集中趋势点的数值,例如同类型的的数据或对象的排名。
[0034](5)通过以上步骤处理完缺失值后,对数据进行标准化对标处理。具体地,根据第
一步骤业务实体配置的标准化代码按数据项键值对标,并对源数据增加标准化代码值。例如在提取到一个xml数据后,对文件头部列头信息根据业务实体数据项配置进行匹配,如匹配数据项较多、全匹配或关键数据项匹配即为该实体类数据,对原始价进行标准化代码标记。
[0035](6)根据业务实体配置的实体模型,将有标记标准化代码的数据读取到数据流,以Key值进行对标填值,形成标准格式化的数据结构。
[0036](7)将处理好的数据根据实体模型存入结构化数据库使用。
[0037]本专利技术采用XML存储半结构化的数据,将不同类别的信息保存在XML的不同的节点中,例如:[<ryxx><item><zp>照片base64字符</zp><gj>USA</gj>

<item></ryxx>],再根据实体模型进行聚合基本信息存至数据库,使实体能够灵活的进行扩展,信息进行扩展时只要更改对应的DTD(document type definition,文档定义)或者XSD(xml scheme definition,xml scheme定义)就可以,并且按实体模型进行聚合基本信息后,也解决了查询效率慢的问题。
[0038]应当理解的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种半结构化数据规范处理方法,其特征在于,包括:S1、根据业务实体,配置实体模型;S2、分析获取到的文本文件,识别出含有半结构化数据的内容;S3、通过解释数据转化为计算机能识别的XML数据;S4、对所述XML数据进行数据缺失值处理;S5、根据所述实体模型对S4处理后的数据进行标准化对标处理;S6、根据所述实体模型,对S5处理后的数据进行对标填值,形成标准格式化的数据结构;S7、将处理好的数据根据实体模型存入结构化数据库供使用。2.根据权利要求1所述的半结构化数据规范处理方法,其特征在于,所述实体模型包括实体名称、实体描述、业务说明、实体数据项。3.根据权利要求2所述的半结构化数据规范处理方法,其特征在于,所述实体数据项包括:数据项名称、数据项Key值、数据项键值、数据项类型、数据项格式校验规则、数据项对标值。4.根据权利要求3所述的半结构化数据规范处理方法,其特征在于,步骤S2中,识别出的含有半结构化数据的内容包括半结构化数据中的实体及实体间的上下位关系。5.根据权利要求4所述的半结构化数据规范处理方法,其特征在于,步骤...

【专利技术属性】
技术研发人员:龚波苏学武水军赵坚杰陈海发陈育平李剑金林家泳
申请(专利权)人:珠海市新德汇信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1