半结构化数据规范处理方法、存储介质及设备技术

技术编号：33086951 阅读：49 留言：0更新日期：2022-04-15 10:52

本发明专利技术公开一种半结构化数据规范处理方法，包括：S1、根据业务实体，配置实体模型；S2、分析获取到的文本文件，识别出含有半结构化数据的内容；S3、通过解释数据转化为计算机能识别的XML数据；S4、对所述XML数据进行数据缺失值处理；S5、根据所述实体模型对S4处理后的数据进行标准化对标处理；S6、根据所述实体模型，对S5处理后的数据进行对标填值，形成标准格式化的数据结构；S7、将处理好的数据根据实体模型存入结构化数据库供使用。本发明专利技术通过分析半结构化数据中的模式和实体，自动抽取出半结构化数据中的实体及它们间的上下位关系，自动构建实体分类树，从而可以大大减少计算量，降低计算复杂度。计算复杂度。计算复杂度。

全部详细技术资料下载

【技术实现步骤摘要】
半结构化数据规范处理方法、存储介质及设备

[0001]本专利技术属于数据处理
，具体涉及半结构化数据规范处理方法、存储介质及设备。

技术介绍

[0002]信息时代带来了海量的数字化文件，日益积累的数据使得信息的获取越来越困难。传统技术不能适应数据的扩展，不能对扩展的信息进行检索，对项目设计阶段没有考虑到的、同时又是系统关心的信息的存储不能很好的处理，每种不同业务的非结构化数据都需要单独开发程序处理，重用性差。例如，在数量巨大的页面中含有人工编辑的半结构化数据，这些数据散落在不同的文件中，造成人们无法从大量页面中迅速而准确地找到这些有用的半结构化信息，版式的不同更是限制了当下传统算法的可复用性，大大阻碍了数据利用效率的提升。

技术实现思路

[0003]本专利技术的目的是提供一种半结构化数据规范处理方法、存储介质及设备，能够对不同数据源的半结构化数据进行规范处理，提升数据使用的便利性。本专利技术由以下技术方案实现：
[0004]一种半结构化数据规范处理方法，包括：
[0005]S1、根据业务实体，配置实体模型；
[0006]S2、分析获取到的文本文件，识别出含有半结构化数据的内容；
[0007]S3、通过解释数据转化为计算机能识别的XML数据；
[0008]S4、对所述XML数据进行数据缺失值处理；
[0009]S5、根据所述实体模型对S4处理后的数据进行标准化对标处理；
[0010]S6、根据所述实体模型，对S5处理后的数据进行对标填值，形成...

【技术保护点】

【技术特征摘要】
1.一种半结构化数据规范处理方法，其特征在于，包括：S1、根据业务实体，配置实体模型；S2、分析获取到的文本文件，识别出含有半结构化数据的内容；S3、通过解释数据转化为计算机能识别的XML数据；S4、对所述XML数据进行数据缺失值处理；S5、根据所述实体模型对S4处理后的数据进行标准化对标处理；S6、根据所述实体模型，对S5处理后的数据进行对标填值，形成标准格式化的数据结构；S7、将处理好的数据根据实体模型存入结构化数据库供使用。2.根据权利要求1所述的半结构化数据规范处理方法，其特征在于，所述实体模型包括实体名称、实体描述、业务说明、实体数据项。3.根据权利要求2所述的半结构化数据规范处理方法，其特征在于，所述实体数据项包括：数据项名称、数据项Key值、数据项键值、数据项类型、数据项格式校验规则、数据项对标值。4.根据权利要求3所述的半结构化数据规范处理方法，其特征在于，步骤S2中，识别出的含有半结构化数据的内容包括半结构化数据中的实体及实体间的上下位关系。5.根据权利要求4所述的半结构化数据规范处理方法，其特征在于，步骤...

【专利技术属性】
技术研发人员：龚波，苏学武，水军，赵坚杰，陈海发，陈育平，李剑金，林家泳，
申请(专利权)人：珠海市新德汇信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人