基于规则与语义分析的质检规则自动化配置方法及装置制造方法及图纸

技术编号:35315516 阅读:20 留言:0更新日期:2022-10-22 13:07
本申请公开了一种基于规则与语义分析的质检规则自动化配置方法及装置,包括:获取数据元件结果信息;对获取的数据元件结果字段名称信息进行关键词匹配和实体识别,以初步检测出需要独立质检的第一字段信息;对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征;根据所述第一字段信息的类型和特征,利用预先构建的树模型,以识别出数据元件结果中需要独立质检的第二字段信息;基于识别出的第二字段信息的字段信息项,确定所述第二字段信息对应的落标权限;根据所确定出的落标权限配置相应的质检规则算子。本申请实施例通过对数据资源进行自动化配置质检规则,极大提高政务数据质检效率和调度能力。能力。能力。

【技术实现步骤摘要】
基于规则与语义分析的质检规则自动化配置方法及装置


[0001]本申请涉及数据元件
,尤其涉及一种基于规则与语义分析的质检规则自动化配置方法及装置。

技术介绍

[0002]数据资源是指在生产、生活和管理等社会活动中以数字化形式留存的信息资源。
[0003]数据元件是数据资源到数据应用之间的一种稳定的标准中间态,是通过对数据资源脱敏处理后,根据需要由若干相关字段形成的数据集或由数据资源的关联字段通过建模形成的数据特征。
[0004]传统的质检系统是基于质检系统内的配置规则,现场由运维人员针对不同数据资源和数据元件结果进行单独配置字段的质检规则,无法实现自动化质量检测过程,消耗极大的人力成本。

技术实现思路

[0005]本申请实施例提供一种基于规则与语义分析的质检规则自动化配置方法及装置,用以实现对数据资源进行自动化配置质检规则,极大提高政务数据质检效率和调度能力。
[0006]本申请实施例提供基于规则与语义分析的质检规则自动化配置方法,包括:获取数据元件结果信息,所述结果信息包括数据元件结果字段名称信息和字段内容信息;对获取的数据元件结果字段名称信息进行关键词匹配和实体识别,以初步检测出需要独立质检的第一字段信息;对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征;根据所述第一字段信息的类型和特征,利用预先构建的树模型,以识别出数据元件结果中需要独立质检的第二字段信息;基于识别出的第二字段信息的字段信息项,确定所述第二字段信息对应的落标权限;根据所确定出的落标权限配置相应的质检规则算子,以实现对应数据元件的质检规则自动化落标。
[0007]可选的,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别包括:预先构建对于数据元件质量检测的通用字典库;利用所述通用字典库,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别。
[0008]可选的,对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征包括:在所述第一字段信息中包含规则表达式的情况下,采用正则表达式来提取所述第
一字段信息的类型和特征;在所述第一字段信息中包含明确的值域且可数的情况下,采用关键词匹配来提取所述第一字段信息的类型和特征;在所述第一字段信息表达方式不固定但指代明确的情况下,采用实体识别对所述第一字段信息进行语义分析,来提取所述第一字段信息的类型和特征。
[0009]可选的,所述树模型是基于三种字段的不同特征预先采用对应的方式构建的。
[0010]可选的,基于识别出的第二字段信息的字段信息项,确定所述第二字段信息对应的落标权限包括:根据识别出的第二字段信息的字段信息项、数据元件结果的体量大小、字段信息项对应的质检规则数量作为先验经验,利用贝叶斯判别方法识别质检规则任务的落标权限。
[0011]可选的,所配置的质检规则算子包括如下算子的一种或多种:数据元件质量的规范性检查算子、准确性检查算子、一致性检查算子、完整性检查算子、唯一性检查算子、时效性检查算子。
[0012]本申请实施例还提供一种基于规则与语义分析的质检规则自动化配置装置,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现前述的基于规则与语义分析的质检规则自动化配置方法的步骤。
[0013]本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的基于规则与语义分析的质检规则自动化配置方法的步骤。
[0014]本申请实施例通过对数据资源进行自动化配置质检规则,极大提高政务数据质检效率和调度能力。
[0015]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0016]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本申请实施例的质检规则自动化配置方法的基本流程图。
具体实施方式
[0017]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0018]本申请实施例提供基于规则与语义分析的质检规则自动化配置方法,包含基于规则与语义分析结合智能识别数据元件结果的数据项信息和智能编排字段对应的质检规两
个步骤。如图1所示,具体包括如下步骤:在步骤S101中,获取数据元件结果信息,所述结果信息包括数据元件结果字段名称信息和字段内容信息。
[0019]在步骤S102中,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别,以初步检测出需要独立质检的第一字段信息。在一些实施例中,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别包括:预先构建对于数据元件质量检测的通用字典库。
[0020]利用所述通用字典库,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别。
[0021]在步骤S103中,对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征。本示例中,对数据元件结果的字段内容的取值进行判断,根据字段内容的类型和特点采用不同的方式进行识别。在一些实施例中,对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征包括:在所述第一字段信息中包含规则表达式的情况下,采用正则表达式来提取所述第一字段信息的类型和特征。例如数据元件结果的字段内容包括个人特征数据元件中身份证、居住证、驾驶证、手机号、银行卡号等身份信息的情况下,采用正则表达式提取类型和特征。
[0022]在所述第一字段信息中包含明确的值域且可数的情况下,采用关键词匹配来提取所述第一字段信息的类型和特征,例如数据元件结果的字段内容包括职业、宗教信仰、性别等。
[0023]在所述第一字段信息表达方式不固定但指代明确的情况下,采用实体识别对所述第一字段信息进行语义分析,来提取所述第一字段信息的类型和特征。例如个人特征数据元件中姓名、地址、日期等通过实体识别技术来判断是否属于姓名、地址和日期信息。
[0024]在步骤S104中,根据所述第一字段信息的类型和特征,利用预先构建的树模型,以准确识别出数据元件结果中需要独立质检的第二字段信息。在一些实施例中,所述树模型是基于三种字段的不同特点预先采用相应方式构建识别模型的。采用不同方式相结合构建基于字段类别的树模型能够快速并最大程度识别数据元件结果内容中需要独立进行质检的字段信息,提高识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于规则与语义分析的质检规则自动化配置方法,其特征在于,包括:获取数据元件结果信息,所述结果信息包括数据元件结果字段名称信息和字段内容信息;对获取的数据元件结果字段名称信息进行关键词匹配和实体识别,以初步检测出需要独立质检的第一字段信息;对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征;根据所述第一字段信息的类型和特征,利用预先构建的树模型,以识别出数据元件结果中需要独立质检的第二字段信息;基于识别出的第二字段信息的字段信息项,确定所述第二字段信息对应的落标权限;根据所确定出的落标权限配置相应的质检规则算子,以实现对应数据元件的质检规则自动化落标。2.如权利要求1所述的基于规则与语义分析的质检规则自动化配置方法,其特征在于,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别包括:预先构建对于数据元件质量检测的通用字典库;利用所述通用字典库,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别。3.如权利要求2所述的基于规则与语义分析的质检规则自动化配置方法,其特征在于,对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征包括:在所述第一字段信息中包含规则表达式的情况下,采用正则表达式来提取所述第一字段信息的类型和特征;在所述第一字段信息中包含明确的值域且可数的情况下,采用关键词匹配来提取所述第一字段信息的类型和特征;在所述第一字段信息表达方...

【专利技术属性】
技术研发人员:陆志鹏胡成盛朱立锋刘国栋国丽郑曦周崇毅赵健温彦龙乔亲旺范国浩修心林希明章纯梓
申请(专利权)人:中国电子信息产业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1