一种基于多维分析技术的数据质量健康度分析方法及系统技术方案

技术编号:30094780 阅读:10 留言:0更新日期:2021-09-18 08:57
本发明专利技术公开了一种基于多维分析技术的数据质量健康度分析方法及系统,包括:获取第一数量个目标业务数据样本,利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型,接收目标用户选择的目标评估类型,根据目标评估类型利用数据分析模型对第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告,将质量健康度分析报告以图形化的格式进行展示。既可以避免人工排查而浪费人力情况的发生又可以准确地对业务数据样本的数据质量做出全面、高效的分析,及时地剔除掉无用数据从避免无用数据占用数据情况的发生,使得用户可以无需面对无用数据的干扰,提高了用户的使用体验感。用体验感。用体验感。

【技术实现步骤摘要】
一种基于多维分析技术的数据质量健康度分析方法及系统


[0001]本专利技术涉及数据处理
,尤其涉及一种基于多维分析技术的数据质量健康度分析方法及系统。

技术介绍

[0002]在企业数据标准化常态经营过程中,期望通过数据标准化管理反馈价值至业务,数据质量的重要性无论如何强调都是不过分的。在企业标准化数据常态经营过程中,低质量数据的产生是不可避免的,大批量的数据初始化、未处理历史数据带来的问题扩散、紧急业务产生的低质量数据,都将影响数据标准编码库的质量。控制低质量数据的产生几率和及时发现低质量数据并进行有效的处理,是企业能够组织开展的举措,因此对企业数据质量管理的正确理解,并非是不产生低质量数据,这从实际而言是理论级目标,在企业数据质量管理实际操作中,是通过科学、有效、专业的管理和技术支持,减低并控制低质量数据的产生率和存在率,及时发现低质量数据并进行有效的处理,控制标准编码库的高健康度,但由于数据编码库的数据量庞大、数据信息复杂性、专业要求高等因素,人工进行质量保障存在难度,需通过专业的质量管理工具对标准数据编码库进行检测,发现需要处理缺失数据、需去除的重复数据、需去除的噪声数据、需处理的异常(但真实)的数据,通过专业化的数据质量管理平台提供数据健康度分析,为数据清洗和治理提供依据,再使用数据清洗平台进行数据清洗治理,从而保证数据的完整性、唯一性、一致性、精确性、合法性、及时性等数据质量。现有技术中的数据质量管理方法无法对数据质量做出全面、高效的分析,进而导致无用数据的清理不完全从而占用数据内存和影响用户调用数据,严重地影响了用户的使用体验感。

技术实现思路

[0003]针对上述所显示出来的问题,本专利技术提出了一种基于多维分析技术的数据质量健康度分析方法及系统用以解决
技术介绍
中提到的现有技术中的数据质量管理方法无法对数据质量做出全面、高效的分析,进而导致无用数据的清理不完全从而占用数据内存和影响用户调用数据,严重地影响了用户的使用体验感的问题。
[0004]一种基于多维分析技术的数据质量健康度分析方法,包括以下步骤:
[0005]获取第一数量个目标业务数据样本;
[0006]利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型;
[0007]接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告;
[0008]将所述质量健康度分析报告以图形化的格式进行展示;
[0009]其中,所述目标评估类型为:相似度评估、完整性评估、唯一性评估和关联性评估中的一种或者多种。
[0010]优选的,在获取第一数量个目标业务数据样本之前,所述方法还包括:
[0011]通过预设条件确定数据样本的第一数量;
[0012]基于所述第一数量确定状态函数;
[0013]根据所述状态函数确定筛选条件,在第二数量个初始业务数据样本中筛选出满足所述筛选条件的第一数量个初始业务数据样本,其中,所述第二数量大于所述第一数量;
[0014]将所述第一数量个初始业务数据样本确认为所述第一数量个目标业务数据样本。
[0015]优选的,所述利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型,包括:
[0016]构建初始网络模型;
[0017]在所述初始网络模型中设置四个网络节点;
[0018]将所述预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则分别与所述四个网络节点进行对应;
[0019]对应完毕后,检测每个网络节点的稳定性;
[0020]当每个网络节点的稳定性都合格时,确认所述始网络模型收敛,获得所述数据分析模型。
[0021]优选的,在接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告之前,所述方法还包括:对所述第一数量个目标业务数据样本进行真实性检测,其步骤包括:
[0022]将每个目标业务数据样本进行分段,获得多个数据段;
[0023]对每个目标业务数据样本的每个数据段进行功能数据处理获得每个数据段的哈希值;
[0024]根据每个目标业务数据样本的多个哈希值获取每个目标业务数据样本的来源加权值;
[0025]根据每个目标业务数据样本的多个哈希值和来源加权值利用预设真实度算法计算出每个目标业务数据样本的目标真实度;
[0026]将目标真实度小于预设真实度的第一目标业务数据样本进行删除,保留目标真实度大于等于所述预设真实度的第二目标业务数据样本;
[0027]统计所述第二目标业务数据样本的数量,共获得第三数量个第二目标业务数据样本。
[0028]优选的,在接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告之前,所述方法还包括:对所述数据分析模型进行检验,步骤包括:
[0029]获取第四数量个预设业务数据样本;
[0030]预先确定每个预设业务数据样本的第一完整性、每个预设业务数据样本与其他预设业务数据样本的第一相似度、每个预设业务数据样本的第一唯一性和每个预设业务数据样本与其他预设业务数据样本的第一关联性,获取第一确定结果;
[0031]将所述第四数量个预设业务样本输入到所述数据分析模型中,接收所述数据分析模型输出的每个预设业务数据样本的第二完整性、每个预设业务数据样本与其他预设业务
数据样本的第二相似度、每个预设业务数据样本的第二唯一性和每个预设业务数据样本与其他预设业务数据样本的第二关联性,获取第二确定结果;
[0032]确认所述第一确定结果是否与第二确定结果相同,若是,确认所述数据分析模型准确无误,否则,确认所述数据分析模型输出数据有偏差,向目标用户发出修复所述数据分析模型的提醒。
[0033]优选的,所述接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告,包括:
[0034]向所述目标目标用户推荐四种预设评估类型;
[0035]接收所述用户在四种预设评估类型中选择的目标评估类型;
[0036]当所述目标评估类型为相似度评估时,提取所述第一数量个目标业务数据样本中每个目标业务数据样本的分类编码和元数据,利用基于词法分析和语法分析的相似度算法对每个目标业务数据样本的分类编码和元数据与其他目标业务数据样本的分类编码和元数据进行相似度评估,生成第一评估结果;
[0037]当所述目标评估类型为完整性评估时,对每个目标业务数据样本的分类编码和元数据进行完整性流程检测,所述完整性流程检测包括:数据是否为空、数据长度检测、数据枚举值检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多维分析技术的数据质量健康度分析方法,其特征在于,包括以下步骤:获取第一数量个目标业务数据样本;利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型;接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告;将所述质量健康度分析报告以图形化的格式进行展示;其中,所述目标评估类型为:相似度评估、完整性评估、唯一性评估和关联性评估中的一种或者多种;所述利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型,包括:构建初始网络模型;在所述初始网络模型中设置四个网络节点;将所述预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则分别与所述四个网络节点进行对应;对应完毕后,检测每个网络节点的稳定性;当每个网络节点的稳定性都合格时,确认所述始网络模型收敛,获得所述数据分析模型;所述对应完毕后,检测每个网络节点的稳定性,包括:获取预设时长内每个节点心跳检测超时的次数;将心跳检测超时的次数按照从多到少的顺序将所述四个网络节点进行排序,获取排序结果;确定所述排序结果中每个网络节点的网络连接状态;当每个网络节点的网络连接状态为通畅时,判断所述四个网络节点的工作状态正常,当有任意一个网络节点的网络连接状态为断开时,确定断开网络的第一目标网络节点,判断所述第一目标网络节点的工作状态异常,生成异常报告进行显示,判定所述第一目标网络节点的稳定性差;当判断每个网络节点的工作状态都为正常时,将每个网络节点作为发起节点;将每个发起节点的第一资源占用状态发送至其相邻网络节点;强行关闭每个发起节点的第一资源占用状态,确认其相邻网络节点所接收的第一资源占用状态是否发生改变;若发生改变,检测所述相邻网络节点的第二资源占用状态是否与第一资源占用状态相同,若是,确认所述相邻网络节点异常,判定所述相邻网络节点稳定性差,否则,确认所述网络节点正常;当确认所述网络节点正常时,同时启动所述四个网络节点,确认每个网络节点之间是否有干扰情况发生,若是,将相互出现干扰情况的第二目标网络节点进行标记,判定所述第二目标网络节点的稳定性差,否则,确认所述网络节点工作模式正常;检测所述每个网络节点输出的目标数据和预设数据的异同,若每个网络节点输出的目标数据都与预设数据相同,确认所述网络节点的输出数据精度正常,判定所述每个网络节
点的稳定性为优秀,若有任一网络节点的输出的目标数据与预设数据不相同时,提取出输出的目标数据与预设数据不相同的第三目标网络节点,判定所述第三目标网络节点的稳定性差。2.根据权利要求1所述基于多维分析技术的数据质量健康度分析方法,其特征在于,在获取第一数量个目标业务数据样本之前,所述方法还包括:通过预设条件确定数据样本的第一数量;基于所述第一数量确定状态函数;根据所述状态函数确定筛选条件,在第二数量个初始业务数据样本中筛选出满足所述筛选条件的第一数量个初始业务数据样本,其中,所述第二数量大于所述第一数量;将所述第一数量个初始业务数据样本确认为所述第一数量个目标业务数据样本。3.根据权利要求1所述基于多维分析技术的数据质量健康度分析方法,其特征在于,在接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告之前,所述方法还包括:对所述数据分析模型进行检验,步骤包括:获取第四数量个预设业务数据样本;预先确定每个预设业务数据样本的第一完整性、每个预设业务数据样本与其他预设业务数据样本的第一相似度、每个预设业务数据样本的第一唯一性和每个预设业务数据样本与其他预设业务数据样本的第一关联性,获取第一确定结果;将所述第四数量个预设业务样本输入到所述数据分析模型中,接收所述数据分析模型输出的每个预设业务数据样本的第二完整性、每个预设业务数据样本与其他预设业务数据样本的第二相似度、每个预设业务数据样本的第二唯一性和每个预设业务数据样本与其他预设业务数据样本的第二关联性,获取第二确定结果;确认所述第一确定结果是否与第二确定结果相同,若是,确认所述数据分析模型准确无误,否则,确认所述数据分析模型输出数据有偏差,向目标用户发出修复所述数据分析模型的提醒。4.根据权利要求1所述基于多维分析技术的数据质量健康度分析方法,其特征在于,所述接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告,包括:向所述目标目标用户推荐四种预设评估类型;接收所述用户在四种预设评估类型中选择的目标评估类型;当所述目标评估类型为相似度评估时,提取所述第一数量个目标业务数据样本中每个目标业务数据样本的分类编码和元数据,利用基于词法分析和语法分析的相似度算法对每个目标业务数据样本的分类编码和元数据与其他目标业务数据样本的分类编码和元数据进行相似度评估,生成第一评估结果;当所述目标评估类型为完整性评估时,对每个目标业务数据样本的分类编码和元数据进行完整性流程检测,所述完整性流程检测包括:数据是否为空、数据长度检测、数据枚举值检测和数据一致性检测,生成第二评估结果;当所述目标评估类型为唯一性评估时,检测每个目标业务数据样本的分类编码和元数据是是否为唯一一个,若是,确认第一数量个目标业务数据样本通过唯一性检测,否则,提
取出重复出现的目标分类编码和目标元数据以及二者所属的缺陷目标业务数据样本,生成第三评估结果;当所述目标评估类型为关联性评估时,对每个目标业务数据样本的分类编码和元数据与其他目标业务数据样本的分类...

【专利技术属性】
技术研发人员:金震王兆君康进港李明曹朝辉
申请(专利权)人:北京三维天地科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1