System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,具体为一种数据质量问题深度分析与溯源系统及方法。
技术介绍
1、在当今数字化时代,各行业都在加速数字化转型,数据量呈爆炸式增长并成为企业最为宝贵的资产之一,无论是金融领域的交易数据、医疗行业的患者诊疗数据,还是互联网企业的用户行为数据等,都在企业的决策制定、业务运营优化、风险评估与管控等方面发挥着关键作用,高质量的数据能够为企业提供精准的市场洞察、高效的业务流程支持以及良好的客户体验保障,是企业保持竞争力的核心要素。
2、然而,现有数据质量分析与溯源技术在数据溯源方面,传统方法大多依赖于简单的日志记录或有限的元数据信息,难以构建全面且深入的关联关系网络,在面对复杂的数据处理流程和多源数据融合场景时,无法有效地整合数据与业务知识、数据来源以及处理流程之间的联系,导致溯源路径模糊且不完整,难以快速、准确地定位问题根源,对于异常数据关联分析,只是孤立地看待单个异常数据点,不能深入挖掘异常数据之间潜在的关联模式,这使得在处理数据质量问题时,只能解决表面现象,无法从根本上杜绝类似问题的再次发生,也难以发现隐藏在数据背后的系统性风险。
3、综上所述,现有的数据质量分析与溯源技术已无法满足日益复杂的数据管理需求,本专利技术旨在提供一种创新的数据质量问题深度分析与溯源系统及方法,实现对数据质量问题的精准定位、深度剖析以及全面溯源。
技术实现思路
1、本专利技术的目的就是为了弥补现有技术的不足,提供了一种数据质量问题深度分析与溯源系统及方法,它能够通过
2、本专利技术为解决上述技术问题,提供如下技术方案:一方面,一种数据质量问题深度分析与溯源系统,该系统的组成包括:数据采集模块、数据监控模块、知识图谱构建模块、机器学习分析模块和溯源分析模块;
3、所述数据采集模块负责从多种数据源收集数据,并对数据进行初步的整理和格式化,所述数据源包括包括数据库、文件系统、网络接口;
4、所述数据监控模块对数据采集模块采集到的数据以及系统中流转的数据进行实时监控,并设定数据质量监控规则,所述数据质量监控规则是基于数据的完整性、准确性、一致性、时效性和唯一性的多维度质量指标进行制定;
5、当监控到数据违反既定规则时,判定为数据质量异常情况发生,数据监控模块自动生成数据质量问题报告,报告中包含异常数据的标识、异常发生的时间、异常类型以及该异常数据相关的上下文信息,将该报告发送至溯源分析模块,以进行溯源追踪;
6、所述知识图谱构建模块从数据采集模块获取数据,并结合业务知识和数据处理流程信息,将数据映射到知识图谱中,构建包含数据节点、业务知识节点、数据来源节点、数据处理流程节点以及它们之间关联关系的知识网络,所述关联关系包括数据生成关系、数据转换关系、数据依赖关系,所述知识图谱的构建过程为:
7、数据本体设计:定义数据本体o,包含数据类c、数据属性p与关联关系r,其中数据类c涵盖数据记录类cr、业务知识类ck、数据来源类cs、数据处理流程类cp,数据属性p有数据记录名称属性pn、数据来源标识属性pi、数据处理流程属性pt,关联关系r包含数据记录与数据来源的生成关系rfs,数据记录与数据处理流程的转换关系rfp;
8、知识图谱初始化:构建空知识图谱kg=(n,e),其中n为节点集,e为边集;
9、数据节点映射:从数据采集模块获取数据d,针对每条数据记录d∈d,创建数据节点nd∈n,依数据本体o为其设属性值,即当d为产品销售数据,含产品名称pn、销售数量qn、销售时间tm字段,则pn(nd)=pn,pqn(nd)=qn,ptm(nd)=tm;
10、业务知识节点构建:与知识库kb创建业务知识节点nk∈n,在知识图谱中创建对应业务知识节点nk,并建立数据节点nd与业务知识节点nk间的关系rfb∈e;
11、数据来源节点关联:对每条数据记录d,确定其数据来源s,在知识图谱中创建对应数据来源节点ns∈n,并建立数据节点nd与数据来源节点ns间的生成关系rfs∈e,即(nd,ns,rfs);
12、数据处理流程节点映射:取数据处理流程信息f,对数据d历经的数据处理f∈f,在知识图谱中创建对应处理流程节点nf∈n,并建立数据节点nd与处理流程节点nf间的转换关系rfp∈e,即(nd,nf,rfp);
13、关联关系强化:利用数据依赖关系判断算法,强化知识图谱关联关系,即对于数据节点nd1和nd2,当数据d1的属性值pv(nd1)与数据d2的属性值pu(nd2)有依赖关系dep(pv(nd1),pu(nd2)),则在知识图谱中添加从nd1到nd2的数据依赖边rdd,即rdd∈e,数据依赖关系判断算法为:当此函数使等式成立,则有数据依赖关系,反之则无;
14、所述机器学习分析模块存储历史数据和数据监控模块已标记的异常数据样本,利用机器学习算法进行训练学习,建立异常数据关联模型,所述异常数据关联模型能够识别不同异常数据特征之间的关联模式;
15、所述溯源分析模块接收数据质量问题报告,利用知识图谱和异常数据关联模块对数据质量问题进行全局溯源分析,所述问题报告包括来自数据监控模块检测到的异常信息和用户手动提交的数据质量问题。
16、进一步地,所述数据监控模块中基于完整性的数据质量监控规则为:根据数据集合d,数据记录ri,数据字段集合f,计算完整性指标icomp为:其中n为数据记录总数,m为关键数据字段总数,cij为指示函数,即当数据记录ri中的数据字段fj有值则cij=1,否则cij=0,当icomp低于完整性阈值tcomp时,判定完整性异常。
17、更进一步地,所述数据监控模块中基于准确性的数据质量监控规则为:对于数值型数据字段fk,其真实值为vtrus,k,监控值为vmon,k,则准确指标iacc为:其中p为数值型数据字段总数,当iacc低于准确性阈值tacc时,判定准确性异常,对于文本型数据字段,通过与标准文本集合s进行相似度匹配,即文本字段t与标准文本集合中最相似文本smax的相似度为sim(t,smax),当sim(t,smax)低于文本相似度阈值tsim,判定准确性异常。
18、更进一步地,所述数据监控模块中基于一致性的数据质量监控规则为:对于q个数据处理阶段,数据在第l个数据处理阶段的字段fl的取值集合为vl,则一致性指标icon为:其中vm为数据在第l个数据处理阶段的所有字段fm的取值集合,当icon低于预设一致性阈值tcon时,判定一致性异常。
19、更进一步地,所述数据监控模块中基于时效性的数据质量监控规则为:设置数据d的最后更新时间为tlast,当前时间为tnow,设置有本文档来自技高网...
【技术保护点】
1.一种数据质量问题深度分析与溯源系统,其特征在于,该系统的组成包括:数据采集模块、数据监控模块、知识图谱构建模块、机器学习分析模块和溯源分析模块;
2.根据权利要求1所述的一种数据质量问题深度分析与溯源系统,其特征在于,所述数据监控模块中基于完整性的数据质量监控规则为:根据数据集合D,数据记录ri,数据字段集合F,计算完整性指标Icomp为:其中n为数据记录总数,m为关键数据字段总数,cij为指示函数,即当数据记录ri中的数据字段fj有值则cij=1,否则cij=0,当Icomp低于完整性阈值Tcomp时,判定完整性异常。
3.根据权利要求1所述的一种数据质量问题深度分析与溯源系统,其特征在于,所述数据监控模块中基于准确性的数据质量监控规则为:对于数值型数据字段fk,其真实值为vtrue,k,监控值为vmon,k,则准确指标Iacc为:其中p为数值型数据字段总数,当Iacc低于准确性阈值Tacc时,判定准确性异常,对于文本型数据字段,通过与标准文本集合S进行相似度匹配,即文本字段t与标准文本集合中最相似文本smax的相似度为sim(t,smax),当si
4.根据权利要求1所述的一种数据质量问题深度分析与溯源系统,其特征在于,所述数据监控模块中基于一致性的数据质量监控规则为:对于q个数据处理阶段,数据在第l个数据处理阶段的字段fl的取值集合为Vl,则一致性指标Icon为:其中Vm为数据在第l个数据处理阶段的所有字段fm的取值集合,当Icon低于预设一致性阈值Tcon时,判定一致性异常。
5.根据权利要求1所述的一种数据质量问题深度分析与溯源系统,其特征在于,所述数据监控模块中基于时效性的数据质量监控规则为:设置数据d的最后更新时间为tlast,当前时间为tnow,设置有效时间间隔为tvalid,则时效性指标Itim为:当Itim=0时,判定时效性异常。
6.根据权利要求1所述的一种数据质量问题深度分析与溯源系统,其特征在于,所述数据监控模块中基于唯一性的数据质量监控规则为:对于数据集合D中待检查唯一性的字段funi,计算其唯一性指标Iuni为:其中|{funi}|为字段funi不同取值的数量,|D|为数据集合D的记录数量,当Iuni≠1时,判定唯一性异常。
7.根据权利要求1所述的一种数据质量问题深度分析与溯源系统,其特征在于,所述机器学习分析模块构建异常数据管理模型的具体过程为:
8.根据权利要求1所述的一种数据质量问题深度分析与溯源系统,其特征在于,所述溯源分析模块对报告中的问题数据进行溯源追踪时,其具体步骤为:
9.一种数据质量问题深度分析与溯源方法,适用于权利要求1-8任一项所述的一种数据质量问题深度分析与溯源系统,其特征在于,该方法的具体步骤为:
...【技术特征摘要】
1.一种数据质量问题深度分析与溯源系统,其特征在于,该系统的组成包括:数据采集模块、数据监控模块、知识图谱构建模块、机器学习分析模块和溯源分析模块;
2.根据权利要求1所述的一种数据质量问题深度分析与溯源系统,其特征在于,所述数据监控模块中基于完整性的数据质量监控规则为:根据数据集合d,数据记录ri,数据字段集合f,计算完整性指标icomp为:其中n为数据记录总数,m为关键数据字段总数,cij为指示函数,即当数据记录ri中的数据字段fj有值则cij=1,否则cij=0,当icomp低于完整性阈值tcomp时,判定完整性异常。
3.根据权利要求1所述的一种数据质量问题深度分析与溯源系统,其特征在于,所述数据监控模块中基于准确性的数据质量监控规则为:对于数值型数据字段fk,其真实值为vtrue,k,监控值为vmon,k,则准确指标iacc为:其中p为数值型数据字段总数,当iacc低于准确性阈值tacc时,判定准确性异常,对于文本型数据字段,通过与标准文本集合s进行相似度匹配,即文本字段t与标准文本集合中最相似文本smax的相似度为sim(t,smax),当sim(t,smax)低于文本相似度阈值tsim,判定准确性异常。
4.根据权利要求1所述的一种数据质量问题深度分析与溯源系统,其特征在于,所述数据监控模块中基于一致性的数据质量监控规则为:对于q个数据处理阶段,数据在第l个数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。