一种基于数据中台数据分级分类方法技术

技术编号:29703225 阅读:9 留言:0更新日期:2021-08-17 14:31
本发明专利技术公开了一种基于数据中台数据分级分类方法,具体包括如下步骤:A.建立数据分类标准;B.建立数据分级标准;C.根据数据中台结合。本发明专利技术将单个子项组合分类为模块集,并赋予模块集以词向量为基础的名称词源,用于以一个名称词源关联模块集中所有的子项,同时设置以需求为目的的分级模式,设定总递减表,以总递减表为更新基础,能够作为多个不同用户权限的使用基础,实现根据总递减表向下的分支表,最终按照数据矩阵实现快速检索和快速分类目的,达到降低整体数据库的计算流程和复杂程度,主要基于数据库一步形成分级和分类效果,数据结论真实度更高。

【技术实现步骤摘要】
一种基于数据中台数据分级分类方法
本专利技术涉及数据中台领域,特别涉及一种基于数据中台数据分级分类方法。
技术介绍
数据中台是在政企数字化转型过程中,对各业务单元业务与数据的沉淀,构建包括数据技术、数据治理、数据运营等数据建设、管理、使用体系,实现数据赋能。现有的数据中台中由于数据层级和数据类别过多,较复杂时还会因用户访问权限的不同产生区别,因此需要根据多种不同的因素设置不同的分级标准,然而现有技术中仅是按照多种目标需求,直接将整体数据库打包按照需求分类,其中的运算复杂程度较大,更新难度强,特别是面对数据较为庞大的数据库,运算流程过长将会形成数据失真等严重后果。
技术实现思路
本专利技术要解决的技术问题是克服现有技术的缺陷,提供一种基于数据中台数据分级分类方法。为了解决上述技术问题,本专利技术提供了如下的技术方案:本专利技术一种基于数据中台数据分级分类方法,具体包括如下步骤:A.建立数据分类标准:按照数据的提取方式形成模块式分类,模块的总称中设立多个词向量关联词,用于关联词联想,形成多个数据源之间相互独立的模块;B.建立数据分级标准:根据模块之间的提取频率和敏感度,按照数据源的参与度,将多个数据源模块之间相互关联,以多层级的方式在数据库中标注模块等级;C.根据数据中台结合:将步骤A和步骤B形成交叉递减表,以用户权限设立不同的敏感域块,按照不同的敏感域块进行编号设立新的层级编号,并储存为特征编码,列入清单表内设立时间戳,按照时间段更新。作为本专利技术的一种优选技术方案,所述步骤A主要基于LDA分类算法,将采集的数据集中后按照目标内容分类为词源模块名称,多个词源模块名称中具有相同重叠的单词,而词源模块名称和词源模块名称之间主要通过重叠单词的数量和词源模块名称所形成的词向量敏感度形成关联。作为本专利技术的一种优选技术方案,所述步骤B中主要以分级聚类算法,基于贝叶斯算法在词源模块名称的提取频率和敏感程度,分为五层级别。作为本专利技术的一种优选技术方案,所述步骤C中还包含有如下步骤:C1:将分级标准作为递减表中横向等级,分类标准作为递减表中竖向分类,于竖向分类中包含有母集分类和子集分类,其类别最多不超过两层分类,以递减模型作出矩阵递减表;C2:递减表中最小子集分类中的子项包含数据长度和数据来源,用于子项的目标源追溯;C3:递减表的数目和用户权限等级的数目相同,其用户权限按照等级和类别权限划分范围,按照范围重新排列基于用户权限的分级标准,且按照子集分类名称以词向量为基础形成矩阵。作为本专利技术的一种优选技术方案,所述子项信息包含有数据项来源、维度和数据状态,所述递减表设置有时间戳,用于建立时间段内的更新基础。与现有技术相比,本专利技术的有益效果如下:本专利技术将单个子项组合分类为模块集,并赋予模块集以词向量为基础的名称词源,用于以一个名称词源关联模块集中所有的子项,同时设置以需求为目的的分级模式,设定总递减表,以总递减表为更新基础,能够作为多个不同用户权限的使用基础,实现根据总递减表向下的分支表,最终按照数据矩阵实现快速检索和快速分类目的,达到降低整体数据库的计算流程和复杂程度,主要基于数据库一步形成分级和分类效果,数据结论真实度更高。具体实施方式以下本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。实施例1本专利技术提供一种基于数据中台数据分级分类方法,具体包括如下步骤:A.建立数据分类标准:按照数据的提取方式形成模块式分类,模块的总称中设立多个词向量关联词,用于关联词联想,形成多个数据源之间相互独立的模块;B.建立数据分级标准:根据模块之间的提取频率和敏感度,按照数据源的参与度,将多个数据源模块之间相互关联,以多层级的方式在数据库中标注模块等级;C.根据数据中台结合:将步骤A和步骤B形成交叉递减表,以用户权限设立不同的敏感域块,按照不同的敏感域块进行编号设立新的层级编号,并储存为特征编码,列入清单表内设立时间戳,按照时间段更新。步骤A主要基于LDA分类算法,将采集的数据集中后按照目标内容分类为词源模块名称,多个词源模块名称中具有相同重叠的单词,而词源模块名称和词源模块名称之间主要通过重叠单词的数量和词源模块名称所形成的词向量敏感度形成关联。步骤B中主要以分级聚类算法,基于贝叶斯算法在词源模块名称的提取频率和敏感程度,分为五层级别。步骤C中还包含有如下步骤:C1:将分级标准作为递减表中横向等级,分类标准作为递减表中竖向分类,于竖向分类中包含有母集分类和子集分类,其类别最多不超过两层分类,以递减模型作出矩阵递减表;C2:递减表中最小子集分类中的子项包含数据长度和数据来源,用于子项的目标源追溯;C3:递减表的数目和用户权限等级的数目相同,其用户权限按照等级和类别权限划分范围,按照范围重新排列基于用户权限的分级标准,且按照子集分类名称以词向量为基础形成矩阵。子项信息包含有数据项来源、维度和数据状态,所述递减表设置有时间戳,用于建立时间段内的更新基础。最后应说明的是:以上所述仅为本专利技术的优选实施例而已,并不用于限制本专利技术,尽管参照前述实施例对本专利技术进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种基于数据中台数据分级分类方法,其特征在于,具体包括如下步骤:/nA.建立数据分类标准:按照数据的提取方式形成模块式分类,模块的总称中设立多个词向量关联词,用于关联词联想,形成多个数据源之间相互独立的模块;/nB.建立数据分级标准:根据模块之间的提取频率和敏感度,按照数据源的参与度,将多个数据源模块之间相互关联,以多层级的方式在数据库中标注模块等级;/nC.根据数据中台结合:将步骤A和步骤B形成交叉递减表,以用户权限设立不同的敏感域块,按照不同的敏感域块进行编号设立新的层级编号,并储存为特征编码,列入清单表内设立时间戳,按照时间段更新。/n

【技术特征摘要】
1.一种基于数据中台数据分级分类方法,其特征在于,具体包括如下步骤:
A.建立数据分类标准:按照数据的提取方式形成模块式分类,模块的总称中设立多个词向量关联词,用于关联词联想,形成多个数据源之间相互独立的模块;
B.建立数据分级标准:根据模块之间的提取频率和敏感度,按照数据源的参与度,将多个数据源模块之间相互关联,以多层级的方式在数据库中标注模块等级;
C.根据数据中台结合:将步骤A和步骤B形成交叉递减表,以用户权限设立不同的敏感域块,按照不同的敏感域块进行编号设立新的层级编号,并储存为特征编码,列入清单表内设立时间戳,按照时间段更新。


2.根据权利要求1所述的一种基于数据中台数据分级分类方法,其特征在于,所述步骤A主要基于LDA分类算法,将采集的数据集中后按照目标内容分类为词源模块名称,多个词源模块名称中具有相同重叠的单词,而词源模块名称和词源模块名称之间主要通过重叠单词的数量和词源模块名称所形成的词向量敏感度形成关联。


3....

【专利技术属性】
技术研发人员:蒋鑫蔡宇翔吴飞李棋纪文林德威徐毅明郑飘飘王栋肖琦敏
申请(专利权)人:国网福建省电力有限公司信息通信分公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1