本申请提供了一种特别适用于大数据CDP领域的通用数据模式及其应用。所述通用数据模式继承数据范式,所述数据范式继承数据类别或者自我继承。本申请将逻辑层和物理层分离,使得概念模型更容易迁移;可以一个逻辑模型对应多个存储层信息,使得业务定义和实现逻辑的分离,例如事件定义和标签定义。本申请引入SCV数据层,使得客户身份策略更加灵活,试算和重算的成本大大降低。本申请的通用数据模式针对客户数据平台领域进行抽象,能够降低建模实践落地成本。地成本。地成本。
【技术实现步骤摘要】
一种应用于大数据CDP领域的通用数据模式及其应用
[0001]本专利技术涉及应用于大数据CDP领域的通用数据模型及其应用。
技术介绍
[0002]客户数据平台(customer data platform,CDP)系统主要是收集不同来源的客户数据并形成统一的围绕客户的不同数据视图,并分享给其他营销系统。在本领域中,申请人首次发现应用于大数据营销领域的现有通用模型并不适宜用于CDP领域,因为现有通用模型还存在以下问题:
[0003](1)现有通用模型中的数据范式概念不清。数据范式中既包含对基本数据技术分类(如记录型,时序性)的抽象,又包含对数据业务分类(如profile,document)的抽象,两种数据分类混同。(2)现有通用数据模型的逻辑层和物理层耦合。对于数据表或业务对象来讲,分类逻辑描述和物理描述。逻辑描述主要描述业务含义,比如一个字段逻辑定义为productName,但物理上可能存放在attr1这个列。通常情况下,表的逻辑描述和物理描述是相同的,但也有特殊情况,比如事件类型的定义,每一个事件类型,都有一定数量的字段描述事件携带的信息,这些事件数据会保存在行为事件表中,而同一行为事件表可以保存多个事件类型的事件数据,所以对于事件类型来讲,每个事件类型就是逻辑描述,而行为事件表就是物理描述。(3)事件类型定义、标签数据元数据没有通用数据模型(GDM)定义。因为逻辑层和物理层没有分开,所以事件类型和标签数据没有GDM的描述。(4)数据的DW层和SCV层耦合在一起。个人子档案与来自渠道的模型数据共用一张表。在渠道数据的模型表上增加了字段来记录与个人主档的关系。这种耦合带来了数据的DW层和SCV层耦合问题,DW层和SCV层共用同一张表会带来很大的不灵活性:
①
当身份配置出现失误,重新调整难度大,无法把SCV层直接清理掉再根据DW层数据重新生成。
②
无法根据不同身份策略用DW层数据生成不同的统一客户视图(SCV)。(5)行为事件、业务单据没有保留原始数据。行为事件和业务单据在通过API进入时会携带一组身份,这组身份并没有保留在ODS层,也没有保留在DW层,当档案的数据出现错误,无法根据原始数据重新计算。(6)身份策略固化。身份策略通常跟运营场景有很大关系,比如对于1对1的沟通场景,b2b的沟通场景和广告投放场景,身份打通的要求是不同的。目前的身份策略主要是针对1对1沟通场景,对其他场景适配性不好。
技术实现思路
[0004]为了克服上述技术缺陷,本专利技术的第一个方面提供一种应用于大数据CDP领域的通用数据模式,所述通用数据模式继承数据范式,所述数据范式继承数据类别或者自我继承,
[0005]通用数据模式=1*数据范式+m*通用数据字段,
[0006]所述数据范式=1*数据类别+n*通用数据字段,
[0007]其中,m和n均是正整数,所述数据类别描述的是数据的技术分类,所述数据范式描述的是数据的业务分类。
[0008]进一步地,所述数据类别包括记录型数据和时序型数据;记录型数据用于描述个体的属性信息,记录型数据没有时间分区列,即不会随着时间的增长而有明显增多;时序型数据有时间分区列,数据量会随时间的增长而不断增多。
[0009]进一步地,每一个数据范式定义了一类业务对象和一类业务语义;业务语义能够提供一类功能,数据范式通过功能提示的方式使所述功能被动态配置。
[0010]进一步地,所述通用数据模式进一步包括UID字段,所述UID字段是通过身份服务动态计算生成的。
[0011]进一步地,所述通用数据模式进一步包括统一客户身份规则,所述统一客户身份规则包括按时间优先级的合并策略和按渠道优先级的合并策略。
[0012]本申请的第二个方面提供一种使用上述通用数据模式构建CDP中数据分层的数据表的方法,所述数据分层包括贴源层、模型层、统一客户视图层以及服务层,所述方法依次包括步骤:
[0013]步骤S1:新建通用层数据模式:选择某一个数据范式来构建一个数据模式;
[0014]步骤S2:新建贴源层数据表:首先选择已经建好的所述通用数据模式来约束数据,然后引用一个或多个表结构来设定数据表中数据的物理存储信息,并存储模式字段到表结构字段间的映射关系;
[0015]步骤S3:新建模型层数据表:首先选择已经建好的所述通用数据模式来约束数据,然后引用一个或多个表结构来设定数据表中数据的物理存储信息,并存储模式字段到表结构字段间的映射关系;
[0016]步骤S4:新建统一客户视图层数据表:首先对已经建好的所述通用数据模式引入UID字段和统一客户身份规则字段作为变更后的通用数据模式,并引用该变更后的通用数据模式来约束数据,然后引用一个或多个表结构来设定数据表中数据的物理存储信息,并存储模式字段到表结构字段间的映射关系;
[0017]步骤S5:新建服务层数据表:首先选择已经建好的所述通用数据模式来约束数据,然后引用一个或多个表结构来设定数据表中数据的物理存储信息,并存储模式字段到表结构字段间的映射关系。
[0018]进一步地,所述UID字段是通过身份服务动态计算生成的,所述统一客户身份规则包括按时间优先级的合并策略和按渠道优先级的合并策略。
[0019]进一步地,所述贴源层记录的是对源数据进行简单加工后的数据;所述模型层记录的是对贴源层输出数据进行去重加工之后的干净数据;统一客户视图层记录的是通过身份服务打通来自不同渠道的数据后形成的关联在一起的并且能够直接供实时查询的统一客户视图数据;服务层记录的是从统一客户视图层或者模型层输出的并且能够直接供实时查询的数据。
[0020]本申请的第三个方面提供一种为数据表创建数据视图的方法,其包括:
[0021]步骤S1:首先选择一张采用权利要求6~8中任一项所述方法构建得到的数据表,所述数据表包含可映射字段;
[0022]步骤S2:将数据表中的可映射字段映射成新的字段,从而为所述数据表创建一个或多个数据视图(数据表中的数据可以包含不同类型的数据,对数据表中的每种类型的数据生成一个数据视图,因此,一张数据表可以对应于一个或多个数据视图),并在建数据视
图的同时自动创建所述数据视图对应的通用数据模式。
[0023]采用了上述技术方案后,与现有技术相比,具有以下有益效果:
[0024]为了解决数据范式技术分类和业务分类不清的问题,同时为了解决现有通用数据模型的逻辑层和物理层耦合的问题,引入了两个基本组件:数据类别(Kind)和数据模式(Schema)。本申请提供了一种特别适用于大数据CDP领域的通用数据模式,本申请将逻辑层(即数据模式)和物理层(即表结构)分离,使得概念模型更容易迁移;可以一个逻辑模型对应多个存储层信息,使得业务定义和实现逻辑的分离,例如事件定义和标签定义。本申请引入SCV数据层,使得客户身份策略更加灵活,试算和重算的成本大大降低。本申请的通用数据模式针对客户数据平台(CDP)领域进行抽象,能够降低建模实践落地成本本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种应用于大数据CDP领域的通用数据模式,其特征在于,所述通用数据模式继承数据范式,所述数据范式继承数据类别或者自我继承,通用数据模式=1*数据范式+m*通用数据字段,所述数据范式=1*数据类别+n*通用数据字段,其中,m和n均是正整数,所述数据类别描述的是数据的技术分类,所述数据范式描述的是数据的业务分类。2.如权利要求1所述的应用于大数据CDP领域的通用数据模式,其特征在于,所述数据类别包括记录型数据和时序型数据;记录型数据用于描述个体的属性信息,记录型数据没有时间分区列,即不会随着时间的增长而有明显增多;时序型数据有时间分区列,数据量会随时间的增长而不断增多。3.如权利要求1所述的应用于大数据CDP领域的通用数据模式,其特征在于,每一个数据范式定义了一类业务对象和一类业务语义;业务语义能够提供一类功能,数据范式通过功能提示的方式使所述功能被动态配置。4.如权利要求1所述的应用于大数据CDP领域的通用数据模式,其特征在于,所述通用数据模式进一步包括UID字段,所述UID字段是通过身份服务动态计算生成的。5.如权利要求4所述的应用于大数据CDP领域的通用数据模式,其特征在于,所述通用数据模式进一步包括统一客户身份规则,所述统一客户身份规则包括按时间优先级的合并策略和按渠道优先级的合并策略。6.一种使用权利要求1
‑
5中任一项所述通用数据模式构建CDP中数据分层的数据表的方法,其特征在于,所述数据分层包括贴源层、模型层、统一客户视图层以及服务层,所述方法依次包括步骤:步骤S1:新建通用层数据模式:选择某一个数据范式来构建一个数据模式;步骤S2:新建贴源层数据表:首先选择已经建好的所述通用数据模式来约束数据,然后引用一个或多个表结构来设定数据表中数据的物理...
【专利技术属性】
技术研发人员:唐溢泓,程龙,王业鹏,夏鹏程,陈龙,
申请(专利权)人:上海欣兆阳信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。