用户ID关联方法、系统及批式、流式数据处理方法技术方案

技术编号:27459733 阅读:12 留言:0更新日期:2021-02-25 05:13
本申请涉及一种用户关联方法、系统和基于批式和流式计算的SuperID计算方法,其中,该用户关联方法包括:数据获取步骤,用于获取一上游系统的待处理用户的多个原始ID及原始ID之间的绑定关系,并获取所述原始ID的唯一标识值,所述唯一标识值包括原始ID的类型IDType、原始ID对应的值IDValue;SuperID定义步骤,用于定义一SuperID用于标识通过一绑定关系或多绑定关系互相连接的所述原始ID;用户ID关联步骤,用于基于一绑定规则获取属于同一SuperID的所述原始ID,得到关联ID。通过本申请,解决用户ID过度关联及错误关联的问题,降低硬件成本及维护成本。及维护成本。及维护成本。

【技术实现步骤摘要】
用户ID关联方法、系统及批式、流式数据处理方法


[0001]本申请涉及互联网
,特别是涉及一种用户ID关联方法、系统及批式数据处理方法、流式数据处理方法。

技术介绍

[0002]随着数字化越来越兴起,消费者越来越多的行为能够被采集并数字化记录下来,例如:广告行为,APP行为,微信行为,线下消费行为等等。
[0003]但由于各领域本身的独立性,不同领域日志记录的消费者原始ID是不同的,例如:广告行为一般是基于IMEI/IDFA做消费者唯一识别符;微信行为一般基于open_id/union_id做消费者的识别符;购买行为一般基于会员号做唯一识别符。即在没有“用户ID关联”的情况下,企业主无法串联各领域的消费者数据,或者更准确的说,跨ID分析单个消费者的全路径行为,从而形成更加全面的洞察和策略。
[0004]但是,简单地将所有渠道的ID做“全关联打通”,在部分数据准确性较高地场景下会造成过度关联。例如,在同一台电脑通过浏览器登录两个会员账号,认为该两个会员账号关联同一个cookie,而将这两个会员账号认为是同一个人,显然是有不够精准的现象。“全关联”方式下,虽然会最大的增加用户ID关联,但也会极大增加错误关联,造成业务损失,具体包括:数据分析时,由于关联ID过度,造成分析的错误和异常;营销触达时,由于关联ID过度,造成触达浪费和消费者反感。而行业内经常使用的“图数据库”存在硬件成本高、维护成本高的难点。
[0005]基于此,我们需要一种更好的、符合业务逻辑的解决方案。

技术实现思路
r/>[0006]本申请实施例提供了一种用户关联方法、系统和基于批式和流式计算的SuperID计算方法,解决用户ID过度关联及错误关联的问题,降低硬件成本及维护成本。
[0007]第一方面,本申请实施例提供了一种用户ID关联方法,包括:
[0008]数据获取步骤,用于获取待处理用户的多个原始ID及原始ID之间的绑定关系,并获取所述原始ID的唯一标识值,所述唯一标识值包括原始ID的类型IDType、原始ID对应的值IDValue;
[0009]SuperID定义步骤,用于定义一SuperID以标识通过至少一绑定关系互相连接的所述原始ID;
[0010]用户ID关联步骤,用于基于一绑定规则获取属于同一SuperID的所述原始ID,得到关联ID。
[0011]在其中一些实施例中,所述SuperID通过锚点取值,所述锚点为业务优先级最高的ID和/或时间最早的ID或记录。
[0012]在其中一些实施例中,所述绑定规则进一步包括:
[0013]规则一,每一所述原始ID只能直接绑定一个高优先级原始ID,以保证多个所述原
始ID不会因为关联同一低级原始ID而关联;
[0014]规则二,每一所述原始ID不能直接绑定同一优先级多个所述原始ID;
[0015]规则三,当一所述原始ID拥有多个高优先级绑定关系时,取唯一有效绑定关系。
[0016]基于上述绑定规则,在多个冲突的关联关系中,选择业务上优先级最高的关联关系,保证关联的可靠性、提高关联准确性。
[0017]在其中一些实施例中,所述规则三中,取唯一有效绑定关系具体包括:
[0018]取所述多个高优先级绑定关系中相对高优先级的绑定关系;
[0019]若存在多个相同优先级的绑定关系,则取绑定关系产生时间最新的记录为唯一有效绑定关系。
[0020]基于上述绑定规则,保证每一SuperID对应的最高优先级ID数≤1,进一步提高SuperID绑定的可靠性。
[0021]在其中一些实施例中,所述SuperID按照一参数限制条件计算得到,所述参数限制进一步包括:
[0022]若一原始ID连接次数超过m,对原始ID两两之间绑定关系进行数据清洗;
[0023]若一SuperID对应的原始ID数量超过m,则重置所述原始ID并记录,其中,m的值根据实际应用场景可灵活设置。
[0024]第二方面,本申请实施例提供了一种用户ID关联系统,用于执行如上第一方面所述的用户ID关联方法,该系统包括:
[0025]数据获取模块,用于获取待处理用户的多个原始ID及原始ID之间的绑定关系,并获取所述原始ID的唯一标识值,所述唯一标识值包括原始ID的类型IDType、原始ID对应的值IDValue;
[0026]SuperID定义模块,用于定义一SuperID以标识通过至少一绑定关系互相连接的所述原始ID;
[0027]用户ID关联模块,用于基于一绑定规则获取属于同一SuperID的所述原始ID,得到关联ID。
[0028]第三方面,本申请实施例提供了一种批式数据处理方法,包括
[0029]数据获取步骤,用于通过一上游应用获取批量绑定关系,并将所述批量绑定关系传输至一SuperID服务;
[0030]SuperID获取步骤,用于通过所述SuperID服务执行如上述第一方面所述的用户ID关联方法,根据所述批量绑定关系进行计算并输出批量SuperID至一SuperID结果文件;
[0031]SuperID应用步骤,用于通过一下游应用获取所述SuperID结果文件,并基于所述SuperID结果文件进行数据处理。举例而非限制,所述下游应用基于所述SuperID结果文件进行数据库更新、数据治理、数据打通、数据分析或ID批量导出等。
[0032]第四方面,本申请实施例提供了一种流式数据处理方法,包括:
[0033]数据获取步骤,用于通过一上游应用获取流式绑定关系,并将所述流式绑定关系传输至一SuperID服务;可选的,所述流式绑定关系通过Kafka分布式流处理平台或应用程序接口API传输;
[0034]SuperID获取步骤,用于通过所述SuperID服务执行如上述第一方面所述的用户ID关联方法,根据所述流式绑定关系进行计算得到一SuperID结果文件,所述SuperID结果文
件进一步包括:SuperID变化结果文件及SuperID全量结果文件;具体的,所述SuperID变化结果文件为所述SuperID服务基于所述上游应用的实时绑定关系,实时输出的;所述SuperID全量结果文件为所述SuperID服务以每日为频率基于绑定关系得到的。
[0035]SuperID应用步骤,用于通过一下游应用获取所述SuperID结果文件,并基于所述SuperID结果文件进行数据处理。举例而非限制,所述下游应用基于所述SuperID结果文件进行数据库更新。
[0036]值得注意的是,基于SuperID的批式数据处理方法常用语实时性需求不高但数据量较大的场景,基于SuperID的流式数据处理方法常用于实时性需求较高但数据量不大的场景。
[0037]第五方面,本申请实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用户ID关联方法,其特征在于,包括:数据获取步骤,用于获取待处理用户的多个原始ID及原始ID之间的绑定关系,并获取所述原始ID的唯一标识值,所述唯一标识值包括原始ID的类型IDType、原始ID对应的值IDValue;SuperID定义步骤,用于定义一SuperID以标识通过至少一绑定关系互相连接的所述原始ID;用户ID关联步骤,用于基于一绑定规则获取属于同一SuperID的所述原始ID,得到关联ID。2.根据权利要求1所述的用户ID关联方法,其特征在于,所述SuperID通过锚点取值,所述锚点为业务优先级最高的ID和/或时间最早的ID或记录。3.根据权利要求1所述的用户ID关联方法,其特征在于,所述绑定规则进一步包括:规则一,每一所述原始ID只能直接绑定一个高优先级原始ID;规则二,每一所述原始ID不能直接绑定同一优先级多个所述原始ID;规则三,当一所述原始ID拥有多个高优先级绑定关系时,取唯一有效绑定关系。4.根据权利要求3所述的用户ID关联方法,其特征在于,所述规则三中,取唯一有效绑定关系具体包括:取所述多个高优先级绑定关系中相对高优先级的绑定关系;若存在多个相同优先级的绑定关系,则取绑定关系产生时间最新的记录为唯一有效绑定关系。5.根据权利要求2或4所述的用于ID关联方法,其特征在于,所述SuperID按照一参数限制条件计算得到,所述参数限制进一步包括:若一原始ID连接次数超过m,对原始ID两两之间绑定关系进行数据清洗;若一SuperID对应的原始ID数量超过m,则重置所述原始ID并记录。6.一种执行如权利要求1-5中任一项所述的用户ID关联方法的用户ID关联系统,其特征在于,包括:数据获取模块,用于获取待处理用户的多个原始ID及原始ID之间的绑定关系,并获取所述原始ID的唯一标识值,所述唯一标识值包括原始ID的...

【专利技术属性】
技术研发人员:邵真奇张波
申请(专利权)人:恩亿科北京数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1