设备间用户识别方法、系统、计算机设备及存储介质技术方案

技术编号:27808576 阅读:22 留言:0更新日期:2021-03-30 09:32
本申请公开了一种设备间用户识别方法、系统、计算机设备及存储介质,方法包括:构建训练集和测试集步骤:使用已知用户的设备id和cookie的匹配对构建训练集,使用日志的记录集合构建测试集;计算ip私密度步骤:根据所述训练集及所述测试集获得ip私密度;获得候选对相似度步骤:使用所述训练集训练XGBoost模型,根据所述相似度向量通过所述训练后的XGBoost模型得到候选对以及候选对的相似度;节点聚类步骤:根据所述候选对的相似度创建相似度图,在相似度图上使用图聚类算法,将不同的节点进行聚类,在一个类中的节点属于同一个用户。本发明专利技术不依赖登录帐号,降低了对跨屏技术应用范围的限制。的限制。的限制。

【技术实现步骤摘要】
设备间用户识别方法、系统、计算机设备及存储介质


[0001]本专利技术属于设备间用户识别领域,具体涉及一种设备间用户识别方法、系统、计算机设备及存储介质。

技术介绍

[0002]跨屏营销是指通过整合手机、平板、电脑、电视等多种渠道终端,向广告主的目标受众投放定向且精准的个性化广告信息,通过与消费者的信息互动,达到品牌市场营销目的的行为。跨屏营销的难点是精确的设备间用户识别。如何将同一用户的不同设备(如手机、电脑)精准地识别出来,才是跨屏营销的关键点。目前市场上出现的两种现实可行性方法:精准匹配和预估匹配。但现存的两类方法都有不同程度的不适用性。
[0003]目前的现有技术是:
[0004]1、统一账号绑定:
[0005]即强账号体系,通过多渠道所共有的id,将多种设备(pc、移动端)上同一个用户的行为拼接起来,主要依靠用户的跨设备登录账号或者大型互联网平台提供的某种id识别的支持。精准匹配可以做到非常高的打通精度,而且用户的平台帐号也不会频繁更改。
[0006]2、依靠特定规则
[0007]依靠用户数据,如wifi、ip地址等也可实现设备间的用户识别,通过wifi地址或ip地址来判断同一ip地址下的多个设备是否为同一用户。
[0008]3、可解释的机器学习算法
[0009]用数据模型进行推测,即用运算的方法识别不同渠道下的多个设备实际为同一用户的可能性。用户在不同的平台下的行为都会具有一定的识别特征,这些特征包括技术参数、行为标签和来自第三方的加密行为数据。其优势在于不再依赖登录帐号,降低了对跨屏技术应用范围的限制,并在最大程度上,囊括互联网生态中几乎所有的用户,扩大了潜在客户的规模。
[0010]4、深度学习算法
[0011]基于神经网络构建深度学习模型进行cookie、device是否同属一人的预测。

技术实现思路

[0012]本申请实施例提供了一种设备间用户识别方法、系统、计算机存储设备,以至少解决相关技术中主观因素影响的问题。
[0013]本专利技术提供了一种设备间用户识别方法,其中,包括:
[0014]构建训练集和测试集步骤:使用已知用户的设备id和cookie的匹配对构建训练集,使用日志的记录集合构建测试集;
[0015]计算ip私密度步骤:根据所述训练集及所述测试集通过基于半监督学习的迭代式方法获得ip私密度;
[0016]生成候选集步骤:根据所述训练集、所述测试集及所述ip私密度获得候选集;
[0017]相似度向量获得步骤:计算所述候选集的属性相似度,并构成多维度的相似度向量;
[0018]获得候选对相似度步骤:使用所述训练集训练XGBoost模型,根据所述相似度向量通过所述训练后的XGBoost模型得到候选对以及候选对的相似度;
[0019]节点聚类步骤:根据所述候选对的相似度创建相似度图,在相似度图上使用图聚类算法,将不同的节点进行聚类,在一个类中的节点属于同一个用户。
[0020]上述设备间用户识别,其中,所述计算ip私密度步骤包括:
[0021]打通结果集合初始化步骤:将所述训练集的数据作为打通结果集合的初始化;
[0022]构建ip的倒排索引步骤:构建预测集合中ip的倒排索引;
[0023]计算ip私密度步骤:根据公式pri(IP
i
)=sum_max(IP
i
,m)/∑c
i
计算ip私密度,其中IP
i
为倒排索引,sum_max(IP
i
,m)为IP
i
对应的前m个最大的的和;
[0024]计算ip集合相似度步骤:整合用户、设备和Cookie信息后计算ip集合相似度;
[0025]更新ip私密度步骤:根据所述ip集合相似度对所述ip私密度进行更新。
[0026]上述设备间用户识别,其中,所述生成候选集步骤包括:
[0027]id和cookie信息进行整合步骤:将所述训练集中的用户信息以及所述测试集中的设备id和cookie信息进行整合获得整合信息;
[0028]候选集生成步骤:对所述整合信息进行判断后构建所述候选集。
[0029]上述设备间用户识别,其中,所述相似度向量获得步骤包括:根据设备特征、ip特征、多层次时间周期及媒体行为特征计算所述候选集的属性相似度,并构成多维度的相似度向量。
[0030]本专利技术还提供一种设备间用户识别系统,其中,包括:
[0031]构建训练集和测试集模块,所述构建训练集和测试集模块使用已知用户的设备id和cookie的匹配对构建训练集,使用日志的记录集合构建测试集;
[0032]计算ip私密度模块,所述计算ip私密度模块根据所述训练集及所述测试集通过基于半监督学习的迭代式方法获得ip私密度;
[0033]生成候选集模块,所述生成候选集模块根据所述训练集、所述测试集及所述ip私密度获得候选集;
[0034]相似度向量获得模块,所述相似度向量获得模块计算所述候选集的属性相似度,并构成多维度的相似度向量;
[0035]获得候选对相似度模块,所述获得候选对相似度模块使用所述训练集训练XGBoost模型,根据所述相似度向量通过所述训练后的XGBoost模型得到候选对以及候选对的相似度;
[0036]节点聚类模块,所述节点聚类模块根据所述候选对的相似度创建相似度图,在相似度图上使用图聚类算法,将不同的节点进行聚类,在一个类中的节点属于同一个用户。
[0037]上述设备间用户识别系统,其中,所述计算ip私密度模块包括:
[0038]打通结果集合初始化单元,所述打通结果集合初始化单元将所述训练集的数据作为打通结果集合的初始化;
[0039]构建ip的倒排索引单元,所述构建ip的倒排索引单元构建预测集合中ip的倒排索引;
[0040]计算ip私密度单元,所述计算ip私密度单元根据公式pri(IP
i
)=sum_max(IP
i
,m)/∑c
i
计算ip私密度,其中IP
i
为倒排索引,sum_max(IP
i
,m)为IP
i
对应的前m个最大的的和;
[0041]计算ip集合相似度单元,所述计算ip集合相似度单元整合用户、设备和Cookie信息后计算ip集合相似度;
[0042]更新ip私密度单元,所述更新ip私密度单元根据所述ip集合相似度对所述ip私密度进行更新。
[0043]上述设备间用户识别系统,其中,所述生成候选集模块包括:
[0044]id和cookie信息进行整合单元,所述id和cookie信息进行整合单元将所述训练集中的用户信息以及所述测试集中的设备id和cookie信息进行整合获得整合信息;
[0045]候选集生成单元,所述候选集生成单元对所述整合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种设备间用户识别方法,其特征在于,包括:构建训练集和测试集步骤:使用已知用户的设备id和cookie的匹配对构建训练集,使用日志的记录集合构建测试集;计算ip私密度步骤:根据所述训练集及所述测试集通过基于半监督学习的迭代式方法获得ip私密度;生成候选集步骤:根据所述训练集、所述测试集及所述ip私密度获得候选集;相似度向量获得步骤:计算所述候选集的属性相似度,并构成多维度的相似度向量;获得候选对相似度步骤:使用所述训练集训练XGBoost模型,根据所述相似度向量通过所述训练后的XGBoost模型得到候选对以及候选对的相似度;节点聚类步骤:根据所述候选对的相似度创建相似度图,在相似度图上使用图聚类算法,将不同的节点进行聚类,在一个类中的节点属于同一个用户。2.如权利要求1所述的设备间用户识别方法,其特征在于,所述计算ip私密度步骤包括:打通结果集合初始化步骤:将所述训练集的数据作为打通结果集合的初始化;构建ip的倒排索引步骤:构建预测集合中ip的倒排索引;计算ip私密度步骤:根据公式pri(IP
i
)=sum_max(IP
i
,m)/∑c
i
计算ip私密度,其中IP
i
为倒排索引,sum_max(IP
i
,m)为IP
i
对应的前m个最大的的和;计算ip集合相似度步骤:整合用户、设备和Cookie信息后计算ip集合相似度;更新ip私密度步骤:根据所述ip集合相似度对所述ip私密度进行更新。3.如权利要求1所述的设备间用户识别方法,其特征在于,所述生成候选集步骤包括:id和cookie信息进行整合步骤:将所述训练集中的用户信息以及所述测试集中的设备id和cookie信息进行整合获得整合信息;候选集生成步骤:对所述整合信息进行判断后构建所述候选集。4.如权利要求1所述的设备间用户识别方法,其特征在于,所述相似度向量获得步骤包括:根据设备特征、ip特征、多层次时间周期及媒体行为特征计算所述候选集的属性相似度,并构成多维度的相似度向量。5.一种设备间用户识别系统,其特征在于,包括:构建训练集和测试集模块,所述构建训练集和测试集模块使用已知用户的设备id和cookie的匹配对构建训练集,使用日志的记录集合构建测试集;计算ip私密度模块,所述计算ip私密度模块根据所述训练集及所述测试集通过基于半监督学习的迭代式方法获得ip私密度;生成候选集模块,所述生成候选...

【专利技术属性】
技术研发人员:付金伟
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1