预测模型训练方法、装置以及媒体标识预测方法及装置制造方法及图纸

技术编号:23767750 阅读:37 留言:0更新日期:2020-04-11 20:45
本申请提供了一种预测模型训练方法、装置以及媒体标识预测方法及装置,其中,所述预测模型训练方法包括:获取用户设备对不同媒体中投放的广告进行操作的监测日志;依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;基于各条日志条目对应的训练样本,训练预测模型。本申请中,由于无需与媒体商家沟通是否成功关联,其成本也会相应降低,且其不同媒体之间,尤其是一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识,其关联覆盖率也会相应地提高。

Prediction model training method, device and media identification prediction method and device

【技术实现步骤摘要】
预测模型训练方法、装置以及媒体标识预测方法及装置
本申请涉及机器学习
,尤其是涉及一种预测模型训练方法、装置以及媒体标识预测方法及装置。
技术介绍
在广告监测领域中,通常需要检测到用户在不同媒体商家的广告曝光和点击行为。但是,存在一些媒体商家出于对自身保护的目的,通常不会将针对用户设备的媒体加密身份标识,例如:消息摘要算法(Message-DigestAlgorithm)、国际移动设备识别码(InternationalMobileEquipmentIdentity,IMEI)、广告标识符(IdentifierForAdvertising,IDFA)等进行回传,而只是回传媒体本身的私有加密身份标识,为后续的对于媒体商家的数据分析带来了困难。现有技术中,针对用户设备,可以将一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识进行关联,从而获取媒体加密身份标识。在广告监测时,通常可以采用软件开发工具包(SoftwareDevelopmentKit,SDK)或应用程序接口(ApplicationProgrammingInterface,API)来检测不同媒体之间的身份标识是否关联。但是,该方法存在不同媒体之间的身份标识关联覆盖率低的缺点,且因为需要与媒体商家进行沟通才能确定不同媒体之间的身份标识是否关联,其成本较高,不利于对媒体商家的数据分析。因此,如何提高一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识的关联率是一个亟待解决的问题。
技术实现思路
鉴于此,本申请的至少提供一种预测模型训练方法、装置以及媒体标识预测方法及装置,以提高一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识的关联率,方便对于媒体商家的数据分析。第一方面,本申请实施例提供了一种预测模型训练方法,包括:获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备。一种可选实施方式中,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目,包括:针对所述目标日志条目,基于所述目标日志条目中携带的行为时间信息,以及媒体IP信息,从所述监测日志中确定与该所述目标日志条目对应的匹配日志条目。一种可选实施方式中,所述基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本,包括:基于各条匹配日志条目中携带的设备身份标识,将所述匹配日志条目分成至少一个分组;针对每个分组,基于所述目标日志条目,以及该分组中的匹配日志条目,确定在该分组下,所述目标日志条目在多种目标特征下的特征值;基于该分组下,所述目标日志条目在多种目标特征下的特征值,构成与该分组对应的一条训练样本。一种可选实施方式中,所述多种目标特征包括下述至少一种:第一设备身份标识,第二设备身份标识,第一设备类型,第二设备类型,重叠IP数,第一访问频次信息、第二访问频次信息;其中,所述第一设备身份标识包括:目标日志条目中携带的设备身份标识;所述第二设备身份标识包括:对应分组中匹配日志条目中携带的设备身份标识;所述第一设备类型包括:目标日志条目中携带的设备类型;所述第二设备类型包括:对应分组中匹配日志条目中携带的设备类型;所述第一访问频次信息包括:与目标日志对应的设备,访问目标媒体的频次;所述目标媒体为所述目标日志对应的媒体;所述第二访问频次信息包括:与匹配日志条目对应的用户设备,访问对应分组中与所述匹配日志条目对应的非目标媒体的频次;所述重叠IP数,包括:对应分组中匹配日志条目的数量。一种可选实施方式中,所述预测模型包括下述至少一种:随机森林RF模型、梯度下降树GBDT模型、多分类LR模型以及支持向量机SVM模型。第二方面,本申请实施例提供了一种媒体标识预测方法,包括:获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;将所述目标日志条目与所述目标日志条目对应的匹配日志条目输入至通过第一方面任意一项的预测模型训练方法得到的预测模型中,得到预测结果;其中,所述预测结果包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识、标签类型与置信度;所述标签类型包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识是,或否关联;基于所述预测结果,确定所述目标日志条目的身份标识。一种可选实施方式中,所述基于所述预测结果,确定所述目标日志条目的身份标识,包括:基于所述预测结果,选取所述目标日志条目的标签类型为是且置信度最高的对应的预测结果,确定所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识为互相关联的。第三方面,本申请实施例还提供一种预测模型训练装置,该预测模型训练装置包括:第一获取模块、第一确定模块、生成模块以及训练模块,其中:所述第一获取模块,用于获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;所述第一确定模块,用于依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;所述生成模块,用于基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;所述训练模块,用于基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备。一种可选实施方式中,所述第一确定模块,用于从所述监测日志中确定与所述目标日志条目对应的匹配日志条目时,具体用于:针对所述目标日志条目,基于所述目标日志条目中携带的行为时间信息,以及媒体IP信息,从所述监测日志中确定与该所述目标日志条目对应的匹配日志条目。一种可选实施方式中,所述生成模块,用于基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本时,具体用于:基于各条匹配日志条目中携带的设备身份标识,将所述匹配日志条目分成至少一个分组;针对每个本文档来自技高网...

【技术保护点】
1.一种预测模型训练方法,其特征在于,该方法包括:/n获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;/n依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;/n基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;/n基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备。/n

【技术特征摘要】
1.一种预测模型训练方法,其特征在于,该方法包括:
获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;
基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;
基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备。


2.根据权利要求1所述的预测模型训练方法,其特征在于,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目,包括:
针对所述目标日志条目,基于所述目标日志条目中携带的行为时间信息,以及媒体IP信息,从所述监测日志中确定与该所述目标日志条目对应的匹配日志条目。


3.根据权利要求1或2所述的预测模型训练方法,其特征在于,所述基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本,包括:
基于各条匹配日志条目中携带的设备身份标识,将所述匹配日志条目分成至少一个分组;
针对每个分组,基于所述目标日志条目,以及该分组中的匹配日志条目,确定在该分组下,所述目标日志条目在多种目标特征下的特征值;
基于该分组下,所述目标日志条目在多种目标特征下的特征值,构成与该分组对应的一条训练样本。


4.根据权利要求3所述的预测模型训练方法,其特征在于,所述多种目标特征包括下述至少一种:第一设备身份标识,第二设备身份标识,第一设备类型,第二设备类型,重叠IP数,第一访问频次信息、第二访问频次信息;
其中,所述第一设备身份标识包括:目标日志条目中携带的设备身份标识;
所述第二设备身份标识包括:对应分组中匹配日志条目中携带的设备身份标识;
所述第一设备类型包括:目标日志条目中携带的设备类型;
所述第二设备类型包括:对应分组中匹配日志条目中携带的设备类型;
所述第一访问频次信息包括:与目标日志对应的设备,访问目标媒体的频次;所述目标媒体为所述目标日志对应的媒体;
所述第二访问频次信息包括:与匹配日志条目对应的用户设备,访问对应分组中与所述匹配日志条目对应的非目标媒体的频次;
所述重叠IP数,包括:对应分组中匹配日志条目的数量。


5.根据权利要求1所述的预测模型训练方法,其特征在于,所述预测模型包括下述至少一种:随机森林RF模型、梯度下降树GBDT模型、多分类LR模型以及支持向量机SVM模型。


6.一种媒体标识预测方法,其特征在于,该方法包括:
获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目...

【专利技术属性】
技术研发人员:张贵川
申请(专利权)人:秒针信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1