模型训练方法、装置及电子设备制造方法及图纸

技术编号：32021207 阅读：23 留言：0更新日期：2022-01-22 18:40

本申请公开一种模型训练方法、装置及电子设备，包括：获取第一回流数据，将第一回流数据存储至第一文件，第一回流数据为从产生至回传的时间间隔超过预设时长的用户行为数据，第一回流数据中包含用户标识和对应的行为类型标签；获取第二回流数据，将第二回流数据存储至第二文件，第二回流数据为从产生至回传的时间间隔未超过预设时长的用户行为数据，第二回流数据中包含用户标识和对应的用户行为特征；加载最近M天的第一、二回流数据，并将最近M天的第一、二回流数据通过用户标识关联，在关联完毕后，将最近M天的第一回流数据中的行为类型标签添加到最近M天的第二回流数据中，得到最近M天的训练数据；基于最近M天的训练数据，进行模型训练。行模型训练。行模型训练。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、装置及电子设备

[0001]本申请属于计算机
，具体涉及一种模型训练方法、装置及电子设备。

技术介绍

[0002]随着互联网技术的快速发展，网络的功能越来越丰富，越来越多的用户选择使用网络来完成生活、工作和学习的需求。互联网用户每天使用网络会产生大量的用户行为数据，如果能够利用这些用户行为数据，训练推荐模型，基于推荐模型向用户推荐网络信息，无疑会为用户提供更好的服务。
[0003]按照数据的回流速率，可以将用户行为数据分为两类：回流慢的行为数据和无回流慢的行为数据，其中，回流慢的行为数据指的是1小时后才回传、超过1小时才能获取到的用户行为数据，例如，可以包括：注册行为数据和激活行为数据等；无回流慢的行为数据指的是1小时内可以回传、1小时内能获取到的用户行为数据，例如，可以包括：曝光行为数据和点击行为数据等。
[0004]在训练推荐模型时，需要同时利用以上两类用户行为数据，现有技术中，通过反复处理生成多份数据和版本控制，来处理回流慢的行为数据。具体地，每个小时生成前N天内的回流慢的行为数据，并增加一个版本号；如若N发生变化，需要每小时重新生成该每个小时生成前N天内的回流慢的行为数据，并增加一个版本号。这样处理会导致不同版本的行为数据之间存在大量的冗余数据以及大量冗余的数据处理、处理比较耗时且灵活性较差，导致整个模型训练过程效率较低。

技术实现思路

[0005]本申请实施例的目的是提供一种模型训练方法、装置及电子设备，能够解决现有技术中存在的模型训练过程效率较低的问题。...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：获取第一回流数据，将所述第一回流数据存储至第一文件中，其中，所述第一回流数据为从产生至回传的时间间隔超过预设时长的用户行为数据，所述第一回流数据中包含用户标识和对应的行为类型标签；获取第二回流数据，将所述第二回流数据存储至第二文件中，其中，所述第二回流数据为从产生至回传的时间间隔未超过预设时长的用户行为数据，所述第二回流数据中包含用户标识和对应的用户行为特征；加载最近M天的第一回流数据和最近M天的第二回流数据，并将所述最近M天的第一回流数据和第二回流数据通过用户标识关联，在关联完毕后，将所述最近M天的第一回流数据中的行为类型标签添加到所述最近M天的第二回流数据中，得到最近M天的训练数据，其中，M为正整数；基于所述最近M天的训练数据，进行模型训练。2.根据权利要求1所述的方法，其特征在于，所述获取第一回流数据，包括：实时从在线服务器中读取转化行为日志数据；从所述转化行为日志数据中抽取用户标识和对应的转化行为类型标签。3.根据权利要求1所述的方法，其特征在于，所述获取第二回流数据，包括：从服务器中读取曝光点击日志数据；从所述曝光点击日志数据中抽取用户标识和以下至少一种特征：用户特征、物品特征、交叉特征和场景特征；对所述抽取到的特征进行拼接，得到用户行为特征。4.根据权利要求1所述的方法，其特征在于，所述第一回流数据中还包含请求响应时间，其中，所述请求响应时间为用户发起一次请求的时间；所述基于所述最近M天的训练数据，进行模型训练的步骤之前，还包括：根据所述请求响应时间，计算所述最近M天内第一回流数据中行为类型标签的第一数据量；计算离线数仓表中行为类型标签的第二数据量，其中，所述最近M天的第一回流数据通过预设渠道存储于所述离线数仓表中；若所述第一数据量与所述第二数据量无差异，则基于所述最近M天的训练数据，进行模型训练。5.根据权利要求1所述的方法，其特征在于，所述第一文件为小时级文件或天级文件；所述第二文件为小时级文件或天级文件；所述第一文件和所述第二文件均存储于分布式文件系统中。6.一种模型训练装置，其特征在于，所述装置包括：第一获取模块，用于获取第一回流数据，其中，所述第一回流数据为从产生至回传的时间间隔超过预设时长的用户行为数据，所述第一回流数据中包含用户标识和对应的行为类型标签；第...

【专利技术属性】
技术研发人员：武思妍，
申请(专利权)人：维沃移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人