模型训练方法、装置及电子设备制造方法及图纸

技术编号:32021207 阅读:23 留言:0更新日期:2022-01-22 18:40
本申请公开一种模型训练方法、装置及电子设备,包括:获取第一回流数据,将第一回流数据存储至第一文件,第一回流数据为从产生至回传的时间间隔超过预设时长的用户行为数据,第一回流数据中包含用户标识和对应的行为类型标签;获取第二回流数据,将第二回流数据存储至第二文件,第二回流数据为从产生至回传的时间间隔未超过预设时长的用户行为数据,第二回流数据中包含用户标识和对应的用户行为特征;加载最近M天的第一、二回流数据,并将最近M天的第一、二回流数据通过用户标识关联,在关联完毕后,将最近M天的第一回流数据中的行为类型标签添加到最近M天的第二回流数据中,得到最近M天的训练数据;基于最近M天的训练数据,进行模型训练。行模型训练。行模型训练。

【技术实现步骤摘要】
模型训练方法、装置及电子设备


[0001]本申请属于计算机
,具体涉及一种模型训练方法、装置及电子设备。

技术介绍

[0002]随着互联网技术的快速发展,网络的功能越来越丰富,越来越多的用户选择使用网络来完成生活、工作和学习的需求。互联网用户每天使用网络会产生大量的用户行为数据,如果能够利用这些用户行为数据,训练推荐模型,基于推荐模型向用户推荐网络信息,无疑会为用户提供更好的服务。
[0003]按照数据的回流速率,可以将用户行为数据分为两类:回流慢的行为数据和无回流慢的行为数据,其中,回流慢的行为数据指的是1小时后才回传、超过1小时才能获取到的用户行为数据,例如,可以包括:注册行为数据和激活行为数据等;无回流慢的行为数据指的是1小时内可以回传、1小时内能获取到的用户行为数据,例如,可以包括:曝光行为数据和点击行为数据等。
[0004]在训练推荐模型时,需要同时利用以上两类用户行为数据,现有技术中,通过反复处理生成多份数据和版本控制,来处理回流慢的行为数据。具体地,每个小时生成前N天内的回流慢的行为数据,并增加一个版本号;如若N发生变化,需要每小时重新生成该每个小时生成前N天内的回流慢的行为数据,并增加一个版本号。这样处理会导致不同版本的行为数据之间存在大量的冗余数据以及大量冗余的数据处理、处理比较耗时且灵活性较差,导致整个模型训练过程效率较低。

技术实现思路

[0005]本申请实施例的目的是提供一种模型训练方法、装置及电子设备,能够解决现有技术中存在的模型训练过程效率较低的问题。
[0006]第一方面,本申请实施例提供了一种模型训练方法,所述方法包括:
[0007]获取第一回流数据,将所述第一回流数据存储至第一文件中,其中,所述第一回流数据为从产生至回传的时间间隔超过预设时长的用户行为数据,所述第一回流数据中包含用户标识和对应的行为类型标签;
[0008]获取第二回流数据,将所述第二回流数据存储至第二文件中,其中,所述第二回流数据为从产生至回传的时间间隔未超过预设时长的用户行为数据,所述第二回流数据中包含用户标识和对应的用户行为特征;
[0009]加载最近M天的第一回流数据和最近M天的第二回流数据,并将所述最近M天的第一回流数据和第二回流数据通过用户标识关联,在关联完毕后,将所述最近M天的第一回流数据中的行为类型标签添加到所述最近M天的第二回流数据中,得到最近M天的训练数据,其中,M为正整数;
[0010]基于所述最近M天的训练数据,进行模型训练。
[0011]第二方面,本申请实施例提供了一种模型训练装置,所述装置包括:
[0012]第一获取模块,用于获取第一回流数据,其中,所述第一回流数据为从产生至回传的时间间隔超过预设时长的用户行为数据,所述第一回流数据中包含用户标识和对应的行为类型标签;
[0013]第一存储模块,用于将所述第一回流数据存储至第一文件中;
[0014]第二获取模块,用于获取第二回流数据,其中,所述第二回流数据为从产生至回传的时间间隔未超过预设时长的用户行为数据,所述第二回流数据中包含用户标识和对应的用户行为特征;
[0015]第二存储模块,用于将所述第二回流数据存储至第二文件中;
[0016]加载模块,用于加载最近M天的第一回流数据和最近M天的第二回流数据,并将所述最近M天的第一回流数据和第二回流数据通过用户标识关联,在关联完毕后,将所述最近M天的第一回流数据中的行为类型标签添加到所述最近M天的第二回流数据中,得到最近M天的训练数据,其中,M为正整数;
[0017]训练模块,用于基于所述最近M天的训练数据,进行模型训练。
[0018]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0019]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0020]第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
[0021]在本申请实施例中,在每一次模型训练时,可以从存储的数据中加载最近M天的无回流慢的行为数据和回流慢的行为数据,通过用户标识进行实时关联,为最近M天内无回流慢的行为数据中的用户行为特征,增加对应的行为类型标签,从而得到用于模型训练的训练数据,继而进行模型训练。与现有技术相比,本申请实施例中,在处理回流慢的行为数据时,无需多次生成多版本数据,也不需要存储重复的数据,在模型训练时,无需离线反复处理多次数据,可以减少数据的存储空间以及数据的处理时间,灵活性较高,提高了整个模型训练过程的效率。
附图说明
[0022]图1是本申请实施例提供的一种模型训练方法的流程图;
[0023]图2是本申请实施例提供的一种模型训练装置的结构框图;
[0024]图3是本申请实施例提供的一种电子设备的结构示意图;
[0025]图4是实现本申请各个实施例的一种电子设备的硬件结构示意图。
具体实施方式
[0026]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0027]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0028]目前,用户在上网产生的行为数据中,一些行为数据回传时间比较短,例如曝光行为数据(如用户打开浏览器浏览页面,浏览器的一次页面刷新,即为一次曝光行为,或者用户打开APP,APP播放一次广告,即为一次曝光行为,曝光行为数据回传时间比较短,通常不超过1小时)、点击行为数据等。而另一些行为数据回传时间比较久,例如激活行为数据(由于用户在下载APP之后,可能不会立马激活,可能会隔几天之后才激活,因此激活行为数据的回传时间比较久,通常回传超过1小时)、注册行为数据等。为了便于描述,将上述前者行为数据称为“无回流慢的行为数据”,将上述后者行为数据称为“回流慢的行为数据”。
[0029]虽然无回流慢的行为数据不存在回流慢的问题,但仅利用无回流慢的行为数据进行模型训练,由于数据量较少,因此训练得到的模型泛化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取第一回流数据,将所述第一回流数据存储至第一文件中,其中,所述第一回流数据为从产生至回传的时间间隔超过预设时长的用户行为数据,所述第一回流数据中包含用户标识和对应的行为类型标签;获取第二回流数据,将所述第二回流数据存储至第二文件中,其中,所述第二回流数据为从产生至回传的时间间隔未超过预设时长的用户行为数据,所述第二回流数据中包含用户标识和对应的用户行为特征;加载最近M天的第一回流数据和最近M天的第二回流数据,并将所述最近M天的第一回流数据和第二回流数据通过用户标识关联,在关联完毕后,将所述最近M天的第一回流数据中的行为类型标签添加到所述最近M天的第二回流数据中,得到最近M天的训练数据,其中,M为正整数;基于所述最近M天的训练数据,进行模型训练。2.根据权利要求1所述的方法,其特征在于,所述获取第一回流数据,包括:实时从在线服务器中读取转化行为日志数据;从所述转化行为日志数据中抽取用户标识和对应的转化行为类型标签。3.根据权利要求1所述的方法,其特征在于,所述获取第二回流数据,包括:从服务器中读取曝光点击日志数据;从所述曝光点击日志数据中抽取用户标识和以下至少一种特征:用户特征、物品特征、交叉特征和场景特征;对所述抽取到的特征进行拼接,得到用户行为特征。4.根据权利要求1所述的方法,其特征在于,所述第一回流数据中还包含请求响应时间,其中,所述请求响应时间为用户发起一次请求的时间;所述基于所述最近M天的训练数据,进行模型训练的步骤之前,还包括:根据所述请求响应时间,计算所述最近M天内第一回流数据中行为类型标签的第一数据量;计算离线数仓表中行为类型标签的第二数据量,其中,所述最近M天的第一回流数据通过预设渠道存储于所述离线数仓表中;若所述第一数据量与所述第二数据量无差异,则基于所述最近M天的训练数据,进行模型训练。5.根据权利要求1所述的方法,其特征在于,所述第一文件为小时级文件或天级文件;所述第二文件为小时级文件或天级文件;所述第一文件和所述第二文件均存储于分布式文件系统中。6.一种模型训练装置,其特征在于,所述装置包括:第一获取模块,用于获取第一回流数据,其中,所述第一回流数据为从产生至回传的时间间隔超过预设时长的用户行为数据,所述第一回流数据中包含用户标识和对应的行为类型标签;第...

【专利技术属性】
技术研发人员:武思妍
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1