本公开提供了一种信息推荐方法、装置、服务器及存储介质,属于互联网技术领域。该方法包括:将用户特征和用户隐式表征向量及每条信息的信息特征和内容隐式表征向量输入到精排模型中,输出每条信息的精排分数,精排模型根据当前时间前第一预设时间段生成的多个用户隐式表征向量和多个内容隐式表征向量训练得到;将基于精排分数筛选出目标信息推荐给用户。本公开无需每天全量训练模型,在第二预设时间段的历史数据训练的全量预训练模型基础上,基于新增的历史数据训练增量预训练模型,从而获取用于训练精排模型的多个用户隐式表征向量和多个内容隐式表征向量,降低了精排模型训练过程消耗的时长及离线资源,从而减小了信息推荐过程消耗的资源量。信息推荐过程消耗的资源量。信息推荐过程消耗的资源量。
【技术实现步骤摘要】
信息推荐方法、装置、服务器及存储介质
[0001]本公开涉及互联网
,特别涉及一种信息推荐方法、装置、服务器及存储介质。
技术介绍
[0002]推荐系统是互联网的核心组件,是连接用户过去发生过的行为和用户未来可能感兴趣的信息的重要纽带。推荐系统基于精排模型对用户和信息之间的相关性进行评分,进而根据评分结果将TopN的信息推送给用户。
[0003]相关技术在对信息进行推荐时,主要采用如下方法:在离线状态下,每天基于前一天在内的预设时间段的历史数据全量预训练模型,得到多个用户隐式表征向量和多个内容隐式表征向量,然后计算每个用户隐式表征向量和每个内容隐式表征向量之间的内积,得到多个隐式表征内积,进而基于多个隐式表征内积,训练精排模型;在线状态下,基于离线状态所训练的精排模型,为用户推荐信息。
[0004]然而,相关技术需要每天全量预训练模型,以获取用于训练精排模型的多个用户隐式表征向量和多个内容隐式表征向量,这使得精排模型的训练过程耗时较长、占用离线资源较多,进一步导致信息推荐过程资源消耗量较大。
技术实现思路
[0005]本公开实施例提供了一种信息推荐方法、装置、服务器及存储介质,能够降低用于训练精排模型的多个用户隐式表征向量和多个内容隐式表征向量的获取时长,减低离线资源的消耗,进而降低信息推荐过程消耗的资源量。所述技术方案如下:
[0006]第一方面,提供了一种信息推荐方法,所述方法包括:
[0007]获取用户的用户特征和用户隐式表征向量,并获取多条信息中每条信息的信息特征和内容隐式表征向量;
[0008]将所述用户特征和所述用户隐式表征向量及每条信息的信息特征和内容隐式表征向量输入到精排模型中,输出每条信息的精排分数,所述精排模型根据当前时间前第一预设时间段生成的多个用户隐式表征向量和多个内容隐式表征向量训练得到,所述多个用户隐式表征向量和所述多个内容隐式表征向量基于增量预训练模型生成,所述增量预训练模型基于第二预设时间段之后至当前时间前第一预设时间段新增的历史数据对所述全量预训练模型进行迭代训练得到,所述全量预训练模型基于所述第二预设时间段的历史数据训练得到,所述第一预设时间段的时长小于所述第二预设时间段的时长;
[0009]基于每条信息的精排分数,从所述多条信息中筛选出目标信息,并将所述目标信息推荐给所述用户。
[0010]在本公开的另一个实施例中,所述获取用户的用户隐式表征向量,包括:
[0011]基于所述用户的用户标识,从指定数据库中获取所述用户的用户隐式表征向量,所述指定数据库用于持久化存储所述多个用户的用户标识与用户隐式表征向量之间的对
应关系,且随着所述增量预训练模型的训练进行更新。
[0012]在本公开的另一个实施例中,所述获取多条信息中每条信息的内容隐式表征向量,包括:
[0013]基于每条信息的信息标识,从内存中获取每条信息的内容隐式表征向量,所述内存中存储有所述多条信息的信息标识与内容隐式表征向量之间的对应关系,且随着所述增量预训练模型的训练进行更新。
[0014]在本公开的另一个实施例中,所述将所述用户特征和所述用户隐式表征向量及每条信息的信息特征和内容隐式表征向量输入到精排模型中,输出每条信息的精排分数之前,还包括:
[0015]将所述用户特征和所述用户隐式表征向量分别与每条信息的信息特征和内容隐式表征向量进行拼接,得到每条信息对应的拼接向量;
[0016]所述将所述用户特征和所述用户隐式表征向量及每条信息的信息特征和内容隐式表征向量输入到精排模型中,输出每条信息的精排分数,包括:
[0017]将每条信息对应的拼接向量输入到所述精排模型中,输出每条信息的精排分数。
[0018]在本公开的另一个实施例中,所述精排模型的训练过程为:
[0019]获取所述多个用户隐式表征向量和所述多个内容隐式表征向量;
[0020]计算每个用户隐式表征向量与每个内容隐式表征向量之间的内积,得到多个隐式表征内积;
[0021]基于所述多个用户隐式表征向量、所述多个内容隐式表征向量、所述多个隐式表征内积及其他特征,对初始精排模型进行训练,得到所述精排模型,所述其他特征包括多个用户和多条信息的离散特征与连续特征。
[0022]第二方面,提供了一种信息推荐装置,所述装置包括:
[0023]第一获取模块,用于获取用户的用户特征和用户隐式表征向量,并获取多条信息中每条信息的信息特征和内容隐式表征向量;
[0024]输入输出模块,用于将所述用户特征和所述用户隐式表征向量及每条信息的信息特征和内容隐式表征向量输入到精排模型中,输出每条信息的精排分数,所述精排模型根据当前时间前第一预设时间段生成的多个用户隐式表征向量和多个内容隐式表征向量训练得到,所述多个用户隐式表征向量和所述多个内容隐式表征向量基于增量预训练模型生成,所述增量预训练模型基于第二预设时间段之后至当前时间前第一预设时间段新增的历史数据迭代训练得到,所述全量预训练模型基于所述第二预设时间段的历史数据训练得到,所述第一预设时间段的时长小于所述第二预设时间段的时长;
[0025]筛选模块,用于基于每条信息的精排分数,从所述多条信息中筛选出目标信息;
[0026]推荐模块,用于将所述目标信息推荐给所述用户。
[0027]在本公开的另一个实施例中,所述获取模块,用于基于所述用户的用户标识,从指定数据库中获取所述用户的用户隐式表征向量,所述指定数据库用于持久化存储所述多个用户的用户标识与用户隐式表征向量之间的对应关系,且随着所述增量预训练模型的训练进行更新。
[0028]在本公开的另一个实施例中,所述获取模块,用于基于每条信息的信息标识,从内存中获取每条信息的内容隐式表征向量,所述内存中存储有所述多条信息的信息标识与内
容隐式表征向量之间的对应关系,且随着所述增量预训练模型的训练进行更新。
[0029]在本公开的另一个实施例中,所述装置还包括:
[0030]拼接模块,用于将所述用户特征和所述用户隐式表征向量分别与每条信息的信息特征和内容隐式表征向量进行拼接,得到每条信息对应的拼接向量;
[0031]所述输入输出模块,用于将每条信息对应的拼接向量输入到所述精排模型中,输出每条信息的精排分数。
[0032]在本公开的另一个实施例中,用于训练所述精排模型的训练的装置包括:
[0033]第二获取模块,用于获取所述多个用户隐式表征向量和所述多个内容隐式表征向量;
[0034]计算模块,用于计算每个用户隐式表征向量与每个内容隐式表征向量之间的内积,得到多个隐式表征内积;
[0035]训练模块,用于基于所述多个用户隐式表征向量、所述多个内容隐式表征向量、所述多个隐式表征内积及其他特征,对初始精排模型进行训练,得到所述精排模型,所述其他特征包括多个用户和多条信息的离散特征与连续特征。
[0036]第三方面,提供了一种服务器,所述本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种信息推荐方法,其特征在于,所述方法包括:获取用户的用户特征和用户隐式表征向量,并获取多条信息中每条信息的信息特征和内容隐式表征向量;将所述用户特征和所述用户隐式表征向量及每条信息的信息特征和内容隐式表征向量输入到精排模型中,输出每条信息的精排分数,所述精排模型根据当前时间前第一预设时间段生成的多个用户隐式表征向量和多个内容隐式表征向量训练得到,所述多个用户隐式表征向量和所述多个内容隐式表征向量基于增量预训练模型生成,所述增量预训练模型基于第二预设时间段之后至当前时间前第一预设时间段新增的历史数据对全量预训练模型进行迭代训练得到,所述全量预训练模型基于所述第二预设时间段的历史数据训练得到,所述第一预设时间段的时长小于所述第二预设时间段的时长;基于每条信息的精排分数,从所述多条信息中筛选出目标信息,并将所述目标信息推荐给所述用户。2.根据权利要求1所述的方法,其特征在于,所述获取用户的用户隐式表征向量,包括:基于所述用户的用户标识,从指定数据库中获取所述用户的用户隐式表征向量,所述指定数据库用于持久化存储所述多个用户的用户标识与用户隐式表征向量之间的对应关系,且随着所述增量预训练模型的训练进行更新。3.根据权利要求1所述的方法,其特征在于,所述获取多条信息中每条信息的内容隐式表征向量,包括:基于每条信息的信息标识,从内存中获取每条信息的内容隐式表征向量,所述内存中存储有所述多条信息的信息标识与内容隐式表征向量之间的对应关系,且随着所述增量预训练模型的训练进行更新。4.根据权利要求1所述的方法,其特征在于,所述将所述用户特征和所述用户隐式表征向量及每条信息的信息特征和内容隐式表征向量输入到精排模型中,输出每条信息的精排分数之前,还包括:将所述用户特征和所述用户隐式表征向量分别与每条信息的信息特征和内容隐式表征向量进行拼接,得到每条信息对应的拼接向量;所述将所述用户特征和所述用户隐式表征向量及每条信息的信息特征和内容隐式表征向量输入到精排模型中,输出每条信息的精排分数,包括:将每条信息对应的拼接向量输入到所述精排模型中,输出每条信息的精排分数。5.根据权利要求1所述的方法,其特征在于,所述精排模型的训练过程为:获取所述多个用户隐式表征向量和所述多个内容隐式表征向量;计算每个用户隐式表征向量与每个内容隐式表征向量之间的内积,得到多...
【专利技术属性】
技术研发人员:娄欢,高山,李倩,范将科,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。