推荐信息日志落盘方法、装置、设备及存储介质制造方法及图纸

技术编号:38044240 阅读:6 留言:0更新日期:2023-06-30 11:10
本发明专利技术公开了一种推荐信息日志落盘方法、装置、设备及存储介质,属于互联网技术领域,所述方法包括:获取与推荐信息相关的初始日志数据;根据所述初始日志数据生成日志数据流;对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;基于所述目标日志数据进行日志落盘。相较于现有的线上抽取方式和离线抽取方式,本方案通过对日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据进行日志落盘,既解决了线上抽取数据会对影响到其他模块功能的问题,又避免了采用离线抽取数据可能会导致日志数据不一致的情况,实现了在不影响其他模块工作的前提下完成日志落盘工作,保证日志数据的一致性的效果。保证日志数据的一致性的效果。保证日志数据的一致性的效果。

【技术实现步骤摘要】
推荐信息日志落盘方法、装置、设备及存储介质


[0001]本专利技术涉及互联网
,尤其涉及一种推荐信息日志落盘方法、装置、设备及存储介质。

技术介绍

[0002]推荐信息系统发展至今,随着业务量的扩大、数据的指数级增长和用户的快速增长,推荐系统的迭代频率和系统稳定性越来越重要。在推荐系统中,信息召回和信息排序是比较重要的部分,召回指从百万数量级的物料中取出用户可能感兴趣的候选集,排序指的是针对用户个性化和上下文做一次精准排序使得筛选出的物料以相关指标顺序呈现给用户。
[0003]但是,现有的信息排序方法中,在进行日志落盘时需要前端模块配合,为了保证特征稳定性,线上抽取特征的流程需要在离线环境中得到复现。目前的做法是,线上会从redis、上游请求、线上机器/云服务器内存中获取所需要的特征,离线从日志、hive表等数据中以相同的逻辑再抽取一遍这些特征。尽管离线抽取特征的逻辑可以和线上保证一致,但是实际抽取到的数据很难保证100%的一致率,因为离线的抽取需要在离线日志和表中拿到特征,这些数据有可能在离线存储流程中出现丢失和异常,尤其是用户行为相关的数据很容易在离线抽取逻辑中出现时间上的不一致。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提出一种推荐信息日志落盘方法、装置、设备及存储介质,旨在解决如何在不影响其他模块工作的前提下完成日志落盘工作,保证日志数据的一致性的技术问题。
[0006]为实现上述目的,本专利技术提供一种推荐信息日志落盘方法,所述推荐信息日志落盘方法包括:
[0007]获取与推荐信息相关的初始日志数据;
[0008]根据所述初始日志数据生成日志数据流;
[0009]对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;
[0010]基于所述目标日志数据进行日志落盘。
[0011]可选地,所述对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据,包括:
[0012]对所述日志数据流进行流式输送;
[0013]在流式输送过程中,对所述日志数据流进行流式过滤;
[0014]根据流式过滤结果从所述日志数据流中选取目标日志数据。
[0015]可选地,所述在流式输送过程中,对所述日志数据流进行流式过滤,包括:
[0016]在流式输送过程中,根据日志数据流中的日志数据对应的日志信息生成日志信息表;
[0017]对所述日志信息表进行展示;
[0018]在接收到基于展示的日志信息表输入的选择指令时,根据所述选择指令对所述日志数据流进行流式过滤。
[0019]可选地,所述根据所述选择指令对所述日志数据流进行流式过滤,包括:
[0020]根据所述选择指令确定日志选择信息;
[0021]根据所述日志选择信息从所述日志数据流中选取日志数据,以对所述日志数据流进行流式过滤。
[0022]可选地,所述根据流式过滤结果从所述日志数据流中选取目标日志数据,包括:
[0023]根据流式过滤结果确定从日志数据流中选取的多个日志数据;
[0024]根据多个日志数据确定目标日志数据。
[0025]可选地,所述基于所述目标日志数据进行日志落盘,包括:
[0026]根据所述目标日志数据生成训练样本;
[0027]基于所述训练样本进行日志落盘。
[0028]可选地,所述基于所述训练样本进行日志落盘,包括:
[0029]对所述训练样本进行完整度校验;
[0030]在完整度校验通过时,将所述训练样本保存在预设存储空间中,以实现日志落盘。
[0031]可选地,所述将所述训练样本保存在预设存储空间中,以实现日志落盘之后,还包括:
[0032]在需要进行模型训练时,从所述预设存储空间中保存的训练样本中选取目标训练样本;
[0033]根据所述目标训练样本进行模型训练,得到信息推荐模型。
[0034]可选地,所述获取与推荐信息相关的初始日志数据,包括:
[0035]通过消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据。
[0036]可选地,所述通过消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据,包括:
[0037]获取消息队列系统对应的第一环境配置策略;
[0038]根据所述第一环境配置策略配置日志收集环境;
[0039]在所述日志收集环境配置完成时,通过所述消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据。
[0040]可选地,所述在所述日志收集环境配置完成时,通过所述消息队列系统从多个线上服务器获取与推荐信息相关的初始日志数据,包括:
[0041]在所述日志收集环境配置完成时,根据多个线上服务器配置对应的多个生产者;
[0042]通过所述消息队列系统接收多个生产者发送的日志消息;
[0043]根据所述日志消息获取与推荐信息相关的初始日志数据。
[0044]可选地,所述根据所述日志消息获取与推荐信息相关的初始日志数据,包括:
[0045]根据所述日志消息确定对应的主题信息;
[0046]查找所述主题信息对应的目标分区;
[0047]将所述日志消息存储在所述目标分区中;
[0048]通过所述目标分区对应的缓存代理节点从所述目标分区中获取与推荐信息相关的初始日志数据。
[0049]可选地,所述根据所述初始日志数据生成日志数据流,包括:
[0050]获取流处理引擎对应的第二环境配置策略;
[0051]根据所述第二环境配置策略配置流处理消费环境;
[0052]在所述流处理消费环境配置完成时,根据所述初始日志数据通过所述流处理引擎生成日志数据流。
[0053]可选地,所述在所述流处理消费环境配置完成时,根据所述初始日志数据通过所述流处理引擎生成日志数据流,包括:
[0054]在所述流处理消费环境配置完成时,根据所述流处理引擎对所述初始日志数据进行数据流排序;
[0055]根据排序结果确定排序后的初始日志数据;
[0056]根据排序后的初始日志数据生成日志数据流。
[0057]此外,为实现上述目的,本专利技术还提出一种推荐信息日志落盘装置,所述推荐信息日志落盘装置包括:
[0058]数据获取模块,用于获取与推荐信息相关的初始日志数据;
[0059]数据流模块,用于根据所述初始日志数据生成日志数据流;
[0060]数据选取模块,用于对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;
[0061]日志落盘模块,用于基于所述目标日志数据进行日志落盘。
[0062]可选地,所述数据选取模块,还用于对所述日志数据流进行流式输送;在流式输送过程中,对所述日志数据流进行流式过滤;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种推荐信息日志落盘方法,其特征在于,所述推荐信息日志落盘方法包括:获取与推荐信息相关的初始日志数据;根据所述初始日志数据生成日志数据流;对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据;基于所述目标日志数据进行日志落盘。2.如权利要求1所述的推荐信息日志落盘方法,其特征在于,所述对所述日志数据流进行流式过滤,以从所述日志数据流中选取目标日志数据,包括:对所述日志数据流进行流式输送;在流式输送过程中,对所述日志数据流进行流式过滤;根据流式过滤结果从所述日志数据流中选取目标日志数据。3.如权利要求2所述的推荐信息日志落盘方法,其特征在于,所述在流式输送过程中,对所述日志数据流进行流式过滤,包括:在流式输送过程中,根据日志数据流中的日志数据对应的日志信息生成日志信息表;对所述日志信息表进行展示;在接收到基于展示的日志信息表输入的选择指令时,根据所述选择指令对所述日志数据流进行流式过滤。4.如权利要求3所述的推荐信息日志落盘方法,其特征在于,所述根据所述选择指令对所述日志数据流进行流式过滤,包括:根据所述选择指令确定日志选择信息;根据所述日志选择信息从所述日志数据流中选取日志数据,以对所述日志数据流进行流式过滤。5.如权利要求2所述的推荐信息日志落盘方法,其特征在于,所述根据流式过滤结果从所述日志数据流中选取目标日志数据,包括:根据流式过滤结果确定从日志数...

【专利技术属性】
技术研发人员:张任炳
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1