数据处理方法、装置、介质及电子设备制造方法及图纸

技术编号:32859087 阅读:12 留言:0更新日期:2022-03-30 19:35
本申请公开了数据处理方法、装置、介质及电子设备。该方法用于电子设备,包括:获取预定时间段内的历史数据,包括多个用户各自的行为数据,每个用户的数据构成用户序列;从多个用户序列中排除噪音序列,得到多个有效序列,并对每个有效序列进行划分,得到多个有效子序列;以每个有效子序列中的行为数据作为节点,构建无向图;在无向图中,进行多次游走采样,在每次游走采样过程中,基于无向图中的两两节点之间的权重,得到多个采样节点,并将多个采样节点组合成采样序列;为每个采样序列中的每个采样节点添加辅助信息,得到多个训练序列;将多个训练序列输入训练模型,得到每个采样节点的训练数据。本发明专利技术提升了推荐结果的相关性和多样性。多样性。多样性。

【技术实现步骤摘要】
数据处理方法、装置、介质及电子设备


[0001]本申请涉及一种数据处理方法、装置、介质及电子设备。

技术介绍

[0002]目前,业界主流的推荐系统算法可大致概括为如下几种:
[0003]1、基于内容的推荐:结合物品本身信息如文本、图片、音视频等来给用户推荐其喜欢商品的相似商品。该算法的优点是具有很强的解释性,同时推荐的商品推荐较为准确,符合用户的兴趣爱好。缺点是推荐的商品同质化严重,缺乏新颖性和惊喜度,无法挖掘用户其它兴趣点。
[0004]2、基于协同过滤推荐:利用用户的历史行为,如浏览、点击、评论、点赞、分享、转发等数据,来挖掘用户和用户、用户和物品、物品和物品之间的相似度,进而给客户推荐其潜在感兴趣的物品。该方法可以进一步分为基于用户的协同过滤推荐、基于物品的协同过滤推荐和隐语义模型推荐,各方法应用场景也有所不同。由于是基于历史行为数据训练,该算法对新用户和物品都存在冷启动问题。
[0005]3、基于深度模型推荐:比如DeepMatch、DSSM等神经网络模型使用物品、用户、上下文(时间、网络等)等数据特征,充分拟合用户和物品的潜在关联关系,来挖掘用户对物品的潜在购买需求。这类算法通常会把用户和物品均转化向量的形式,并通过余弦相似度等相似度计算方式获取最紧邻的商品作推荐。基于稠密向量的计算也导致了深度模型推荐结果的可解释性很差。此外,该类算法通常需要海量的用户历史数据,在稀疏数据场景下的表现会不尽人意。
[0006]4、基于混合推荐的算法:目前主流的推荐系统框架是多路召回结合排序模型,其中多路召回源里面可以包括基于内容的召回方法、基于协同过滤的召回方法和基于深度模型的召回方法等。
[0007]但是,上述每种方法都有各自的缺点,因此需要提供一种改进的数据处理方法来实现改进的商品推荐。

技术实现思路

[0008]本申请实施例提供了一种数据处理方法、装置、介质及电子设备。
[0009]第一方面,本申请实施例提供了一种数据处理方法,用于电子设备,,所述方法包括:获取步骤,获取预定时间段内的历史数据,所述历史数据包括多个用户各自的一个或多个行为数据,每个所述用户的一个或多个所述行为数据构成用户序列;预处理步骤,从多个所述用户序列中排除噪音序列,得到多个有效序列,并对每个所述有效序列进行划分,得到多个有效子序列;构建步骤,以每个所述有效子序列中的一个或多个所述行为数据作为节点,构建无向图;游走采样步骤,在所述无向图中,进行多次游走采样,其中,在每次游走采样过程中,基于所述无向图中的两两节点之间的权重,得到多个采样节点,并将多个所述采样节点组合成采样序列;添加步骤,为每个所述采样序列中的每个所述采样节点添加辅助
信息,得到多个训练序列;训练步骤,将多个所述训练序列输入训练模型,得到每个所述采样节点的训练数据。
[0010]在上述第一方面的一种可能的实现中,每个所述行为数据包括商品编码,根据所述商品编码可以确定对应商品的预定级类目,其中,每个所述节点具有对应的所述预定级类目。
[0011]在上述第一方面的一种可能的实现中,所述游走采样步骤包括:统计步骤,统计属于同一有效子序列内的两两节点的一对所述预定级类目的共现频次,以确定属于同一有效子序列内的每个节点与其他节点之间的类目共现频次,作为所述权重;阈值确定步骤,基于多个所述类目共现频次中的最大类目共现频次,确定权重阈值;采样步骤,在每次游走采样过程中,以所述无向图中的任一个节点作为起始节点,游走到与所述起始节点之间具有权重的下一个节点,并将所述起始节点与所述下一个节点之间的所述权重大于等于所述权重阈值的所述起始节点与所述下一个节点作为所述采样节点。
[0012]在上述第一方面的一种可能的实现中,在采样步骤中,如果所述起始节点与所述下一个节点之间的所述权重小于所述权重阈值,则判断所述起始节点的所述预定级类目与所述下一个节点的所述预定级类目是否属于预定的同一行业知识图谱,并将属于所述预定的同一行业知识图谱的所述起始节点与所述下一个节点作为所述采样节点。
[0013]在上述第一方面的一种可能的实现中,如果所述起始节点与所述下一个节点不属于预定的同一行业知识图谱,则返回所述起始节点,并游走到与所述起始节点之间具有权重的另一个节点。
[0014]在上述第一方面的一种可能的实现中,在每次游走采样过程中,如果所述采样节点的数量达到预定数量,或者与所述起始节点之间具有权重的所有节点都被游走采样之后,停止游走采样。
[0015]在上述第一方面的一种可能的实现中,在多次所述游走采样之后,得到对应的多个所述采样序列。
[0016]在上述第一方面的一种可能的实现中,同一有效子序列内的相同的一对预定级类目的共现频次不会累加,并且不同有效子序列内的相同的一对预定级类目的共现频次进行累加。
[0017]在上述第一方面的一种可能的实现中,在所述阈值确定步骤中,确定所述最大共现频次的预定百分比范围的频次范围,并从所述频次范围内取出一个共现频次,作为所述权重阈值。
[0018]在上述第一方面的一种可能的实现中,将所述行为数据的数量大于第一预定噪音数量的用户序列、或在预定时间内的所述行为数据的数量大于第二预定噪音数量的用户序列作为所述噪音序列进行排除。
[0019]在上述第一方面的一种可能的实现中,以预定数量和/或预定时间间隔的行为数据,对每个所述有效序列进行划分。
[0020]在上述第一方面的一种可能的实现中,进一步包括排序步骤,对每个所述采样节点的训练数据进行计算,得到每个所述采样节点的相似度,并根据多个所述相似度对多个所述采样节点进行排序,以获取多个推荐节点,从而将与每个所述推荐节点对应的商品作为推荐商品。
[0021]在上述第一方面的一种可能的实现中,所述辅助信息是商品的类目、品牌、价格中的一个或多个。
[0022]第二方面,本申请实施例提供了一种数据处理装置,用于电子设备,其特征在于,所述装置包括:获取单元,获取预定时间段内的历史数据,所述历史数据包括多个用户各自的一个或多个行为数据,每个所述用户的一个或多个所述行为数据构成用户序列;预处理单元,从多个所述用户序列中排除噪音序列,得到多个有效序列,并对每个所述有效序列进行划分,得到多个有效子序列;构建单元,以每个所述有效子序列中的一个或多个所述行为数据作为节点,构建无向图;游走采样单元,在所述无向图中,进行多次游走采样,其中,在每次游走采样过程中,基于所述无向图中的两两节点之间的权重,得到多个采样节点,并将多个所述采样节点组合成采样序列;添加单元,为每个所述采样序列中的每个所述采样节点添加辅助信息,得到多个训练序列;训练单元,将多个所述训练序列输入训练模型,得到每个所述采样节点的训练数据。上述获取单元、预处理单元、构建单元、游走采样单元、添加单元、训练单元可以通过电子设备中具有这些模块或单元功能的处理器实现。
[0023]第三方面,本申请实施例提供了一种计算机可读存储介质,该存储介质上存储有指令,该指令在计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,用于电子设备,其特征在于,所述方法包括:获取步骤,获取预定时间段内的历史数据,所述历史数据包括多个用户各自的一个或多个行为数据,每个所述用户的一个或多个所述行为数据构成用户序列;预处理步骤,从多个所述用户序列中排除噪音序列,得到多个有效序列,并对每个所述有效序列进行划分,得到多个有效子序列;构建步骤,以每个所述有效子序列中的一个或多个所述行为数据作为节点,构建无向图;游走采样步骤,在所述无向图中,进行多次游走采样,其中,在每次游走采样过程中,基于所述无向图中的两两节点之间的权重,得到多个采样节点,并将多个所述采样节点组合成采样序列;添加步骤,为每个所述采样序列中的每个所述采样节点添加辅助信息,得到多个训练序列;训练步骤,将多个所述训练序列输入训练模型,得到每个所述采样节点的训练数据。2.根据权利要求1所述的方法,其特征在于,每个所述行为数据包括商品编码,根据所述商品编码可以确定对应商品的预定级类目,其中,每个所述节点具有对应的所述预定级类目。3.根据权利要求2所述的方法,其特征在于,所述游走采样步骤包括:统计步骤,统计属于同一有效子序列内的两两节点的一对所述预定级类目的共现频次,以确定属于同一有效子序列内的每个节点与其他节点之间的类目共现频次,作为所述权重;阈值确定步骤,基于多个所述类目共现频次中的最大类目共现频次,确定权重阈值;采样步骤,在每次游走采样过程中,以所述无向图中的任一个节点作为起始节点,游走到与所述起始节点之间具有权重的下一个节点,并将所述起始节点与所述下一个节点之间的所述权重大于等于所述权重阈值的所述起始节点与所述下一个节点作为所述采样节点。4.根据权利要求3所述的方法,其特征在于,在采样步骤中,如果所述起始节点与所述下一个节点之间的所述权重小于所述权重阈值,则判断所述起始节点的所述预定级类目与所述下一个节点的所述预定级类目是否属于预定的同一行业知识图谱,并将属于所述预定的同一行业知识图谱的所述起始节点与所述下一个节点作为所述采样节点。5.根据权利要求4所述的方法,其特征在于,如果所述起始节点与所述下一个节点不属于预定的同一行业知识图谱,则返回所述起始节点,并游走到与所述起始节点之间具有权重的另一个节点。6.根据权利要求5所述的方法,其特征在于,在每次游走采样过程中,如果所述采样节点的数量达到预定数量,或者与所述起始节点之间具有权重的所有节点都被游走采样之后,停止游走采样。7.根据权利要求6所述的方法,其特征在于,在多次所述游走采样之后,得到对应的多个所述采样序列。8.根据权利要求3

7中任一项所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:宋江涛王东
申请(专利权)人:震坤行工业超市上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1