一种推荐系统的神经网络模型数据处理方法和装置制造方法及图纸

技术编号：42990907 阅读：19 留言：0更新日期：2024-10-15 13:21

本发明专利技术公开了一种推荐系统的神经网络模型数据处理方法和装置，所述方法包括：获取推荐候选特征数据，包括类别型特征数据和数值型特征数据；对类别型特征数据通过查找表获得其嵌入表示；对数值型特征数据，通过设置窗口大小k和加权基数b，根据窗口大小k和加权基数b计算主分桶的加权系数m和相邻分桶的加权系数p，通过归一化和分桶处理得到分桶中的数值，再计算分桶所在的主分桶的嵌入向量和与主分桶相邻的数量为窗口大小的k个左和k个右分桶的嵌入向量的加权平均值，获得分桶中的数值的嵌入表示；再将两种特征数据的嵌入表示拼接后输入到推荐系统的神经网络模型，提高模型数据处理的准确性和模型的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于电子数据处理，具体涉及推荐系统的神经网络模型数据处理方法和装置。

技术介绍

1、推荐系统的神经网络模型是近年来在推荐系统领域应用的一种技术，它利用神经网络模型的特征提取和学习能力，从用户的历史行为、物品的属性等多维度数据中学习用户和物品之间的复杂关系，从而为用户提供个性化和精准的推荐。电商推荐神经网络模型是推荐系统领域中研究和应用较为广泛的一种，其是电商平台中用于提升用户体验和增加销售额的重要工具。这类模型通过模拟人脑神经元的工作原理，对大量的用户行为数据和商品信息进行深度学习和分析，从而为用户提供个性化的商品推荐。

2、在深度神经网络中，常常使用嵌入方法对数据进行表示。对于类别型特征数据，如电商推荐系统中的用户和商品属性信息，一般通过哈希方法为其分配一个低维稠密向量，通常称为“embedding”（嵌入），然后通过基于梯度下降的学习方法来更新该参数。对于数值型特征数据，如电商推荐系统中的用户和商品的关联特征信息，则经常会通过分桶的方式先将其离散化，再为其分配一个低维稠密向量，但是这样的数据处理方法存在两个问题：一是值相近但嵌入差异大，即sbd (similar value but dis-similar embedding)，这些划分方法可能存在将相似的值划分到不同的组，从而导致最终的embedding表征相差很大，比如一些边界值；二是值差异大但嵌入一致，即dbs (dis-similar value but sameembedding)，同一个桶中可能会包含两个相差很大的值，但是他们却被分到一组，例

3、最新的autodis方法采取元学习（meta learning）的方式来解决sbd和dbs问题。元学习的方式概括起来，首先为每个域（field）的数值型特征定义了一组meta-embeddings。接着，通过一个神经网络学习自动对每个域的特征值进行离散化，并将其分配到不同的meta-embeddings桶中，因此每个领域的特征值可能分到一个桶中也可能分到多个桶中。最后，通过一个神经网络学习多个桶embedding的权重，依据权重将多个桶的embedding结果聚合，得到最后连续特征值的embedding。其中，聚合有三种方式： 1.最大池化：选取概率值最高的meta-embeddings桶作为特征值的最后embedding表示；2.top-k 求和：选取概率最高的top-k embedding求和；3.加权平均：用概率逻辑值加权平均得到。然而，autodis需借助神经网络来学习多个分桶的权重，因此，其数据处理过程较为复杂，在推荐系统，尤其是数据量巨大的电商推荐系统中，复杂的数据处理需要配置更高的硬件资源，同时增加计算成本，进而影响推荐系统的响应速度。

4、因此急需对现有技术进行改进，寻找一种简单可靠应用于推荐系统的神经网络模型数据处理方法。

技术实现思路

1、为了克服现有技术的不足，本专利技术提出了一种推荐系统的神经网络模型数据处理方法和装置。

2、为了实现上述目的，本专利技术的推荐系统的神经网络模型的数据处理方法和装置，采用以下技术方案：

3、第一方面，提供了一种推荐系统的神经网络模型数据处理方法，其方法包括：

4、s1：获取推荐候选特征数据，该特征数据包括类别型特征数据和数值型特征数据，其中类别型特征数据包括用户id、商品id、品类id、品牌id和用户行为类型；数值型特征数据包括用户画像特征和商品画像特征；

5、s2：对于类别型特征数据，通过查找表获得其embedding表示；

6、s3：对于数值型特征数据，设置窗口大小k和加权基数b，根据窗口大小k和加权基数b计算主分桶的加权系数m和相邻分桶的加权系数p；

7、s4：对数值型特征数据进行归一化和分桶处理，得到分桶中的数值；

8、s5：对于分桶中的数值，计算所述分桶所在的主分桶的embedding向量和与主分桶相邻的数量为窗口大小的k个左和k个右分桶的embedding向量的加权平均值，获得所述分桶中的数值的embedding表示；

9、s6：将s2获得的类别型特征数据的embedding表示和s5获得的数值型特征数据的embedding表示进行拼接，获得所述候选特征数据的完整embedding表示；

10、s7：将所述完整embedding表示，输出到推荐系统的神经网络模型。

11、进一步地，在步骤s7后，还包括步骤s8，其通过神经网络模型处理，输出当前用户对商品的兴趣评分值，根据所述商品的兴趣评分值从高至低依次排序，形成针对当前用户的推荐商品列表。

12、进一步地，步骤s3中，令，令i遍历1到k-1，，，所述表示对于进行求和计算。

13、进一步地，步骤s4中的分桶处理采用等距分桶。

14、进一步地，对于分桶中的数值，其所在的主分桶的embedding向量记为embedding_table[n]，其中，n为分桶下标，分桶中的数值的embedding 表示的具体计算过程如下：

15、步骤s51：计算主分桶的加权embedding：;

16、步骤s52：计算左、右分桶的加权embedding：令i遍历1到k，分别计算左分桶的和右分桶的；

17、步骤s53：将主分桶的加权embedding和左、右分桶的加权embedding相加，得到分桶中的数值的embedding 表示。

18、第二方面，本专利技术还包括一种推荐系统的神经网络模型数据处理装置，包括：

19、数据获取模块，用于获取推荐候选特征数据，特征数据包括类别型特征数据和数值型特征数据，所述类别型特征数据包括用户id、商品id、品类id、品牌id和用户行为类型数据；所述数值型数据包括用户画像特征和商品画像特征数据；

20、类别型特征数据处理模块，用于通过查找表获取类别型特征数据的embedding表示；

21、数值型特征数据处理模块，用于获取所述数值型特征数据的embedding表示，包括参数设置子模块，用于设置窗口大小k和加权基数b，根据窗口大小k和加权基数b计算主分桶的加权系数m和相邻分桶的加权系数p；数据处理子模块，用于对数值型特征进行归一化和分桶处理，得到分桶中的数值；计算子模块，用于计算嵌入值，对于分桶中的数值，计算所述分桶所在的主分桶的embedding向量和与主分桶相邻的数量为窗口大小的k个左和k个右分桶的embedding向量的加权平均值，获得所述分桶中的数值的embedding表示。

22、拼接模块：将类别型特征数据处理模块和数值本文档来自技高网...

【技术保护点】

1.一种推荐系统的神经网络模型数据处理方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的推荐系统的神经网络模型数据处理方法，其特征在于，在S3中，所述加权系数m和加权系数p，具体为：令，令i遍历1到k-1，，，所述表示对于进行求和计算。

3.根据权利要求1所述的推荐系统的神经网络模型数据处理方法，其特征在于，在S4中，所述分桶处理采用等距分桶。

4. 根据权利要求1所述的推荐系统的神经网络模型数据处理方法，其特征在于，在S5中还包括，对于分桶中的数值，将其所在的主分桶的embedding向量记为embedding_table[n]，其中，n为分桶下标，所述分桶中的数值的embedding 表示的具体计算过程如下：

5.根据权利要求1所述的推荐系统的神经网络模型数据处理方法，其特征在于，所述类别型特征数据包括用户ID、商品ID、品类ID、品牌ID和用户行为类型；所述数值型特征数据包括用户画像特征和商品画像特征。

6.根据权利要求5所述的推荐系统的神经网络模型数据处理方法，其特征在于，在所述S7后，还包括：</p>

7.一种推荐系统的神经网络模型数据处理装置，其特征在于，包括：

8.根据权利要求7所述推荐系统的神经网络模型数据处理装置，其特征在于，所述参数设置子模块，具体用于：令，令i遍历1到k-1，，，表示对于进行求和计算。

9.根据权利要求7所述的推荐系统的神经网络模型数据处理装置，其特征在于，所述数据处理子模块中的分桶处理，采用等距分桶。

10.根据权利要求7所述的推荐系统的神经网络模型数据处理装置，其特征在于，所述计算子模块，用于计算嵌入值时：

...

【技术特征摘要】

1.一种推荐系统的神经网络模型数据处理方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的推荐系统的神经网络模型数据处理方法，其特征在于，在s3中，所述加权系数m和加权系数p，具体为：令，令i遍历1到k-1，，，所述表示对于进行求和计算。

3.根据权利要求1所述的推荐系统的神经网络模型数据处理方法，其特征在于，在s4中，所述分桶处理采用等距分桶。

4. 根据权利要求1所述的推荐系统的神经网络模型数据处理方法，其特征在于，在s5中还包括，对于分桶中的数值，将其所在的主分桶的embedding向量记为embedding_table[n]，其中，n为分桶下标，所述分桶中的数值的embedding 表示的具体计算过程如下：

5.根据权利要求1所述的推荐系统的神经网络模型数据处理方法...

【专利技术属性】
技术研发人员：陈义璟，
申请(专利权)人：中免日上互联科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人