数据处理方法、装置、设备以及介质制造方法及图纸

技术编号：43159654 阅读：15 留言：0更新日期：2024-11-01 19:53

本申请实施例提供了一种数据处理方法、装置、设备以及介质，该方法可应用在自然语言处理领域中，用于增强物品嵌入表征的有效性。该方法包括：获取各个物品的第一文本表示以及各个对象的历史物品序列的第二文本表示；根据预训练语言模型对第一训练样本进行文本预测，得到第一训练样本中的隐藏位置对应的预测概率；根据预训练语言模型，对第一训练样本和第一正样本进行物品比对，得到第一样本相似度；根据预测概率、第一训练样本中的隐藏位置，以及第一样本相似度，对预训练语言模型进行训练；根据第二训练样本对训练后的预训练语言模型进行调整，得到调整后的预训练语言模型；调整后的预训练语言模型用于对物品的嵌入表征进行初始化。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种数据处理方法、装置、设备以及介质。

技术介绍

1、序列推荐作为推荐系统中的重要任务，通过各个对象的历史物品(item)交互序列(如购买物品的序列)来建模，学习各个对象的兴趣变化，进而能够对各个对象下一个交互的物品进行预测。目前的序列推荐建模场景中，利用历史物品交互序列对该序列推荐模型进行训练，训练完成的序列推荐模型可以提取对象兴趣的特征表达，这些特征表达可以与各个物品对应的物品嵌入信息相结合，以推荐对象的下一个交互物品；可见，物品嵌入信息的质量会直接影响训练后的序列推荐模型的推荐效果。目前的物品嵌入信息通常是采用随机初始化方式，或使用网络模型对物品文本表示进行向量化处理后所得到的向量进行初始化，由于物品的文本表示与历史物品交互序列之间存在巨大表征差异，影响了物品嵌入信息的有效性。

技术实现思路

1、本申请实施例提供一种数据处理方法、装置、设备以及介质，可以充分利用预训练语言模型中的先验知识，进而增强物品嵌入表征的有效性。

2、本申请实施例一方面提供了一种数据处理方法，包括：

3、获取物品集合中的各个物品对应的第一文本表示，根据第一文本表示，获取对象集合中的各个对象的历史物品序列所对应的第二文本表示；

4、根据第二文本表示生成第一训练样本，根据预训练语言模型对第一训练样本进行文本预测，得到第一训练样本中的隐藏位置对应的预测概率；第一训练样本包含正样本和负样本；

5、根据预训练语言模型，对第一训练样本和第一

6、根据预测概率、第一训练样本中的隐藏位置，以及第一样本相似度，对预训练语言模型进行训练，得到训练后的预训练语言模型；

7、根据第二文本表示生成第二训练样本，根据训练后的预训练语言模型，对第二训练样本和第二训练样本对应的第二正样本进行物品比对，得到第二样本相似度；第二训练样本不包含正样本；

8、根据第二样本相似度对训练后的预训练语言模型进行调整，得到调整后的预训练语言模型；调整后的预训练语言模型用于对物品的嵌入表征进行初始化。

9、本申请实施例一方面提供了一种数据处理装置，包括：

10、文本获取模块，用于获取物品集合中的各个物品对应的第一文本表示，根据第一文本表示，获取对象集合中的各个对象的历史物品序列所对应的第二文本表示；

11、文本预测模块，用于根据第二文本表示生成第一训练样本，根据预训练语言模型对第一训练样本进行文本预测，得到第一训练样本中的隐藏位置对应的预测概率；第一训练样本包含正样本和负样本；

12、第一物品比对模块，用于根据预训练语言模型，对第一训练样本和第一训练样本对应的第一正样本进行物品比对，得到第一样本相似度；

13、模型预训练模块，用于根据预测概率、第一训练样本中的隐藏位置，以及第一样本相似度，对预训练语言模型进行训练，得到训练后的预训练语言模型；

14、第二物品比对模块，用于根据第二文本表示生成第二训练样本，根据训练后的预训练语言模型，对第二训练样本和第二训练样本对应的第二正样本进行物品比对，得到第二样本相似度；第二训练样本不包含正样本；

15、模型调整模块，用于根据第二样本相似度对训练后的预训练语言模型进行调整，得到调整后的预训练语言模型；调整后的预训练语言模型用于对物品的嵌入表征进行初始化。

16、其中，文本获取模块获取物品集合中的各个物品对应的第一文本表示，根据第一文本表示，获取对象集合中的各个对象的历史物品序列所对应的第二文本表示，用于执行以下步骤：

17、获取物品集合中的各个物品对应的物品类型、物品标识以及物品名称，将同一个物品对应的物品类型、物品标识以及物品名称进行组合，得到各个物品对应的第一文本表示；

18、获取对象集合中的各个对象对应的历史物品序列，根据历史物品序列中所包含的物品对应的交互时间，对历史物品序列中所包含的物品进行降序排序，得到排序后的历史物品序列；

19、对排序后的历史物品序列中所包含的物品对应的第一文本表示进行拼接，得到各个对象的历史物品序列所对应的第二文本表示。

20、其中，文本预测模块根据第二文本表示生成第一训练样本，用于执行以下步骤：

21、根据文本选取比例确定第二文本表示中的隐藏位置，将隐藏位置的文本确定为候选文本表示；

22、对第二文本表示中的候选文本表示进行隐藏处理，得到初始样本，为初始样本添加标志文本，得到第一训练样本。

23、其中，文本预测模块对第二文本表示中的候选文本表示进行隐藏处理，得到初始样本，用于执行以下步骤：

24、采用第一隐藏概率和第二隐藏概率，对第二文本表示中的候选文本表示进行隐藏处理，得到初始样本；

25、其中，第一隐藏概率是指将第二文本表示中的候选文本表示替换为掩码的概率，第二隐藏概率是指将第二文本表示中的候选文本表示替换为随机文本表示的概率。

26、其中，文本预测模块根据预训练语言模型对第一训练样本进行文本预测，得到第一训练样本中的隐藏位置对应的预测概率，用于执行以下步骤：

27、将第一训练样本输入至预训练语言模型，通过预训练语言模型对第一训练样本进行编码处理，得到第一训练样本对应的第一样本嵌入表征；

28、根据第一样本嵌入表征对第一训练样本中的隐藏位置进行文本预测，得到第一训练样本中的隐藏位置对应的预测概率。

29、其中，第一物品比对模块根据预训练语言模型，对第一训练样本和第一训练样本对应的第一正样本进行物品比对，得到第一样本相似度，用于执行以下步骤：

30、将第一训练样本对应的后序交互物品的第一文本表示，确定为第一正样本；第一训练样本和第一正样本属于同一个对象的历史交互物品；

31、将第一正样本输入至预训练语言模型，通过预训练语言模型中的编码器对第一正样本进行编码处理，得到第一正样本对应的第二样本嵌入表征；

32、获取第一正样本关联的对象所对应的第一对象嵌入表征，根据第一对象嵌入表征、第二样本嵌入表征，以及第一训练样本对应的第一样本嵌入表征，得到第一样本相似度。

33、其中，第一训练样本的数量为m个，m为正整数；

34、第一物品比对模块根据第一对象嵌入表征、第二样本嵌入表征，以及第一训练样本对应的第一样本嵌入表征，得到第一样本相似度，用于执行以下步骤：

35、获取第一对象嵌入表征和第二样本嵌入表征之间的第一特征相似度，对第一特征相似度进行指数运算，得到第一相似候选值；

36、获取第一对象嵌入表征和各个第一训练样本对应的第一样本嵌入表征之间的第二特征相似度，对第二特征相似度进行指数运算，得到各个第一训练样本关联的第二候选相似值；

37、对各个第一训练样本关联的第二候选相似值进行累加，得到累计相似值，根据第一本文档来自技高网...

【技术保护点】

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取物品集合中的各个物品对应的第一文本表示，根据所述第一文本表示，获取对象集合中的各个对象的历史物品序列所对应的第二文本表示，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第二文本表示生成第一训练样本，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述第二文本表示中的候选文本表示进行隐藏处理，得到初始样本，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据预训练语言模型对所述第一训练样本进行文本预测，得到所述第一训练样本中的隐藏位置对应的预测概率，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述预训练语言模型，对所述第一训练样本和所述第一训练样本对应的第一正样本进行物品比对，得到第一样本相似度，包括：

7.根据权利要求6所述的方法，其特征在于，所述第一训练样本的数量为M个，M为正整数；

8.根据权利要求1所述的方法，其特征在于，所述第一训练样本中的隐藏位置为N个，N为正整数；

9.根据权利要求1所述的方法，其特征在于，所述根据所述第二文本表示生成第二训练样本，根据所述训练后的预训练语言模型，对所述第二训练样本和所述第二训练样本对应的第二正样本进行物品比对，得到第二样本相似度，包括：

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

12.一种数据处理装置，其特征在于，包括：

13.一种计算机设备，其特征在于，包括存储器和处理器；

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1至11任一项所述的方法。

15.一种计算机程序产品，其特征在于，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1至11任一项所述的方法。

...

【技术特征摘要】

1.一种数据处理方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第二文本表示生成第一训练样本，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述第二文本表示中的候选文本表示进行隐藏处理，得到初始样本，包括：

7.根据权利要求6所述的方法，其特征在于，所述第一训练样本的数量为m个，m为正整数；

8.根据权利...

【专利技术属性】
技术研发人员：谢若冰，瞿泽凯，肖朝军，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人