一种数据处理方法及相关装置制造方法及图纸

技术编号:38534206 阅读:9 留言:0更新日期:2023-08-19 17:05
一种数据处理方法,可以应用于人工智能领域,包括:获取第一数据;所述第一数据包括用户或物品在多个维度上的属性信息;根据所述第一数据,生成第二数据,所述第二数据为用于描述所述属性信息的自然语言文本;根据所述第一数据,通过嵌入网络,得到第一特征表示,所述第一特征表示包括多个嵌入向量,每个嵌入向量对应于一个维度;根据所述第二数据,通过自然语言处理模型,得到第二特征表示,所述第二特征表示包含所述第二数据的语义特征;根据所述第二特征表示和所述第一特征表示之间的差异,更新所述嵌入网络,得到更新后的所述嵌入网络。本申请将协同信息和语义信息联合起来进行建模,能够充分的利用语言模型的知识,从而提升预测效果。效果。效果。

【技术实现步骤摘要】
一种数据处理方法及相关装置


[0001]本申请涉及人工智能领域,尤其涉及一种数据处理方法及相关装置。

技术介绍

[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]大规模的信息检索系统(如推荐系统、搜索引擎或计算广告)旨在通过从海量的物品(如实体物品、信息、广告、音乐、视频、软件应用等)中检索,为用户提供最感兴趣的物品。通常情况下,传统的推荐模型利用用户和物品的属性等信息,通过计算相似度和建立用户

物品关系模型来预测用户对未知物品的兴趣度。这种模型的优点在于其架构简单,并且在线推理时延低。
[0004]然而,在用户和物品属性中通常会出现文字信息,如物品的品牌名、电影的标题等信息。现有的推荐模型不能建模语义信息,而且只能利用数据集内的协同信息进行建模,无法获取外部的语义知识。从而会导致推荐模型的推荐精度较差。

技术实现思路

[0005]本申请提供了一种数据处理方法,可以提高推荐模型的推荐精度。
[0006]第一方面,本申请提供了一种数据处理方法,所述方法包括:获取第一数据;所述第一数据包括用户或物品在多个维度上的属性信息;根据所述第一数据,生成第二数据,所述第二数据为用于描述所述属性信息的自然语言文本;根据所述第一数据,通过嵌入网络,得到第一特征表示,所述第一特征表示包括多个嵌入向量,每个嵌入向量对应于一个维度;根据所述第二数据,通过自然语言处理模型,得到第二特征表示,所述第二特征表示包含所述第二数据的语义特征;根据所述第二特征表示和所述第一特征表示之间的差异,更新所述嵌入网络,得到更新后的所述嵌入网络。
[0007]相比现有技术中仅基于协同信号的推荐模型很难建模语义信号以及获取外部世界的知识。本申请实施例将协同信息和语义信息联合起来进行建模,能够充分的利用语言模型的知识,从而提升预测效果。
[0008]在一种可能的实现中,所述第二数据包括多个字符单元,所述自然语言处理模型在处理每个所述字符单元时参考每个所述字符单元以及每个所述字符单元在所述第二数据中的上下文。
[0009]在一种可能的实现中,所述第二数据包括所述维度的字符、所述属性信息的字符以及表示所述维度和所述属性信息之间关联的字符。
[0010]在一种可能的实现中,所述第二数据还包括指示不同维度的属性信息之间的分隔
的字符。
[0011]在一种可能的实现中,所述第一数据包括用户和物品在多个维度上的属性信息,所述第二数据还包括指示用户的属性信息和物品的属性信息之间的分隔的字符。
[0012]在一种可能的实现中,所述第一数据为表格数据。
[0013]在一种可能的实现中,所述方法还包括:
[0014]将所述第一特征表示和所述第二特征表示映射到相同的维度;
[0015]所述根据所述第二特征表示和所述第一特征表示之间的差异,包括:
[0016]根据映射后的所述第二特征表示和映射后的所述第一特征表示之间的差异。
[0017]在一种可能的实现中,所述方法还包括:
[0018]根据所述第二特征表示和所述第一特征表示之间的差异,更新所述自然语言处理模型,得到更新后的所述自然语言处理模型。
[0019]第二方面,本申请提供了一种数据处理方法,所述方法包括:
[0020]获取第二用户和第二物品的属性信息、以及所述第二用户对所述第二物品的操作日志;
[0021]根据所述第二用户和第二物品的属性信息,通过推荐模型,得到所述第二用户对所述第二物品的预测操作信息,所述推荐模型包括如第一方面介绍的任一所述的更新后的嵌入网络;
[0022]根据所述操作日志和所述预测操作信息,对所述推荐模型进行微调。
[0023]第三方面,本申请提供了一种数据处理方法,所述方法包括:
[0024]获取第三用户和第三物品的属性信息;
[0025]根据所述第三用户和第三物品的属性信息,通过推荐模型,得到所述第二用户对所述第二物品的预测操作信息,所述推荐模型包括如第一方面介绍的任一所述的更新后的嵌入网络、或者如第二方面介绍的微调后的推荐模型;
[0026]在所述预测操作信息满足预设条件时,对所述第三用户进行所述第三物品的推荐。
[0027]本申请实施例中,虽然在训练时使用了自然语言处理模型,但是在实际线上推理时并不使用自然语言处理模型,而是使用协同模型(其中融入了自然语言处理模型的处理能力),在提升协同模型效果的同时保证了模型的低时延特性。
[0028]第四方面,本申请提供了一种数据处理装置,所述装置包括:
[0029]获取模块,用于获取第一数据;所述第一数据包括用户或物品在多个维度上的属性信息;
[0030]处理模块,用于根据所述第一数据,生成第二数据,所述第二数据为用于描述所述属性信息的自然语言文本;
[0031]根据所述第一数据,通过嵌入网络,得到第一特征表示,所述第一特征表示包括多个嵌入向量,每个嵌入向量对应于一个维度;
[0032]根据所述第二数据,通过自然语言处理模型,得到第二特征表示,所述第二特征表示包含所述第二数据的语义特征;
[0033]根据所述第二特征表示和所述第一特征表示之间的差异,更新所述嵌入网络,得到更新后的所述嵌入网络。
[0034]在一种可能的实现中,所述第二数据包括多个字符单元,所述自然语言处理模型在处理每个所述字符单元时参考每个所述字符单元以及每个所述字符单元在所述第二数据中的上下文。
[0035]在一种可能的实现中,所述第二数据包括所述维度的字符、所述属性信息的字符以及表示所述维度和所述属性信息之间关联的字符。
[0036]在一种可能的实现中,所述第二数据还包括指示不同维度的属性信息之间的分隔的字符。
[0037]在一种可能的实现中,所述第一数据包括用户和物品在多个维度上的属性信息,所述第二数据还包括指示用户的属性信息和物品的属性信息之间的分隔的字符。
[0038]在一种可能的实现中,所述第一数据为表格数据。
[0039]在一种可能的实现中,所述处理模块,还用于:
[0040]将所述第一特征表示和所述第二特征表示映射到相同的维度;
[0041]所述处理模块,具体用于:
[0042]根据映射后的所述第二特征表示和映射后的所述第一特征表示之间的差异。
[0043]在一种可能的实现中,所述处理模块,还用于:
[0044]根据所述第二特征表示和所述第一特征表示之间的差异,更新所述自然本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取第一数据;所述第一数据包括用户或物品在多个维度上的属性信息;根据所述第一数据,生成第二数据,所述第二数据为用于描述所述属性信息的自然语言文本;根据所述第一数据,通过嵌入网络,得到第一特征表示,所述第一特征表示包括多个嵌入向量,每个嵌入向量对应于一个维度;根据所述第二数据,通过自然语言处理模型,得到第二特征表示,所述第二特征表示包含所述第二数据的语义特征;根据所述第二特征表示和所述第一特征表示之间的差异,更新所述嵌入网络,得到更新后的所述嵌入网络。2.根据权利要求1所述的方法,其特征在于,所述第二数据包括多个字符单元,所述自然语言处理模型在处理每个所述字符单元时参考每个所述字符单元以及每个所述字符单元在所述第二数据中的上下文。3.根据权利要求1或2所述的方法,其特征在于,所述第二数据包括:所述维度的字符、所述属性信息的字符以及表示所述维度和所述属性信息之间关联的字符。4.根据权利要求3所述的方法,其特征在于,所述第二数据还包括指示不同维度的属性信息之间的分隔的字符。5.根据权利要求3或4所述的方法,其特征在于,所述第一数据包括用户和物品在多个维度上的属性信息,所述第二数据还包括指示用户的属性信息和物品的属性信息之间的分隔的字符。6.根据权利要求1至5任一所述的方法,其特征在于,所述第一数据为表格数据。7.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:将所述第一特征表示和所述第二特征表示映射到相同的维度;所述根据所述第二特征表示和所述第一特征表示之间的差异,包括:根据映射后的所述第二特征表示和映射后的所述第一特征表示之间的差异。8.根据权利要求1至7任一所述的方法,其特征在于,所述方法还包括:根据所述第二特征表示和所述第一特征表示之间的差异,更新所述自然语言处理模型,得到更新后的所述自然语言处理模型。9.一种数据处理方法,其特征在于,所述方法包括:获取第二用户和第二物品的属性信息、以及所述第二用户对所述第二物品的操作日志;根据所述第二用户和第二物品的属性信息,通过推荐模型,得到所述第二用户对所述第二物品的预测操作信息,所述推荐模型包括如权利要求1至8任一所述的更新后的嵌入网络;根据所述操作日志和所述预测操作信息,对所述推荐模型进行微调。10.一种数据处理方法,其特征在于,所述方法包括:获取第三用户和第三物品的属性信息;根据所述第三用户和第三物品的属性信息,通过推荐模型,得到所述第二用户对所述
第二物品的预测操作信息,所述推荐模型包括如权利要求1至8任一所述的更新后的嵌入网络、或者如权利要求9所述的微调后的推荐模型;在所述预测操作信息满足预设条件时,对所述第三用户进行所述第三物品的推荐。11.一种数据处理装置,其特征在于,所述装置包括:获取模块,用于获取第一数据;所述第一数据包括用户或物品在多个维度上的属性信息;处理模块,用于根据所述第一数据,生成第二数据,所述第二数据为用于描述所述属性信息的自然语言文本;根据所述第一数据,通过嵌入网络,得到第一特征表示,所...

【专利技术属性】
技术研发人员:李向阳陈渤侯璐唐睿明姚骏
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1