一种基于无监督学习的推荐方法及系统技术方案

技术编号:31799644 阅读:31 留言:0更新日期:2022-01-08 11:00
本发明专利技术公开了一种基于无监督学习的推荐方法及系统,方法包括以下步骤:获取第一训练数据,第一训练数据第一次输入bert模型,得到第二训练数据,第一训练数据第二次输入bert模型,得到第三训练数据;第二训练数据和第三训练数据构成正样本对和负样本对,正样本对和负样本输入loss函数,得到损失值;判断损失值是否在预设阈值内,若是,得到精准bert模型;获取用户数据,将处理后的用户数据输入精准bert模型,计算用户数据和待推荐数据的相似度分数,根据相似度分数对用户进行推荐,有益效果在于能更好的解决词的多层特征表示和一词多义的问题,减少需要人工标注的资源,能很好的缓解标注资源不足的问题,同时可以极大的提高推荐速度。速度。速度。

【技术实现步骤摘要】
一种基于无监督学习的推荐方法及系统


[0001]本专利技术属于推荐方法
,更具体地说,本专利技术涉及一种基于无监督学习的推荐方法及系统。

技术介绍

[0002]在推荐系统项目中,例如影视作品推荐,通常使用文本相似度(text similarity)来进行相似物品推荐,文本相似度是一种比较常用的推荐算法。文本相似度在推荐系统项目中的应用,可以归结为对简介文本计算相似度分数,通过相似度分数进行排序,根据排序结果进行推荐。在工业场景的推荐项目中,经常面临没有标注数据的问题,同时也需要考虑推荐算法的性能问题,针对工业场景的推荐项目中目前的技术方案存在以下缺陷:
[0003]第一,一种方法是使用大规模语料库,通过word2vec训练出语料库文本词向量,训练完成后将文本进行分词操作,并找出每个词对应的词向量。对文本的所有词向量进行池化操作,生成固定维度的句向量,计算两个句向量的余弦相似度来衡量文本之间的相关程度。
[0004]word2ve方法的局限之一是无法解决一词多义的问题。word2vec由词义的分布式假设出发,分布式假设的含义是一个单词的意思由频繁出现在它上下文的词给出,训练词的稠密化向量表示。而该向量在其他文本场景中是固定不变的,无法根据上下文得到不同的语义向量。
[0005]word2vec方法的另一个局限是词不具备多层特征。word2vec通过简单的向量embedding表征矩阵训练单层分类网络,固定一个单词的词向量。因此相比于bert等预训练模型,word2vec无法体现词的复杂特性,包括语法(syntax)、语义(semantics)等。
[0006]第二,另一种方案,使用bert预训练模型对两个文本进行联合表征,进行下游的文本相似度微调任务。使用人工标注资源将成对的文本打上相似度标签,用[SEP]分隔符拼接两个成对的文本,输入到bert模型中,在模型输出层获取logits层并计算sigmoid层,最终得到文本的相似度分数。
[0007]bert预训练模型的局限之一是对两个文本进行联合表征输入到bert模型的局限是需要大量人力标注资源。对两个文本进行联合表征输入到bert模型的另一个局限是模型性能不足。在模型预测时,该方法需要将两段文本同时作为输入。无法离线存储文本的embedding表征,因此难以在高并发场合下使用。

技术实现思路

[0008]本专利技术的目的在于提供一种基于无监督学习的推荐方法及系统,以解决上述现有技术中存在的推荐方法中需要大量人力来标注资源的技术问题。
[0009]为实现上述技术目的,本专利技术采用的技术方案如下:
[0010]一种基于无监督学习的推荐方法,包括以下步骤:
[0011]获取第一训练数据,所述第一训练数据第一次输入bert模型,得到第二训练数据,
所述第一训练数据第二次输入bert模型,得到第三训练数据;
[0012]所述第二训练数据和所述第三训练数据构成正样本对和负样本对,所述正样本对和所述负样本输入loss函数,得到损失值;
[0013]判断损失值是否在预设阈值内,若否,重复运行获取第一训练数据,所述第一训练数据第一次输入bert模型以及之后的步骤;若是,得到精准bert模型;
[0014]获取用户数据,将处理后的所述用户数据输入精准bert模型,计算所述用户数据和待推荐数据的相似度分数,根据所述相似度分数对用户进行推荐。
[0015]优选地,所述第一训练数据第一次输入bert模型,得到第二训练数据,所述第一训练数据第二次输入bert模型,得到第三训练数据,具体包括以下步骤:
[0016]设置bert模型中dropout层的预设参数不为0,每个输出节点以所述预设参数的概率置0;
[0017]所述第一训练数据第一次输入bert模型,得到第二训练数据,所述第一训练数据第二次输入bert模型,得到第三训练数据,其中,所述第二训练数据和所述第三训练数据不相同。
[0018]优选地,所述第二训练数据和所述第三训练数据构成正样本对和负样本对,具体包括以下步骤:
[0019]所述第二训练数据和所述第三训练数据基于相同的输入数据构成正样本对;
[0020]所述第二训练数据和所述第三训练数据基于不同的输入数据构成负样本对。
[0021]优选地,获取用户数据,将处理后的所述用户数据输入精准bert模型,具体包括以下步骤:
[0022]对所述用户数据进行增强,所述增强方法包括回译和词对互换;
[0023]将增强后的用户数据输入精准bert模型,得到用户的embedding特征向量。
[0024]优选地,还包括步骤:
[0025]定时获取线上的更新训练数据,所述更新训练数据输入精准bert模型,根据所述更新训练数据对所述精准bert模型进行进一步训练。
[0026]优选地,所述第二训练数据为embedding特征向量,所述第三训练数据为embedding特征向量,所述第二训练数据和所述第三训练数据均为待推荐数据。
[0027]优选地,所述第二训练数据、所述第三训练数据和所述用户的embedding特征向量均存储在数据库中。
[0028]优选地,计算所述用户数据和待推荐数据的相似度分数,根据所述相似度分数对用户进行推荐具体包括以下步骤:
[0029]根据余弦相似度算法计算所述用户数据和待推荐数据的相似度分数;
[0030]根据所述相似度分数进行排序,得到相似排序列表,根据所述相似排序列表对用户进行推荐。
[0031]一种基于无监督学习的推荐系统,包括:
[0032]第一训练模块,用于获取第一训练数据,所述第一训练数据第一次输入bert模型,得到第二训练数据,所述第一训练数据第二次输入bert模型,得到第三训练数据;
[0033]第二训练模块,用于所述第二训练数据和所述第三训练数据构成正样本对和负样本对,所述正样本对和所述负样本输入loss函数,得到损失值。
[0034]判断模块,用于判断损失值是否在预设阈值内,若否,重复运行获取第一训练数据,所述第一训练数据第一次输入bert模型以及之后的步骤;若是,得到精准bert模型;
[0035]推荐模块,获取用户数据,将处理后的所述用户数据输入精准bert模型,计算所述用户数据和待推荐数据的相似度分数,根据所述相似度分数对用户进行推荐。
[0036]一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令被处理器执行时实现上述所述方法的步骤。
[0037]本专利技术提供的有益效果在于:
[0038]1、本专利技术通过获取用户数据,将处理后的用户数据输入精准bert模型,计算用户数据和待推荐数据的相似度分数,根据相似度分数对用户进行推荐,对比学习中使用精准bert模型进行文本表征,能很好的解决词的多层特征表示和一词多义的问题。精准bert模型在训练时学习到不同网络层的不同层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无监督学习的推荐方法,其特征在于,包括以下步骤:获取第一训练数据,所述第一训练数据第一次输入bert模型,得到第二训练数据,所述第一训练数据第二次输入bert模型,得到第三训练数据;所述第二训练数据和所述第三训练数据构成正样本对和负样本对,所述正样本对和所述负样本输入loss函数,得到损失值;判断损失值是否在预设阈值内,若否,重复运行获取第一训练数据,所述第一训练数据第一次输入bert模型以及之后的步骤;若是,得到精准bert模型;获取用户数据,将处理后的所述用户数据输入精准bert模型,计算所述用户数据和待推荐数据的相似度分数,根据所述相似度分数对用户进行推荐。2.如权利要求1所述的一种基于无监督学习的推荐方法,其特征在于,所述第一训练数据第一次输入bert模型,得到第二训练数据,所述第一训练数据第二次输入bert模型,得到第三训练数据,具体包括以下步骤:设置bert模型中dropout层的预设参数不为0,每个输出节点以所述预设参数的概率置0;所述第一训练数据第一次输入bert模型,得到第二训练数据,所述第一训练数据第二次输入bert模型,得到第三训练数据,其中,所述第二训练数据和所述第三训练数据不相同。3.如权利要求1所述的一种基于无监督学习的推荐方法,其特征在于,所述第二训练数据和所述第三训练数据构成正样本对和负样本对,具体包括以下步骤:所述第二训练数据和所述第三训练数据基于相同的输入数据构成正样本对;所述第二训练数据和所述第三训练数据基于不同的输入数据构成负样本对。4.如权利要求1所述的一种基于无监督学习的推荐方法,其特征在于,获取用户数据,将处理后的所述用户数据输入精准bert模型,具体包括以下步骤:对所述用户数据进行增强,所述增强方法包括回译和词对互换;将增强后的用户数据输入精准bert模型,得到用户的embedding特征向量。5.如权利要求1所述的一种基于无监督学习的推荐方法,其特征...

【专利技术属性】
技术研发人员:郭鑫润
申请(专利权)人:新华智云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1