一种基于无监督学习的推荐方法及系统技术方案

技术编号：31799644 阅读：31 留言：0更新日期：2022-01-08 11:00

本发明专利技术公开了一种基于无监督学习的推荐方法及系统，方法包括以下步骤：获取第一训练数据，第一训练数据第一次输入bert模型，得到第二训练数据，第一训练数据第二次输入bert模型，得到第三训练数据；第二训练数据和第三训练数据构成正样本对和负样本对，正样本对和负样本输入loss函数，得到损失值；判断损失值是否在预设阈值内，若是，得到精准bert模型；获取用户数据，将处理后的用户数据输入精准bert模型，计算用户数据和待推荐数据的相似度分数，根据相似度分数对用户进行推荐，有益效果在于能更好的解决词的多层特征表示和一词多义的问题，减少需要人工标注的资源，能很好的缓解标注资源不足的问题，同时可以极大的提高推荐速度。速度。速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于无监督学习的推荐方法及系统

[0001]本专利技术属于推荐方法
，更具体地说，本专利技术涉及一种基于无监督学习的推荐方法及系统。

技术介绍

[0002]在推荐系统项目中，例如影视作品推荐，通常使用文本相似度(text similarity)来进行相似物品推荐，文本相似度是一种比较常用的推荐算法。文本相似度在推荐系统项目中的应用,可以归结为对简介文本计算相似度分数,通过相似度分数进行排序,根据排序结果进行推荐。在工业场景的推荐项目中,经常面临没有标注数据的问题,同时也需要考虑推荐算法的性能问题，针对工业场景的推荐项目中目前的技术方案存在以下缺陷：
[0003]第一，一种方法是使用大规模语料库,通过word2vec训练出语料库文本词向量，训练完成后将文本进行分词操作,并找出每个词对应的词向量。对文本的所有词向量进行池化操作,生成固定维度的句向量，计算两个句向量的余弦相似度来衡量文本之间的相关程度。
[0004]word2ve方法的局限之一是无法解决一词多义的问题。word2vec由词义的分布式假设出发，分布式假设的含义是一个单词的意思由频繁出现在它上下文的词给出,训练词的稠密化向量表示。而该向量在其他文本场景中是固定不变的,无法根据上下文得到不同的语义向量。
[0005]word2vec方法的另一个局限是词不具备多层特征。word2vec通过简单的向量embedding表征矩阵训练单层分类网络,固定一个单词的词向量。因此相比于bert等预训练模型,word2vec无法体现词的复杂特性...

【技术保护点】

【技术特征摘要】
1.一种基于无监督学习的推荐方法，其特征在于，包括以下步骤：获取第一训练数据，所述第一训练数据第一次输入bert模型，得到第二训练数据，所述第一训练数据第二次输入bert模型，得到第三训练数据；所述第二训练数据和所述第三训练数据构成正样本对和负样本对，所述正样本对和所述负样本输入loss函数，得到损失值；判断损失值是否在预设阈值内，若否，重复运行获取第一训练数据，所述第一训练数据第一次输入bert模型以及之后的步骤；若是，得到精准bert模型；获取用户数据，将处理后的所述用户数据输入精准bert模型，计算所述用户数据和待推荐数据的相似度分数，根据所述相似度分数对用户进行推荐。2.如权利要求1所述的一种基于无监督学习的推荐方法，其特征在于，所述第一训练数据第一次输入bert模型，得到第二训练数据，所述第一训练数据第二次输入bert模型，得到第三训练数据，具体包括以下步骤：设置bert模型中dropout层的预设参数不为0，每个输出节点以所述预设参数的概率置0；所述第一训练数据第一次输入bert模型，得到第二训练数据，所述第一训练数据第二次输入bert模型，得到第三训练数据，其中，所述第二训练数据和所述第三训练数据不相同。3.如权利要求1所述的一种基于无监督学习的推荐方法，其特征在于，所述第二训练数据和所述第三训练数据构成正样本对和负样本对，具体包括以下步骤：所述第二训练数据和所述第三训练数据基于相同的输入数据构成正样本对；所述第二训练数据和所述第三训练数据基于不同的输入数据构成负样本对。4.如权利要求1所述的一种基于无监督学习的推荐方法，其特征在于，获取用户数据，将处理后的所述用户数据输入精准bert模型，具体包括以下步骤：对所述用户数据进行增强，所述增强方法包括回译和词对互换；将增强后的用户数据输入精准bert模型，得到用户的embedding特征向量。5.如权利要求1所述的一种基于无监督学习的推荐方法，其特征...

【专利技术属性】
技术研发人员：郭鑫润，
申请(专利权)人：新华智云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人