一种深度挖掘数据潜在关联信息的推荐方法及装置制造方法及图纸

技术编号:35109567 阅读:21 留言:0更新日期:2022-10-01 17:22
本发明专利技术提供的一种深度挖掘数据潜在关联信息的推荐方法及装置,通过从多个网站获取多个用户访问数据组成的数据集;对每个数据文本进行分别进行分词、停用词预处理;将数据潜在关联因子引入协同过滤推荐算法中,利用LDA主题模型构建数据

【技术实现步骤摘要】
一种深度挖掘数据潜在关联信息的推荐方法及装置


[0001]本专利技术属于人工智能与数据推荐算法优化
,具体涉及一种深度挖掘数据潜在关联信息的推荐方法及装置。

技术介绍

[0002]随着互联网的发展,各社交媒体网站等信息平台都出现了信息过载的问题,为有效提高过载信息的利用率,目前已有十几种主流的推荐算法,如基于内容的推荐算法、基于位置的推荐算法、协同过滤推荐算法、聚类推荐算法和基于社交网络的推荐算法等。协同过滤推荐算法是最流行的推荐算法之一,该算法成为了广大研究者的研究热点,针对协同过滤推荐算法存在数据稀疏性、推荐实时性、扩展性、计算量大和冷启动等问题,许多学者开展了大量的研究工作,对协同过滤推荐算法进行了有效改进,但大部分研究与其他算法融合不够。王全民等人[王全民,刘鑫,朱蓉,等.一种新型的混合个性化推荐算法[J].计算机与现代化,2019(8):4.]提出了一种交替奇异值分解算法(ASVD),即结合协同过滤和隐语义分析的混合推荐算法。唐泽坤等人[唐泽坤、黄柄清、李廉.基于改进Canopy聚类的协同过滤推荐算法[J].计算机应用研究,2020,37(9):6.]融合聚类算法和协同过滤推荐算法,取得了一定效果。高娜等人[高娜,杨明.嵌入LDA主题模型的协同过滤推荐算法[J].计算机科学,2021,43(3):6.]将标签因子和协同过滤推荐算法结合研究缓解了数据稀疏问题,但这种固定标签的形式主要依靠人工标记,扩展性不强。
[0003]协同过滤推荐算法是最流行的推荐算法之一,该算法成为在实际应用中常用的方法。而协同过滤推荐算法存在数据稀疏性、推荐实时性、扩展性、计算量大和冷启动等问题,虽然后续技术人员对协同过滤推荐算法进行了改进,通过引入人工标签因子缓解数据稀疏性,但是标签受人工主观因素影响大,会导致推荐的内容有可能并不是用户喜欢的内容。

技术实现思路

[0004]为了解决现有技术中存在的上述问题,本专利技术提供了一种深度挖掘数据潜在关联信息的推荐方法及装置。本专利技术要解决的技术问题通过以下技术方案实现:
[0005]第一方面,本专利技术提供的一种深度挖掘数据潜在关联信息的推荐方法包括:
[0006]从多个网站获取多个用户访问数据组成的数据集;
[0007]其中,所述访问数据包括多个用户访问的多个数据文本、用户对数据文本的评分以及用户的账号;
[0008]对每个数据文本进行分别进行分词、停用词预处理;
[0009]利用LDA主题模型,对预处理之后的每个数据文档进行主题计算,得到每个数据文档所属主题的概率分布;
[0010]将所有数据文档所属主题的概率分布,组成数据与标签对应的分布矩阵;
[0011]根据用户对数据文本的评分以及所述分布矩阵,计算用户与标签对应的偏好矩阵;
[0012]根据所述偏好矩阵,计算用户之间的相似度;
[0013]根据用户之间的相似度高低,确定目标用户的邻域用户;
[0014]根据邻域用户对数据文本的评分,预测目标用户对未评分数据文本的评分;
[0015]按照预测的评分高低,向目标用户推荐数据文本。
[0016]可选的,所述利用LDA主题模型,对预处理之后的每个数据文档进行主题计算,得到每个数据文档所属主题的概率分布包括:
[0017]预先设置LDA主题模型的主题数以及超参数;
[0018]对预处理之后的每个数据文档的每个词,随机赋予一个主题编号;
[0019]遍历所有词,对于每一个词利用Gibbs采样更新它的主题编号;
[0020]统计数据文档中每个词的主题,按照主题分布计算公式,计算每个数据文档所属主题的概率分布。
[0021]可选的,所述主题分布计算公式为:
[0022][0023]其中,数据文本的属性为文档,表示第w篇文档中主题s的个数,θ
ws
表示文档w属于主题s的概率,0<θ
ws
<1,
[0024]可选的,所述根据用户对数据文本的评分以及所述分布矩阵,计算用户与标签对应的偏好矩阵包括:
[0025]将所有用户对数据文本的评分组成评分可用矩阵;
[0026]将评分可用矩阵与分布矩阵相乘,计算用户与标签对应的偏好矩阵。
[0027]可选的,所述根据所述偏好矩阵,计算用户之间的相似度包括:
[0028]根据偏好矩阵,使用皮尔森相似度计算公式计算用户之间的相似度;
[0029]其中,皮尔森相似度计算公式为:
[0030][0031]其中,sim(u,v)范围在

1到1之间,如果为1代表用户u,v对于标签的偏好程度完全一样,如果为

1代表用户u,v在标签的偏好上完全相反,和分别为用户u,v的偏好均值,分别表示用户u,v对标签j的偏好值。
[0032]可选的,所述根据用户之间的相似度高低,确定目标用户的邻域用户包括:
[0033]针对目标用户,确定与目标用户相似度排序在前Top

N个的相邻用户;
[0034]将相邻用户确定为目标用户的邻域用户。
[0035]可选的,所述根据邻域用户对数据文本的评分,预测目标用户对未评分数据文本的评分包括:
[0036]根据邻域用户对数据文本的评分,使用评分预测公式预测目标用户对未评分数据文本的评分;
[0037]其中,评分预测公式为
[0038][0039]其中,Pred(u,i)表示目标用户u对未评分数据文本i的评分,R
v,i
为用户v对数据i的评分,用户v为邻域N中的一个用户,sim(u,v)为目标用户u与领域用户v之间的皮尔森相似度。
[0040]可选的,所述按照预测的评分高低,向目标用户推荐数据文本包括:
[0041]按照数据文本的预测评分高低,选择排序在前Top

N个数据文本推荐给目标用户。
[0042]可选的,在按照预测的评分高低,向目标用户推荐数据文本之后,所述深度挖掘数据潜在关联信息的推荐方法还包括:
[0043]根据目标用户对推荐数据文本的反馈信息,计算推荐评判指标。
[0044]第二方面,本专利技术提供的一种深度挖掘数据潜在关联信息的推荐装置包括:
[0045]获取模块,用于从多个网站获取多个用户访问数据组成的数据集;
[0046]其中,所述访问数据包括多个用户访问的多个数据文本、用户对数据文本的评分以及用户的账号;
[0047]预处理模块,用于对每个数据文本进行分别进行分词、停用词预处理;
[0048]分布矩阵计算模块,用于利用LDA主题模型,对预处理之后的每个数据文档进行主题计算,得到每个数据文档所属主题的概率分布;
[0049]组成模块,用于将所有数据文档所属主题的概率分布,组成数据与标签对应的分布矩阵;
[0050]偏好矩阵计算模块,用于根据用户对数据文本的评分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度挖掘数据潜在关联信息的推荐方法,其特征在于,包括:从多个网站获取多个用户访问数据组成的数据集;其中,所述访问数据包括多个用户访问的多个数据文本、用户对数据文本的评分以及用户的账号;对每个数据文本进行分别进行分词、停用词预处理;利用LDA主题模型,对预处理之后的每个数据文档进行主题计算,得到每个数据文档所属主题的概率分布;将所有数据文档所属主题的概率分布,组成数据与标签对应的分布矩阵;根据用户对数据文本的评分以及所述分布矩阵,计算用户与标签对应的偏好矩阵;根据所述偏好矩阵,计算用户之间的相似度;根据用户之间的相似度高低,确定目标用户的邻域用户;根据邻域用户对数据文本的评分,预测目标用户对未评分数据文本的评分;按照预测的评分高低,向目标用户推荐数据文本。2.根据权利要求1所述的深度挖掘数据潜在关联信息的推荐方法,其特征在于,所述利用LDA主题模型,对预处理之后的每个数据文档进行主题计算,得到每个数据文档所属主题的概率分布包括:预先设置LDA主题模型的主题数以及超参数;对预处理之后的每个数据文档的每个词,随机赋予一个主题编号;遍历所有词,对于每一个词利用Gibbs采样更新它的主题编号;统计数据文档中每个词的主题,按照主题分布计算公式,计算每个数据文档所属主题的概率分布。3.根据权利要求2所述的深度挖掘数据潜在关联信息的推荐方法,其特征在于,所述主题分布计算公式为:其中,数据文本的属性为文档,表示第w篇文档中主题s的个数,θ
ws
表示文档w属于主题s的概率,4.根据权利要求1所述的深度挖掘数据潜在关联信息的推荐方法,其特征在于,所述根据用户对数据文本的评分以及所述分布矩阵,计算用户与标签对应的偏好矩阵包括:将所有用户对数据文本的评分组成评分可用矩阵;将评分可用矩阵与分布矩阵相乘,计算用户与标签对应的偏好矩阵。5.根据权利要求4所述的深度挖掘数据潜在关联信息的推荐方法,其特征在于,所述根据所述偏好矩阵,计算用户之间的相似度包括:根据偏好矩阵,使用皮尔森相似度计算公式计算用户之间的相似度;其中,皮尔森相似度计算公式为:
其中,sim(u,v)范围在

1到1之间,如果为1代表用户u,v对于标签的偏好程度完全一样,如果为

1代表用户u,v在标签的偏好上完全相反,和分别为用户u,v的偏好均值,分别表示用户u,v对标...

【专利技术属性】
技术研发人员:刘怀亮张静赵舰波杨斌张善庄王亚凯
申请(专利权)人:乐知未来科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1