【技术实现步骤摘要】
一种深度挖掘数据潜在关联信息的推荐方法及装置
[0001]本专利技术属于人工智能与数据推荐算法优化
,具体涉及一种深度挖掘数据潜在关联信息的推荐方法及装置。
技术介绍
[0002]随着互联网的发展,各社交媒体网站等信息平台都出现了信息过载的问题,为有效提高过载信息的利用率,目前已有十几种主流的推荐算法,如基于内容的推荐算法、基于位置的推荐算法、协同过滤推荐算法、聚类推荐算法和基于社交网络的推荐算法等。协同过滤推荐算法是最流行的推荐算法之一,该算法成为了广大研究者的研究热点,针对协同过滤推荐算法存在数据稀疏性、推荐实时性、扩展性、计算量大和冷启动等问题,许多学者开展了大量的研究工作,对协同过滤推荐算法进行了有效改进,但大部分研究与其他算法融合不够。王全民等人[王全民,刘鑫,朱蓉,等.一种新型的混合个性化推荐算法[J].计算机与现代化,2019(8):4.]提出了一种交替奇异值分解算法(ASVD),即结合协同过滤和隐语义分析的混合推荐算法。唐泽坤等人[唐泽坤、黄柄清、李廉.基于改进Canopy聚类的协同过滤推荐算法[J].计算机应用研究,2020,37(9):6.]融合聚类算法和协同过滤推荐算法,取得了一定效果。高娜等人[高娜,杨明.嵌入LDA主题模型的协同过滤推荐算法[J].计算机科学,2021,43(3):6.]将标签因子和协同过滤推荐算法结合研究缓解了数据稀疏问题,但这种固定标签的形式主要依靠人工标记,扩展性不强。
[0003]协同过滤推荐算法是最流行的推荐算法之一,该算法成为在实际应用中常用的方法。 ...
【技术保护点】
【技术特征摘要】
1.一种深度挖掘数据潜在关联信息的推荐方法,其特征在于,包括:从多个网站获取多个用户访问数据组成的数据集;其中,所述访问数据包括多个用户访问的多个数据文本、用户对数据文本的评分以及用户的账号;对每个数据文本进行分别进行分词、停用词预处理;利用LDA主题模型,对预处理之后的每个数据文档进行主题计算,得到每个数据文档所属主题的概率分布;将所有数据文档所属主题的概率分布,组成数据与标签对应的分布矩阵;根据用户对数据文本的评分以及所述分布矩阵,计算用户与标签对应的偏好矩阵;根据所述偏好矩阵,计算用户之间的相似度;根据用户之间的相似度高低,确定目标用户的邻域用户;根据邻域用户对数据文本的评分,预测目标用户对未评分数据文本的评分;按照预测的评分高低,向目标用户推荐数据文本。2.根据权利要求1所述的深度挖掘数据潜在关联信息的推荐方法,其特征在于,所述利用LDA主题模型,对预处理之后的每个数据文档进行主题计算,得到每个数据文档所属主题的概率分布包括:预先设置LDA主题模型的主题数以及超参数;对预处理之后的每个数据文档的每个词,随机赋予一个主题编号;遍历所有词,对于每一个词利用Gibbs采样更新它的主题编号;统计数据文档中每个词的主题,按照主题分布计算公式,计算每个数据文档所属主题的概率分布。3.根据权利要求2所述的深度挖掘数据潜在关联信息的推荐方法,其特征在于,所述主题分布计算公式为:其中,数据文本的属性为文档,表示第w篇文档中主题s的个数,θ
ws
表示文档w属于主题s的概率,4.根据权利要求1所述的深度挖掘数据潜在关联信息的推荐方法,其特征在于,所述根据用户对数据文本的评分以及所述分布矩阵,计算用户与标签对应的偏好矩阵包括:将所有用户对数据文本的评分组成评分可用矩阵;将评分可用矩阵与分布矩阵相乘,计算用户与标签对应的偏好矩阵。5.根据权利要求4所述的深度挖掘数据潜在关联信息的推荐方法,其特征在于,所述根据所述偏好矩阵,计算用户之间的相似度包括:根据偏好矩阵,使用皮尔森相似度计算公式计算用户之间的相似度;其中,皮尔森相似度计算公式为:
其中,sim(u,v)范围在
‑
1到1之间,如果为1代表用户u,v对于标签的偏好程度完全一样,如果为
‑
1代表用户u,v在标签的偏好上完全相反,和分别为用户u,v的偏好均值,分别表示用户u,v对标...
【专利技术属性】
技术研发人员:刘怀亮,张静,赵舰波,杨斌,张善庄,王亚凯,
申请(专利权)人:乐知未来科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。