一种深度挖掘数据潜在关联信息的推荐方法及装置制造方法及图纸

技术编号：35109567 阅读：21 留言：0更新日期：2022-10-01 17:22

本发明专利技术提供的一种深度挖掘数据潜在关联信息的推荐方法及装置，通过从多个网站获取多个用户访问数据组成的数据集；对每个数据文本进行分别进行分词、停用词预处理；将数据潜在关联因子引入协同过滤推荐算法中，利用LDA主题模型构建数据

全部详细技术资料下载

【技术实现步骤摘要】
一种深度挖掘数据潜在关联信息的推荐方法及装置

[0001]本专利技术属于人工智能与数据推荐算法优化
，具体涉及一种深度挖掘数据潜在关联信息的推荐方法及装置。

技术介绍

[0002]随着互联网的发展，各社交媒体网站等信息平台都出现了信息过载的问题，为有效提高过载信息的利用率，目前已有十几种主流的推荐算法，如基于内容的推荐算法、基于位置的推荐算法、协同过滤推荐算法、聚类推荐算法和基于社交网络的推荐算法等。协同过滤推荐算法是最流行的推荐算法之一，该算法成为了广大研究者的研究热点，针对协同过滤推荐算法存在数据稀疏性、推荐实时性、扩展性、计算量大和冷启动等问题，许多学者开展了大量的研究工作，对协同过滤推荐算法进行了有效改进，但大部分研究与其他算法融合不够。王全民等人[王全民,刘鑫,朱蓉,等.一种新型的混合个性化推荐算法[J].计算机与现代化,2019(8):4.]提出了一种交替奇异值分解算法(ASVD)，即结合协同过滤和隐语义分析的混合推荐算法。唐泽坤等人[唐泽坤、黄柄清、李廉.基于改进Canopy聚类的协同过滤推荐算法[J].计算机应用研究,2020,37(9):6.]融合聚类算法和协同过滤推荐算法，取得了一定效果。高娜等人[高娜,杨明.嵌入LDA主题模型的协同过滤推荐算法[J].计算机科学,2021,43(3):6.]将标签因子和协同过滤推荐算法结合研究缓解了数据稀疏问题，但这种固定标签的形式主要依靠人工标记，扩展性不强。
[0003]协同过滤推荐算法是最流行的推荐算法之一，该算法成为在实际应用中常用的方法。...

【技术保护点】

【技术特征摘要】
1.一种深度挖掘数据潜在关联信息的推荐方法，其特征在于，包括：从多个网站获取多个用户访问数据组成的数据集；其中，所述访问数据包括多个用户访问的多个数据文本、用户对数据文本的评分以及用户的账号；对每个数据文本进行分别进行分词、停用词预处理；利用LDA主题模型，对预处理之后的每个数据文档进行主题计算，得到每个数据文档所属主题的概率分布；将所有数据文档所属主题的概率分布，组成数据与标签对应的分布矩阵；根据用户对数据文本的评分以及所述分布矩阵，计算用户与标签对应的偏好矩阵；根据所述偏好矩阵，计算用户之间的相似度；根据用户之间的相似度高低，确定目标用户的邻域用户；根据邻域用户对数据文本的评分，预测目标用户对未评分数据文本的评分；按照预测的评分高低，向目标用户推荐数据文本。2.根据权利要求1所述的深度挖掘数据潜在关联信息的推荐方法，其特征在于，所述利用LDA主题模型，对预处理之后的每个数据文档进行主题计算，得到每个数据文档所属主题的概率分布包括：预先设置LDA主题模型的主题数以及超参数；对预处理之后的每个数据文档的每个词，随机赋予一个主题编号；遍历所有词，对于每一个词利用Gibbs采样更新它的主题编号；统计数据文档中每个词的主题，按照主题分布计算公式，计算每个数据文档所属主题的概率分布。3.根据权利要求2所述的深度挖掘数据潜在关联信息的推荐方法，其特征在于，所述主题分布计算公式为：其中，数据文本的属性为文档，表示第w篇文档中主题s的个数，θ
ws
表示文档w属于主题s的概率，4.根据权利要求1所述的深度挖掘数据潜在关联信息的推荐方法，其特征在于，所述根据用户对数据文本的评分以及所述分布矩阵，计算用户与标签对应的偏好矩阵包括：将所有用户对数据文本的评分组成评分可用矩阵；将评分可用矩阵与分布矩阵相乘，计算用户与标签对应的偏好矩阵。5.根据权利要求4所述的深度挖掘数据潜在关联信息的推荐方法，其特征在于，所述根据所述偏好矩阵，计算用户之间的相似度包括：根据偏好矩阵，使用皮尔森相似度计算公式计算用户之间的相似度；其中，皮尔森相似度计算公式为：
其中，sim(u,v)范围在
‑
1到1之间，如果为1代表用户u，v对于标签的偏好程度完全一样，如果为
‑
1代表用户u，v在标签的偏好上完全相反，和分别为用户u，v的偏好均值，分别表示用户u，v对标...

【专利技术属性】
技术研发人员：刘怀亮，张静，赵舰波，杨斌，张善庄，王亚凯，
申请(专利权)人：乐知未来科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人