基于异构网络信息嵌入模型的交互可视推荐方法技术

技术编号:32823275 阅读:9 留言:0更新日期:2022-03-26 20:21
基于异构网络信息嵌入模型的交互可视推荐方法,包括:步骤1:对数据进行爬取和清洗;从真实的豆瓣电影网站中收集豆瓣用户数据和豆瓣电影数据,进行清洗;步骤2:获取模型训练过程中的参数和特征数据,对预处理好的电影数据构造异构电影信息网络作为模型的输入,接着使用异构嵌入模型HetGNN,KGAT和NIRec进行训练,保留训练过程中的相关参数和特征信息;步骤3:基于用户交互的模型对比探索,基于所保留的路径特征数据,根据不同指标数据以及模型参数设计相应的可视化图表;步骤4:基于异构嵌入模型的交互可视推荐,学习异构图中多类型的对象和关系,挖掘隐含的丰富结构和语义信息用于推荐任务。本发明专利技术解决了推荐的黑盒问题,增加了推荐结果的可解释性。荐结果的可解释性。荐结果的可解释性。

【技术实现步骤摘要】
基于异构网络信息嵌入模型的交互可视推荐方法


[0001]本专利技术提出了一种异构网络嵌入模型的可视分析方法,该方法系统性地探索和比较三个具有代表性的嵌入模型对于下游推荐任务表现的差异,模型在网络嵌入过程中所存在的共同模式,以及推荐结果的来源信息,增加了推荐的可解释性。

技术介绍

[0002]现实世界中的对象及其相互关系通常都是多类型的,为了在数据挖掘中更好的保留其复杂的结构信息和丰富的语义信息,研究人员将不同类型的对象及其交互信息,甚至来源于不同数据源的信息融合成一个信息网络,并称为异构信息网络。
[0003]近年来,随着深度神经网络的发展,一些研究人员尝试将深度模型应用到异构网络嵌入中,相较于浅层模型,深度模型使用神经网络从节点属性和节点间的交互中学习嵌入,能够更好的捕获非线性关系,从而保留更多的结构信息和语义信息。然而,利用元路径进行异构网络嵌入的方法,因其需要领域知识而被认为具有一定局限性;利用信息传递机制进行高阶关系的建模方法,因其聚合了周围所有邻居的特征被认为引入噪声信息。以上两种方法在理论上有着各自的优缺点,然而,通过不同方式所学习到的用户特征究竟有何差异?是否有效保留了其特征信息?特别在推荐任务中,不同模型的评估值相似,是否意味着推荐结果的有效性一致,同一模型对不同用户的推荐是否保留其个性化,这些问题对于推荐而言十分值得探索。
[0004]然而,目前的大多数模型可视化工作都集中在分析一个单一的模型,且处理的数据多为可直接观察的图像数据,而异构网络嵌入将高维特征映射成低维向量,无法进行直接对比或直观理解其学习过程中所包含的特征。此外,现有的多模型可视对比方法虽然可以通过可视化神经元的激活状况将模型内在特征与模型表现进行分析,但此方法并不适用于异构网络嵌入模型。

技术实现思路

[0005]为了克服现有技术的的上述不足,本专利技术提出了一种面向异构网络嵌入模型的可视对比分析方法。
[0006]本专利技术首先对用于评估模型的数据进行爬取和清洗,然后统一各模型的下游任务与评估指标,将处理好的数据作为各模型的输入,进行异构网络嵌入的学习,并保留学习过程中的大量参数与所学特征信息;然后提取其中的有效特征并设计数据可视化视图对其进行展示;最后设计交互操作对嵌入结果中的异常数据进行挖掘,以评估模型的有效性以及探索各模型之间的共同模式。
[0007]基于异构网络信息嵌入模型的交互可视推荐方法,包括如下步骤:
[0008]步骤1:对数据进行爬取和清洗;从真实的豆瓣电影网站中收集豆瓣用户数据和豆瓣电影数据,并以一定规则对其进行清洗,保证数据的有效性;
[0009]1.1获取原始数据集,随机选取一位豆瓣用户,根据其观影数量的百分比进行随机
保留,并从其被关注列表中随机选取三位用户,重复上述过程;接着,统计所有用户的观影记录,保留有效电影编号,并进行电影信息的爬取;
[0010]1.2对原始数据集进行数据预处理,为针对模型的评估更加公平有效,即防止出现无效数据,该方案以用户的观影记录至少>50、电影被有效用户观看次数>20等条件进行数据过滤;因推荐模型通常存在冷启动问题,为此保留10%的观影记录<50的用户作为冷启动数据以进行特殊情况的评估。
[0011]1.3模型的公平评估,为了使模型的对比评估具有有效性,公平性,将嵌入模型的下游目标统一为推荐任务,并将它们的评估指标重构为推荐任务中最常见的评估指标,分别为准确率、召回率、AUC,计算方式如下所示。
[0012][0013][0014][0015]其中,TP表示正确分类的正样本,TN为正确分类的负样本,FP为错误分类的正样本,FN为错误分类的负样本,M为正样本的数目,N为负样本的数目,rank
i
表示正样本i的预测分数。
[0016]另外,增加了推荐结果的个性化指标,增加推荐结果的相似性评估,该指标计算不同用户的推荐列表之间的余弦相似性;用户i的个性化分数计算过程如公式(4)所示:
[0017][0018]其中,U表示用户集合,q
i
表示用户i的某个推荐列表所构成的向量。
[0019]步骤2:获取模型训练过程中的参数和特征数据;
[0020]对以上步骤预处理好的电影数据构造异构电影信息网络作为模型的输入,接着使用三个具有代表性的异构网络嵌入模型HetGNN,KGAT和NIRec进行训练,保留训练过程中的相关参数和特征信息。异构网络嵌入模型的处理和数据保存包含以下步骤:
[0021]2.1获取NIRec模型的元路径特征;
[0022]为了探索基于元路径邻居的异构网络嵌入模型在使用端到端交互建模方法中所学邻居特征的差异,保留异网络构嵌入模型在计算基于路径注意力权重参数时所枚举的路径实例信息,并作为可视化数据。
[0023]该路径信息分为两个部分,一是基于实例路径的节点特征信息二是基于实例路径的路径特征信息,计算方法分别如下所示。
[0024][0025][0026]h

表示交互矩阵中基于路径ρ的实例路径信息,W、α、β、b均属于可训练参数,N
ρj
表示基于元路径引导的邻域与单一元路径和语义特定的聚合信息。
[0027]上述路径信息是所有正负样本的特征路径,为保证模型对比的公平性,使用最终推荐结果,即正样本,对路径进行筛选,仅保留了源节点可达目标节点的实例路径信息作为可视化数据。
[0028]2.2获取KGAT模型的注意力权重特征;
[0029]为了探索基于信息传递机制的异构网络嵌入模型结合注意力机制所构成的非自定义软路径所学习得到的邻居特征之间的差异,保留了该模型训练过程中的双向注意力权重参数π(h,r,t),该参数表示邻居节点对源节点的重要性,具体计算公式如下。
[0030][0031]其中,h表示源节点,t表示尾节点,r表示尾节点到源节点的关系,N
h
表示源节点周围所有邻居节点的集合。
[0032]接着,根据所得数据计算不同类型节点之间的平均注意力值,并将该值作为构建元路径的邻居节点筛选阈值,高于阈值的邻居节点视为重要节点,反之则舍去。最终,利用深度优先算法遍历每一个源节点的重要邻居节点,以生成长度小于4的能够达到目标节点的元路径,该路径包含了从源节点到目标节点之间的特征信息,故以此作为模型对比的可视化数据。
[0033]2.3获取HetGNN模型的元路径特征;
[0034]为了探索基于元路径的异构网络嵌入模型在邻居节点聚合过程中所学得的特征差异,将参与模型学习过程的路径实例进行了保留,作为模型对比的可视化数据。
[0035]在异构网络嵌入模型的初始化过程,利用带重启的随机游走算法生成节点初始embedding时,按照各类型节点占节点总数的相对比例进行等比例采样,针对每一节点的电影邻居、用户邻居、类型邻居、演员邻居、导演邻居进行采样,由以上邻居构成的实例路径将由下列公式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于异构网络信息嵌入模型的交互可视推荐方法,包括如下步骤:步骤1:对数据进行爬取和清洗;从真实的豆瓣电影网站中收集豆瓣用户数据和豆瓣电影数据,并对其进行清洗,保证数据的有效性;1.1获取原始数据集,随机选取一位豆瓣用户,根据其观影数量的百分比进行随机保留,并从其被关注列表中随机选取三位用户,重复上述过程;接着,统计所有用户的观影记录,保留有效电影编号,并进行电影信息的爬取;1.2对原始数据集进行数据预处理,为针对模型的评估更加公平有效,即防止出现无效数据,以用户的观影记录至少>50、电影被有效用户观看次数>20等条件进行数据过滤;因推荐模型通常存在冷启动问题,为此保留10%的观影记录<50的用户作为冷启动数据以进行特殊情况的评估;1.3模型的公平评估,为了使模型的对比评估具有有效性、公平性,将嵌入模型的下游目标统一为推荐任务,并将它们的评估指标重构为推荐任务中最常见的评估指标,分别为准确率、召回率、AUC,计算方式如下所示;准确率、召回率、AUC,计算方式如下所示;准确率、召回率、AUC,计算方式如下所示;其中,TP表示正确分类的正样本,TN为正确分类的负样本,FP为错误分类的正样本,FN为错误分类的负样本,M为正样本的数目,N为负样本的数目,rank
i
表示正样本i的预测分数;另外,增加了推荐结果的个性化指标,增加推荐结果的相似性评估,该指标计算不同用户的推荐列表之间的余弦相似性;用户i的个性化分数计算过程如公式(4)所示:其中,U表示用户集合,q
i
表示用户i的某个推荐列表所构成的向量;步骤2:获取模型训练过程中的参数和特征数据;对以上步骤预处理好的电影数据构造异构电影信息网络作为模型的输入,接着使用三个具有代表性的异构网络嵌入模型HetGNN,KGAT和NIRec进行训练,保留训练过程中的相关参数和特征信息;模型的处理和数据保存包含以下步骤:2.1获取NIRec模型的元路径特征;为了探索基于元路径邻居的异构网络嵌入模型在使用端到端交互建模方法中所学邻居特征的差异,保留异构网络嵌入模型在计算基于路径注意力权重参数时所枚举的路径实例信息,并作为可视化数据;该路径信息分为两个部分,一是基于实例路径的节点特征信息二是基于实例路径的路径特征信息,计算方法分别如下所示;
表示交互矩阵中基于路径ρ的实例路径信息,W、α、β、b均属于可训练参数,N
ρj
表示基于元路径引导的邻域与单一元路径和语义特定的聚合信息;上述路径信息是所有正负样本的特征路径,为保证模型对比的公平性,使用最终推荐结果,即正样本,对路径进行了筛选,仅保留了源节点可达目标节点的实例路径信息作为可视化数据;2.2获取KGAT模型的注意力权重特征;为了探索基于信息传递机制的异构网络嵌入模型结合注意力机制所构成的非自定义软路径所学习得到的邻居特征之间的差异,保留异构网络嵌入模型训练过程中的双向注意力权重参数π(h,r,t),表示邻居节点对源节点的重要性,具体计算公式如下;其中,h表示源节点,t表示尾节点,r表示尾节点到源节点的关系,N
h
表示源节点周围所有邻居节点的集合;接着,根据所得数据计算不同类型节点之间的平均注意力值,并将该值作为构建元路径的邻居节点筛选阈值,高于阈值的邻居节点视为重要节点,反之则舍去;最终,利用深度优先算法遍历每一个源节点的重要邻居节点,以生成长度小于4的能够达到目标节点的元路径,该路径包含了从源节点到目标节点之间的特征信息,故以此作为模型对比的可视化数据;2.3获取HetGNN模型的元路径特征;为了探索基于元路径的异构网络嵌入模型在邻居节点聚合过程中所学得的特征差异,将参与模型学习过程的路径实例进行了保留,作为模型对比的可视化数据;在异构网络嵌入模型的初始化过程,利用带重启的随机游走算法生成节点初始embedding时,按照各类型节点占节点总数的相对比例进行等比例采样,针对每一节点的电影邻居、用户邻居、类型邻居、演员邻居、导演邻居进行采样,由以上邻居构成的实例路径将由下列公式计算得到由下列公式计算得到通过以上三个...

【专利技术属性】
技术研发人员:汤颖王攸妍周元博
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1