本发明专利技术公开了一种基于图流形学习的文献关系发现方法及系统,包括:根据文献检索结果,获取第一目标文献以及第一目标文献的邻居文献;将文献检索结果作为节点集合,通过获取第一目标文献与邻居文献之间的第一引用关系作为边集合,以及根据第一目标文献与邻居文献的相同的第一特征标签,构建属性图;基于图流行学习技术,获取属性图的图测地距离以及图测地相似度,通过将图测地距离映射到图测地相似度,并将布雷格曼散度作为损失函数,构建图卷积网络模型,用于通过识别第一目标文献与邻居文献之间的映射关系,获取与邻居文献具有相同映射关系的第二目标文献,补充到文献检索结果中,为用户提供了更为详细关联性更强的文献检索结果。索结果。索结果。
【技术实现步骤摘要】
一种基于图流形学习的文献关系发现方法及系统
[0001]本专利技术涉及文献检索
,具体而言,涉及一种基于图流形学习的文献关系发现方法及系统。
技术介绍
[0002]引文网络是由文献间和被引用的关系构成的集合,这些文献资料包括、专利文献、会议论文集、科技报告和学位论文等多种形式,其较好地描述了科学领域的发展、学科间的关系。随着的发展,文献著作数量迅速增加,引文网络已经形成了一个超大规模的复杂网络系统,并吸引了越来越多的关注。
[0003]随着数据库技术的不断发展,引文网络的研究也不再局限于使用单一的数据源,这很好地使引文网络的研究能够方便地从多个数据源中获取引文的数据信息进行综合分析,使得整个引文网络的研究更为全面,而在计量工作方面,早期的引文网络研究主要通过传统的统计分析方法来完成,这对于海量数据的处理能力有限,数据挖掘技术的引入在一定程度上缓解了这方面的问题,而神经网络分析技术的使用从另外一个层面上解决了难以解决文本结构分析的难题。
[0004]当前基于神经网络的方法经常采用基于自动编码器的方案,通过重建的方式学习图神经网络嵌入。不过这样的方式没有对潜空间的潜在流形关系进行保持,故而容易产生嵌入的不精确现象。
[0005]目前基于重建的模型存在的问题。现有的基于神经网络的模型包括两个任务(1)重建节点属性和(2)重建图结构。在上述两个任务中,潜伏空间在反向传播过程中通过解码器进行优化;因此,所有两个框架的学习潜伏表征都是与任务相关的,并且是模糊的,这就导致了缺乏可解释性和后续的性能保证(例如,通用性、可转移性和稳健性等),因此,急需一种基于图流形学习的文献关系发现方法及系统,来解决现有神经网络技术在引文网络应用中存在的技术问题。
技术实现思路
[0006]为了解决上述问题,本专利技术的目的是提供一种基于图流形学习的文献关系发现方法及系统,用于将引文网络数据描述为一个图G(X,V,E)包括节点集合V(代表引文网络中的文献),边集合E(代表文献间的引用关系)和属性集合X(代表文献间的特征标签,比如文献所属领域、关键词等),并以保留非欧氏高维空间和欧氏潜空间之间的节点间相似性为目的,在不过度改变图语义的前提下增强图结构,迫使网络获得稳定的嵌入映射,进而在文献检索时给出更为准确全面的文献检索结果。
[0007]为了实现上述技术目的,本申请提供了一种基于图流形学习的文献关系发现方法,包括以下步骤:
[0008]根据文献检索结果,获取第一目标文献以及第一目标文献的邻居文献;
[0009]将文献检索结果作为节点集合,通过获取第一目标文献与邻居文献之间的第一引
用关系作为边集合,以及根据第一目标文献与邻居文献的相同的第一特征标签,构建属性图;
[0010]基于图流行学习技术,获取属性图的图测地距离以及图测地相似度,通过将图测地距离映射到图测地相似度,并将布雷格曼散度作为损失函数,构建用于获取文献关系识别的图卷积网络模型,其中,图卷积网络模型用于通过识别第一目标文献与邻居文献之间的映射关系,获取与邻居文献具有相同映射关系的第二目标文献,补充到文献检索结果中。
[0011]优选地,在获取第一目标文献的过程中,基于第一时间戳,获取用于生成文献检索结果的第一特征标签;
[0012]根据选择文献检索结果的第二时间戳,与第一时间戳的第一关系,获取第一目标文献。
[0013]优选地,在获取邻居文献的过程中,基于第一特征标签,根据第一目标文献的第一引用关系,获取邻居文献。
[0014]优选地,在获取图测地距离的过程中,基于第一引用关系,将第一特征标签的数量作为图测地距离的表征数据。
[0015]优选地,在生成图测地相似度的过程中,根据用于生成图测地距离的特征标签,获取邻居文献之间的第二引用关系;
[0016]依据第一引用关系和第二引用关系,获取第二特征标签,并依据第二特征标签的数量作为图测地相似度的表征数据。
[0017]优选地,在构建图卷积网络的过程中,基于完全连接层FC和完全连接聚合层FCA,构建神经网络模型,将图测地相似度作为目标函数,将布雷格曼散度作为损失函数,进行迭代训练直至模型收敛,构建用于通过图测地相似度表征文献关系的图卷积网络模型。
[0018]本专利技术还公开了一种基于图流形学习的文献关系发现系统,包括:
[0019]数据采集模块,用于获取文献检索结果;
[0020]数据处理模块,用于根据文献检索结果,获取第一目标文献以及第一目标文献的邻居文献;
[0021]图构建模块,用于将文献检索结果作为节点集合,通过获取第一目标文献与邻居文献之间的第一引用关系作为边集合,以及根据第一目标文献与邻居文献的相同的第一特征标签,构建属性图;
[0022]文献关系识别模块,用于基于图流行学习技术,获取属性图的图测地距离以及图测地相似度,通过将图测地距离映射到图测地相似度,并将布雷格曼散度作为损失函数,构建用于获取文献关系识别的图卷积网络模型;
[0023]文献发现模块,用于基于图卷积网络模型,通过识别第一目标文献与邻居文献之间的映射关系,生成检索条件进行二次检索,获取与邻居文献具有相同映射关系的第二目标文献,补充到文献检索结果中。
[0024]优选地,文献关系发现系统还包括:
[0025]验证与评价模块,用于根据图测地距离的映射规则,获取映射结果,将边集合作为评价指标,对属性图的构建过程进行评价。
[0026]本专利技术公开了以下技术效果:
[0027]本专利技术通过图流行技术,获取文献属性以及文献之间的关系,并构建了用于识别
文献关系的识别模型,进而通过识别模型获取当前文献的邻居文献对应的第一目标文献,作为当前文献的近似关系文献,与当前文献一起提供给用户,为用户提供了更为详细关联性更强的文献检索结果。
附图说明
[0028]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1是本专利技术所述的方法流程图。
具体实施方式
[0030]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0031]如图1所示,本专利技术提供了一种基于图流形学习的文献关系发现方法,包括以下步骤,
[本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于图流形学习的文献关系发现方法,其特征在于,包括以下步骤:根据文献检索结果,获取第一目标文献以及所述第一目标文献的邻居文献;将文献检索结果作为节点集合,通过获取所述第一目标文献与所述邻居文献之间的第一引用关系作为边集合,以及根据所述第一目标文献与所述邻居文献的相同的第一特征标签,构建属性图;基于图流行学习技术,获取所述属性图的图测地距离以及图测地相似度,通过将所述图测地距离映射到所述图测地相似度,并将布雷格曼散度作为损失函数,构建用于获取文献关系识别的图卷积网络模型,其中,所述图卷积网络模型用于通过识别所述第一目标文献与所述邻居文献之间的映射关系,获取与所述邻居文献具有相同映射关系的第二目标文献,补充到所述文献检索结果中。2.根据权利要求1所述一种基于图流形学习的文献关系发现方法,其特征在于:在获取第一目标文献的过程中,基于第一时间戳,获取用于生成所述文献检索结果的所述第一特征标签;根据选择所述文献检索结果的第二时间戳,与所述第一时间戳的第一关系,获取所述第一目标文献。3.根据权利要求2所述一种基于图流形学习的文献关系发现方法,其特征在于:在获取邻居文献的过程中,基于所述第一特征标签,根据所述第一目标文献的第一引用关系,获取所述邻居文献。4.根据权利要求3所述一种基于图流形学习的文献关系发现方法,其特征在于:在获取图测地距离的过程中,基于所述第一引用关系,将所述第一特征标签的数量作为所述图测地距离的表征数据。5.根据权利要求4所述一种基于图流形学习的文献关系发现方法,其特征在于:在生成图测地相似度的过程中,根据用于生成所述图测地距离的所述特征标签,获取所述邻居文献之间的第二引用关系;依据所述第一...
【专利技术属性】
技术研发人员:臧泽林,李子青,
申请(专利权)人:西湖大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。