【技术实现步骤摘要】
一种引文网络文献集群的识别方法
[0001]本专利技术属于信息
,具体涉及一种引文网络文献集群的识别方法
。
技术介绍
[0002]随着科学技术的不断发展,人类社会的科技水平越来越高,涌现出越来越多的学科,各大类学科也被划分得越来越精细
。
其中各类科研性质的文献呈爆发式增长,而在各类文献的引用过程上形成的引文网络中,往往会出现不同的文献集群;不同的文献集群都代表某一学科的发展现状
。
如果能更准确地识别网络文献集群,就可以更好地了解某一学科的发展情况,以此创造更好的有创新性的论文和更多的科技效益
。
[0003]目前国内外关于引文网络文献集群识别的论文中,主要是以文献属性和网络拓扑联合训练为主
。
同时,文献集群识别问题也可以看做是一个社区发现问题,而国内外对此的研究主要是以图嵌入算法得到图中节点的嵌入向量,然后再用常见的分类器进行分类,比如
GCN、GAT
等
。
这类方法在识别精度上要比中心性指标更加高,但是仍然存在以下问题:
[0004]一
、
大部分图嵌入算法都需要利用标签信息有监督地学习嵌入向量表示,或无监督学习的准确率不高
。
[0005]二
、
绝大部分算法没有考虑在识别同类型文献的过程中存在引文网络结构误差问题
。
技术实现思路
[0006]本专利技术的目的在于:针对上述现有技术中的存在的不足,提供了一种引文网络 ...
【技术保护点】
【技术特征摘要】
1.
一种引文网络文献集群的识别方法,其特征在于,包括以下步骤:
S1、
利用现有文献数据构建引文网络,并获取引文网络全局图
、
引文网络的邻接矩阵和特征信息矩阵,所述邻接矩阵表示文献之间的引用关系,特征信息矩阵表示文献的特征属性信息;
S2、
基于特征信息矩阵和邻接矩阵,通过全连接神经网络进行训练,得到节点嵌入矩阵;
S3、
将
S2
得到的节点嵌入矩阵输入谱聚类算法中,获取社区划分结果;根据社区划分结果计算全局聚集系数,选择聚集系数最小的社区集合作为混乱社区;
S4、
基于混乱社区修改引文网络全局图;
S4.1、
选取混乱社区的节点嵌入矩阵和邻接矩阵,通过全连接神经网络对混乱社区的节点嵌入矩阵和邻接矩阵进行优化,以删除错误连边,实现对引文网络全局图结构的初步修改;
S4.2、
在初步修改后的引文网络全局图上增加正确连边,进一步修改引文网络全局图结构;
S5、
将
S4.2
得到的引文网络全局图结构输入至全连接神经网络进行优化,得到优化节点嵌入矩阵;依据该节点嵌入矩阵得到最终社区划分结果,完成引文网络文献集群划分
。2.
如权利要求1所述的一种引文网络文献集群的识别方法,其特征在于,所述
S2
包括如下子步骤:
S2.1、
构建交叉熵损失函数
L
GAE
,如下式所示:
L
GAE
=
E
q(Z|X,A)
[log(A|Z)]
其中,
L
表示损失函数,
A
表示引文网络的邻接矩阵,
Z
表示优化过程中通过全连接神经网络得到的节点嵌入矩阵,
X
表示特征信息矩阵,
E
表示文献关系之间集合,
log
表示对数运算函数;
S2.2、
以
S1
得到的特征信息矩阵和邻接矩阵为输入
、S2.1
构建的损失函数最小为目标,采用梯度下降法和
Adam
优化器对全连接神经网络进行训练,得到节点嵌入矩阵
。3.
如权利要求1所述的一种引文网络文献集群的识别方法,其特征在于,所述
S3
中全局聚集系数计算公式,如下式所示:其中
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。