一种引文网络文献集群的识别方法技术

技术编号:39873718 阅读:9 留言:0更新日期:2023-12-30 12:59
本发明专利技术属于信息技术领域,具体涉及一种引文网络文献集群的识别方法

【技术实现步骤摘要】
一种引文网络文献集群的识别方法


[0001]本专利技术属于信息
,具体涉及一种引文网络文献集群的识别方法


技术介绍

[0002]随着科学技术的不断发展,人类社会的科技水平越来越高,涌现出越来越多的学科,各大类学科也被划分得越来越精细

其中各类科研性质的文献呈爆发式增长,而在各类文献的引用过程上形成的引文网络中,往往会出现不同的文献集群;不同的文献集群都代表某一学科的发展现状

如果能更准确地识别网络文献集群,就可以更好地了解某一学科的发展情况,以此创造更好的有创新性的论文和更多的科技效益

[0003]目前国内外关于引文网络文献集群识别的论文中,主要是以文献属性和网络拓扑联合训练为主

同时,文献集群识别问题也可以看做是一个社区发现问题,而国内外对此的研究主要是以图嵌入算法得到图中节点的嵌入向量,然后再用常见的分类器进行分类,比如
GCN、GAT


这类方法在识别精度上要比中心性指标更加高,但是仍然存在以下问题:
[0004]一

大部分图嵌入算法都需要利用标签信息有监督地学习嵌入向量表示,或无监督学习的准确率不高

[0005]二

绝大部分算法没有考虑在识别同类型文献的过程中存在引文网络结构误差问题


技术实现思路

[0006]本专利技术的目的在于:针对上述现有技术中的存在的不足,提供了一种引文网络文献集群的识别方法,以提升引文网络文献集群识别的学习准确率和分类精度

[0007]为实现上述目的,本专利技术采用如下技术方案:
[0008]1.
一种引文网络文献集群的识别方法,包括以下步骤:
[0009]S1、
利用现有文献数据构建引文网络,并获取引文网络全局图

引文网络的邻接矩阵和特征信息矩阵,所述邻接矩阵表示文献之间的引用关系,特征信息矩阵表示文献的特征属性信息;
[0010]S2、
基于特征信息矩阵和邻接矩阵,通过全连接神经网络进行训练,得到节点嵌入矩阵;
[0011]S3、

S2
得到的节点嵌入矩阵输入谱聚类算法中,获取社区划分结果;根据社区划分结果计算全局聚集系数,选择聚集系数最小的社区集合作为混乱社区;
[0012]S4、
基于混乱社区修改引文网络全局图;
[0013]S4.1、
选取混乱社区的节点嵌入矩阵和邻接矩阵,通过全连接神经网络对混乱社区的节点嵌入矩阵和邻接矩阵进行优化,以删除错误连边,实现对引文网络全局图结构的初步修改;
[0014]S4.2、
在初步修改后的引文网络全局图上增加正确连边,进一步修改引文网络全局图结构;
[0015]S5、

S4.2
得到的引文网络全局图结构输入至全连接神经网络进行优化,得到优化节点嵌入矩阵;依据该节点嵌入矩阵得到最终社区划分结果,完成引文网络文献集群划分

[0016]进一步的,所述
S2
包括如下子步骤:
[0017]S2.1、
构建交叉熵损失函数
L
GAE
,如下式所示:
[0018]L
GAE

E
q(Z|X,A)
[log(A|Z)][0019]其中,
L
表示损失函数,
A
表示引文网络的邻接矩阵,
Z
表示优化过程中通过全连接神经网络得到的节点嵌入矩阵,
X
表示特征信息矩阵,
E
表示文献关系之间集合,
log
表示对数运算函数;
[0020]S2.2、

S1
得到的特征信息矩阵和邻接矩阵为输入
、S2.1
构建的损失函数最小为目标,采用梯度下降法和
Adam
优化器对全连接神经网络进行训练,得到节点嵌入矩阵

[0021]进一步的,所述
S3
中全局聚集系数计算公式,如下式所示:
[0022][0023]其中
C(G)
代表图
G
的聚集系数,
Clo_Tri(*)
表示图的闭合三角形数量,
Tri(*)
代表图中所有闭三角形和开三角形数量之和

[0024]进一步的,所述
S4.1
通过全连接神经网络删除错误连边方法为:
[0025]S4.1.1、
构造邻接矩阵训练的损失函数
L
delete
损失函数由三部分组成,
L1

L2
为迹损失函数,
L3
为对角损失函数,具体如下所示:
[0026]L1

Trace(H
T
(D

A
out
)H)
[0027]L2

Trace(A_out)
[0028][0029]L
delete

L1+L2+L3
[0030]其中,
Trace(*)
表示矩阵的迹,
||*||
表示范数运算;通过三个损失函数约束邻接矩阵的变化情况,保存邻接矩阵的相应性质

[0031]S4.1.2、
基于损失函数
L
delete
,通过图神经网络对混乱社区的节点嵌入矩阵和邻接矩进行优化,并在优化过程中删除错误连边

[0032]进一步的,所述
S4.2
包括如下子步骤:
[0033]S4.2.1、
根据
S2
得到节点嵌入矩阵,计算引文网络全局图结构中各节点的相似度矩阵;并按照相似度从高到底排序计算结果;
[0034]S4.2.2、
选取不连通的节点对作为连接候选;
[0035]S4.2.3、
选择相似度
TOP

K
的部分候选节点对进行连边,完成引文网络图结构修改,其中
K
的取值范围为
100

500。
[0036]更进一步的,所述
S4.2.1
中相似度矩阵计算公式,如下式所示:
[0037][0038]其中,
z
i
表示第
i
个节点的特征嵌入向量,
z
j
表示第
j
个节点的特征嵌入向量,
S
表示两个节点之间的相似度

[0039]采用上述技术方案后,所以本专利技术具有了以下有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种引文网络文献集群的识别方法,其特征在于,包括以下步骤:
S1、
利用现有文献数据构建引文网络,并获取引文网络全局图

引文网络的邻接矩阵和特征信息矩阵,所述邻接矩阵表示文献之间的引用关系,特征信息矩阵表示文献的特征属性信息;
S2、
基于特征信息矩阵和邻接矩阵,通过全连接神经网络进行训练,得到节点嵌入矩阵;
S3、

S2
得到的节点嵌入矩阵输入谱聚类算法中,获取社区划分结果;根据社区划分结果计算全局聚集系数,选择聚集系数最小的社区集合作为混乱社区;
S4、
基于混乱社区修改引文网络全局图;
S4.1、
选取混乱社区的节点嵌入矩阵和邻接矩阵,通过全连接神经网络对混乱社区的节点嵌入矩阵和邻接矩阵进行优化,以删除错误连边,实现对引文网络全局图结构的初步修改;
S4.2、
在初步修改后的引文网络全局图上增加正确连边,进一步修改引文网络全局图结构;
S5、

S4.2
得到的引文网络全局图结构输入至全连接神经网络进行优化,得到优化节点嵌入矩阵;依据该节点嵌入矩阵得到最终社区划分结果,完成引文网络文献集群划分
。2.
如权利要求1所述的一种引文网络文献集群的识别方法,其特征在于,所述
S2
包括如下子步骤:
S2.1、
构建交叉熵损失函数
L
GAE
,如下式所示:
L
GAE

E
q(Z|X,A)
[log(A|Z)]
其中,
L
表示损失函数,
A
表示引文网络的邻接矩阵,
Z
表示优化过程中通过全连接神经网络得到的节点嵌入矩阵,
X
表示特征信息矩阵,
E
表示文献关系之间集合,
log
表示对数运算函数;
S2.2、

S1
得到的特征信息矩阵和邻接矩阵为输入
、S2.1
构建的损失函数最小为目标,采用梯度下降法和
Adam
优化器对全连接神经网络进行训练,得到节点嵌入矩阵
。3.
如权利要求1所述的一种引文网络文献集群的识别方法,其特征在于,所述
S3
中全局聚集系数计算公式,如下式所示:其中
...

【专利技术属性】
技术研发人员:刘震汤洪
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1