基于聚类图谱的技术文本挖掘方法和系统技术方案

技术编号:31615925 阅读:20 留言:0更新日期:2021-12-29 18:49
本发明专利技术提供一种基于聚类图谱的技术文本挖掘方法和系统,涉及文本处理技术领域。本发明专利技术基于文献耦合方法构建技术聚类图谱,然后基于聚类图谱识别出技术的研究前沿;然后对前沿技术进行专利及引用信息的收集,进一步建立专利引用网络,通过动态前向引用全路径模型获取技术的关键发展路径图。动态前向引用全路径模型能有效提升关键发展路径图的识别精确度,充分挖掘其复杂引文网络中包含的信息,更重要的是实现了对位于关键发展路径图会聚位置的突破性技术的实时监测和预测。破性技术的实时监测和预测。破性技术的实时监测和预测。

【技术实现步骤摘要】
基于聚类图谱的技术文本挖掘方法和系统


[0001]本专利技术涉及文本处理
,具体涉及一种基于聚类图谱的技术文本挖掘方法和系统。

技术介绍

[0002]聚类图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
[0003]以绿色技术为例,通过基于聚类图谱挖掘出绿色技术中的研究前沿是科研人员和决策者共同关心的焦点。已有学者尝试利用知识可视化图谱方法对绿色技术研究前沿进行探测,然而现有技术在探测研究前沿随时间演化情况后,未有进一步的对重点、要点前沿技术进行关键发展路径图挖掘与突破性技术监测,导致不能准确的挖掘出绿色技术中的关键发展路径图。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种基于聚类图谱的技术文本挖掘方法和系统,解决了现有技术不能准确的挖掘出技术中的关键发展路径图的技术问题。
[0006](二)技术方案
[0007]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0008]第一方面,本专利技术提供一种基于聚类图谱的技术文本挖掘方法,包括:
[0009]S1、获取技术文献耦合数据;
[0010]S2、基于所述技术文献耦合数据构建技术文献聚类图谱;
[0011]S3、基于所述聚类图谱识别出技术的研究前沿,所述研究前沿包括所述聚类图谱上聚类数量最大的文献簇中技术文献研究的
技术实现思路

[0012]S4、获取所述研究前沿的引用信息,构建引用网络,基于所述研究前沿、所述引用网络和动态前向引用全路径模型获取技术的关键发展路径图。
[0013]优选的,所述S2包括:
[0014]S201、对所述文献耦合数据进行预处理;
[0015]S202、基于预处理后的文献耦合数据建立绿色技术的文献引用耦合矩阵;
[0016]S203、使用谱系聚类方法对文献引用耦合矩阵进行聚类分析,得到技术文献的聚类图谱。
[0017]优选的,所述S201包括:
[0018]基于所述文献耦合数据建立引文索引;去除引文索引中耦合强度未达到预设阈值的文献耦合数据。
[0019]优选的,所述S4包括:
[0020]S401、获取所述研究前沿的引用信息,构建引用网络;
[0021]S402、将所述引用网络表示为有向矩阵;
[0022]S403、计算所述有向矩阵中每个有向边的权重;
[0023]S404、基于每个有向边的权重确定引用网络中的所有关键发展路径图。
[0024]优选的,所述S402包括:
[0025]根据引用网络中n个引用文献的引用关系,建立n
×
n有向矩阵P,有向矩阵P中的节点代表文献;p
ij
是方阵P的元素,是一个代表一个定向关系的“0

1”变量;当p
ij
的值等于1时,表示文献j引用文献i,即从节点i到节点j有一个有向边;当p
ij
的值等于0时,表示两个文献之间没有引用。
[0026]优选的,所述S403包括:
[0027]在有向矩阵中,引用文献v的文献的数量为文献v的出度,表示为d
+
(v),d
+
(v)大于等于0;文献v引用的文献数量为入度,用d

(v)表示;e
ij
表示文献i指向节点j的有向边,其权重见公式(2):
[0028]W(e
ij
)=[d
+
(i)+1]*[d
+
(j)+1]ꢀꢀ
(2)
[0029]其中,d
+
(i)表示节点i的出度;d
+
(j)节点j的出度。
[0030]优选的,所述S404包括:
[0031]假设从起点s到终点t有n条路径,每条路径的权重为该路径上所有边的权重之和,记为正向引用路径权重FCPW,从点s到点t的n条路径的权重的集合表示为FCPWs,其中最大权重表示为MFCPW,见公式(3):
[0032]MFCPW(p)=max{W(e
pci
)+MFCPW(c
i
)}(i=1,2

m)
ꢀꢀ
(3)
[0033]其中:MFCPW(p)表示从文献p到其所有终端的路径的最大权重;c
i
(i=1,2

m)表示引用文献p的文献,即引用网络中节点p的子节点;同样,MFCPW(c
i
)是从文献c
i
开始的路径的最大权重的集合;W(e
pci
)是从节点p到节点c
i
的有向边的权重;
[0034]采用R软件动态编程公式(3),计算从引用网络中每个起点开始的所有路径的MFCPW,并将相应路径上的所有节点以路径演进图形式记录下来,进行分析并绘制技术关键发展路径图。
[0035]第三方面,本专利技术提供一种基于聚类图谱的技术文本挖掘系统,包括:
[0036]数据获取模块,用于获取技术文献耦合数据;
[0037]聚类图谱构建模块,用于基于技术文献耦合数据构建技术文献聚类图谱;
[0038]研究前沿识别模块,用于基于聚类图谱识别出技术的研究前沿,所述研究前沿包括所述聚类图谱上聚类数量最大的文献簇中技术文献研究的
技术实现思路

[0039]关键发展路径图获取模块,获取所述研究前沿的引用信息,构建引用网络,基于所述研究前沿、所述引用网络和动态前向引用全路径模型获取技术的关键发展路径图。
[0040]第三方面,本专利技术提供一种计算机可读存储介质,其存储用于基于聚类图谱的技术文本挖掘的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于聚类图谱的技术文本挖掘方法。
[0041]第四方面,本专利技术提供一种电子设备,包括:
[0042]一个或多个处理器;
[0043]存储器;以及
[0044]一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于聚类图谱的技术文本挖掘方法。
[0045](三)有益效果
[0046]本专利技术提供了一种基于聚类图谱的技术文本挖掘方法和系统。与现有技术相比,具备以下有益效果:
[0047]本专利技术基于文献耦合方法构建技术聚类图谱,然后基于聚类图谱识别出技术的研究前沿;然后对前沿技术进行专利及引用信息的收集,进一步建立专利引用网络,通过动态前向引用全路径模型获取技术的关键发展路径图。动态前向引用全路径模型能有效提升关键发展路径图的识别精确度,充分挖掘其复杂引文网络中包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类图谱的技术文本挖掘方法,其特征在于,包括:S1、获取技术文献耦合数据;S2、基于所述技术文献耦合数据构建技术文献聚类图谱;S3、基于所述聚类图谱识别出技术的研究前沿,所述研究前沿包括所述聚类图谱上聚类数量最大的文献簇中技术文献研究的技术内容;S4、获取所述研究前沿的引用信息,构建引用网络,基于所述研究前沿、所述引用网络和动态前向引用全路径模型获取技术的关键发展路径图。2.如权利要求1所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S2包括:S201、对所述文献耦合数据进行预处理;S202、基于预处理后的文献耦合数据建立绿色技术的文献引用耦合矩阵;S203、使用谱系聚类方法对文献引用耦合矩阵进行聚类分析,得到技术文献的聚类图谱。3.如权利要求2所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S201包括:基于所述文献耦合数据建立引文索引;去除引文索引中耦合强度未达到预设阈值的文献耦合数据。4.如权利要求1~3任一所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S4包括:S401、获取所述研究前沿的引用信息,构建引用网络;S402、将所述引用网络表示为有向矩阵;S403、计算所述有向矩阵中每个有向边的权重;S404、基于每个有向边的权重确定引用网络中的所有关键发展路径图。5.如权利要求4所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S402包括:根据引用网络中n个引用文献的引用关系,建立n
×
n有向矩阵P,有向矩阵P中的节点代表文献;p
ij
是方阵P的元素,是一个代表一个定向关系的“0

1”变量;当p
ij
的值等于1时,表示文献j引用文献i,即从节点i到节点j有一个有向边;当p
ij
的值等于0时,表示两个文献之间没有引用。6.如权利要求4所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S403包括:在有向矩阵中,引用文献v的文献的数量为文献v的出度,表示为d
+
(v),d
+
(v)大于等于0;文献v引用的文献数量为入度,用d

(v)表示;e
ij
表示文献i指向节点j的有向边,其权重见公式(2):W(e
ij
)=[d
+
(i)+1]*[d
+
(j...

【专利技术属性】
技术研发人员:焦建玲陈楚曦白羽杨冉冉
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1