【技术实现步骤摘要】
基于聚类图谱的技术文本挖掘方法和系统
[0001]本专利技术涉及文本处理
,具体涉及一种基于聚类图谱的技术文本挖掘方法和系统。
技术介绍
[0002]聚类图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
[0003]以绿色技术为例,通过基于聚类图谱挖掘出绿色技术中的研究前沿是科研人员和决策者共同关心的焦点。已有学者尝试利用知识可视化图谱方法对绿色技术研究前沿进行探测,然而现有技术在探测研究前沿随时间演化情况后,未有进一步的对重点、要点前沿技术进行关键发展路径图挖掘与突破性技术监测,导致不能准确的挖掘出绿色技术中的关键发展路径图。
技术实现思路
[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种基于聚类图谱的技术文本挖掘方法和系统,解决了现有技术不能准确的挖掘出技术中的关键发展路径图的技术问题。
[0006](二)技术方案
[0007]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0008]第一方面,本专利技术提供一种基于聚类图谱的技术文本挖掘方法,包括:
[0009]S1、获取技术文献耦合数据;
[0010]S2、基于所述技术文献耦合数据构建技术文献聚类图谱;
[0011]S3、基于所述聚类图谱识别出技术的研究前沿,所 ...
【技术保护点】
【技术特征摘要】
1.一种基于聚类图谱的技术文本挖掘方法,其特征在于,包括:S1、获取技术文献耦合数据;S2、基于所述技术文献耦合数据构建技术文献聚类图谱;S3、基于所述聚类图谱识别出技术的研究前沿,所述研究前沿包括所述聚类图谱上聚类数量最大的文献簇中技术文献研究的技术内容;S4、获取所述研究前沿的引用信息,构建引用网络,基于所述研究前沿、所述引用网络和动态前向引用全路径模型获取技术的关键发展路径图。2.如权利要求1所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S2包括:S201、对所述文献耦合数据进行预处理;S202、基于预处理后的文献耦合数据建立绿色技术的文献引用耦合矩阵;S203、使用谱系聚类方法对文献引用耦合矩阵进行聚类分析,得到技术文献的聚类图谱。3.如权利要求2所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S201包括:基于所述文献耦合数据建立引文索引;去除引文索引中耦合强度未达到预设阈值的文献耦合数据。4.如权利要求1~3任一所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S4包括:S401、获取所述研究前沿的引用信息,构建引用网络;S402、将所述引用网络表示为有向矩阵;S403、计算所述有向矩阵中每个有向边的权重;S404、基于每个有向边的权重确定引用网络中的所有关键发展路径图。5.如权利要求4所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S402包括:根据引用网络中n个引用文献的引用关系,建立n
×
n有向矩阵P,有向矩阵P中的节点代表文献;p
ij
是方阵P的元素,是一个代表一个定向关系的“0
‑
1”变量;当p
ij
的值等于1时,表示文献j引用文献i,即从节点i到节点j有一个有向边;当p
ij
的值等于0时,表示两个文献之间没有引用。6.如权利要求4所述的基于聚类图谱的技术文本挖掘方法,其特征在于,所述S403包括:在有向矩阵中,引用文献v的文献的数量为文献v的出度,表示为d
+
(v),d
+
(v)大于等于0;文献v引用的文献数量为入度,用d
‑
(v)表示;e
ij
表示文献i指向节点j的有向边,其权重见公式(2):W(e
ij
)=[d
+
(i)+1]*[d
+
(j...
【专利技术属性】
技术研发人员:焦建玲,陈楚曦,白羽,杨冉冉,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。