一种获取科学知识发现的方法及系统技术方案

技术编号:36983544 阅读:9 留言:0更新日期:2023-03-25 18:02
本发明专利技术公开了一种获取科学知识发现的方法及系统,根据科学文献关键词的词频时间序列在形状上的相似性实现了对关键词词频演化趋势的自动聚类识别。将需要进行演化趋势识别的各关键词词频时间序列视作数据点,通过动态时间规整计算它们在形状上的距离来构建无向加权图,将无向加权图的谱划分问题转化为矩阵的特征值分解,并最终通过特征矩阵的构造和聚类过程完成相关词频时间序列的演化趋势聚类,得到科学知识发现。到科学知识发现。到科学知识发现。

【技术实现步骤摘要】
一种获取科学知识发现的方法及系统


[0001]本专利技术涉及科技情报分析
,尤其涉及一种获取科学知识发现的方法及系统。

技术介绍

[0002]随着人类社会对“创新驱动发展”的日益重视,全球主要国家对科技研发投入的总额和强度也在不断攀升,这使得科学文献、科研项目与基金的数量也产生了快速膨胀。呈几何级数增长的规模庞大的科学文献给科研人员准确把握特定学科的知识结构、及时追踪相关领域的学术前沿和研究热点带来了全新的挑战。与此同时,这种科研环境为学科发展动态的全方位分析、领域知识的深入挖掘积累了海量优质的科学数据,特别是机器学习、大数据计算等技术的发展也为数据驱动视角下更加智能化、自动化的科学知识发现创造了新的研究条件。
[0003]关键词,作为科学文献基本的语义功能单元,通常是文章研究内容和学术观点的高度浓缩。基于关键词的科技情报分析对于理解学科结构,获取科学知识发现具有重要意义。

技术实现思路

[0004]本专利技术通过提供一种获取科学知识发现的方法及系统,基于对科学文献关键词的词频时间序列的演化趋势分析,获得科学知识发现。
[0005]本专利技术提供了一种获取科学知识发现的方法,包括:
[0006]获取科学文献关键词的词频时间序列集合;
[0007]将所述词频时间序列集合中的各词频时间序列视为数据点进行形状距离计算来构造无向加权图,得到邻接矩阵A;
[0008]将所述邻接矩阵A进行归一化得到图顶点间的相似矩阵W;
[0009]将所述相似矩阵W的每一列元素相加,放置在对角线位置上组成对角阵,得到加权度矩阵D;
[0010]根据所述相似矩阵W和所述加权度矩阵D得到拉普拉斯矩阵L,并进行特征值分解;
[0011]取所述拉普拉斯矩阵L前λ个最小特征值所对应的特征向量组成特征矩阵H;
[0012]对所述特征矩阵H进行聚类,得到相应词频时间序列的聚类标签,得到科学知识发现。
[0013]具体来说,所述将所述词频时间序列集合中的各词频时间序列视为数据点进行形状距离计算来构造无向加权图,得到邻接矩阵A,包括:
[0014]将所述词频时间序列集合中的各词频时间序列数据作为顶点,将所述各词频时间序列间的动态时间规整距离作为边权重构建所述邻接矩阵A。
[0015]具体来说,所述根据所述相似矩阵W和所述加权度矩阵D得到拉普拉斯矩阵L,包括:
[0016]根据公式得到所述拉普拉斯矩阵L;其中I为单位矩阵。
[0017]具体来说,所述λ的确定方法如下:
[0018]对所述拉普拉斯矩阵L的费德勒向量进行聚类,观察聚类个数k与该聚类误差平方和之间的变化关系,通过肘部法则来确定所述聚类个数k的大致取值范围;
[0019]将所述λ设置为k、k

1和k

2共三组值,在保证所选取的特征能够对簇与簇之间的差别进行区分的基础上,选择较小的λ取值。
[0020]本专利技术还提供了一种获取科学知识发现的系统,包括:
[0021]词频时间序列获取模块,用于获取科学文献关键词的词频时间序列集合;
[0022]邻接矩阵生成模块,用于将所述词频时间序列集合中的各词频时间序列视为数据点进行形状距离计算来构造无向加权图,得到邻接矩阵A;
[0023]相似矩阵生成模块,用于将所述邻接矩阵A进行归一化得到图顶点间的相似矩阵W;
[0024]加权度矩阵生成模块,用于将所述相似矩阵W的每一列元素相加,放置在对角线位置上组成对角阵,得到加权度矩阵D;
[0025]拉普拉斯矩阵生成模块,用于根据所述相似矩阵W和所述加权度矩阵D得到拉普拉斯矩阵L,并进行特征值分解;
[0026]特征矩阵生成模块,用于取所述拉普拉斯矩阵L前λ个最小特征值所对应的特征向量组成特征矩阵H;
[0027]科学知识发现获取模块,用于对所述特征矩阵H进行聚类,得到相应词频时间序列的聚类标签,得到科学知识发现。
[0028]具体来说,所述邻接矩阵生成模块,具体用于将所述词频时间序列集合中的各词频时间序列数据作为顶点,将所述各词频时间序列间的动态时间规整距离作为边权重构建所述邻接矩阵A。
[0029]具体来说,所述拉普拉斯矩阵生成模块,具体用于根据公式具体来说,所述拉普拉斯矩阵生成模块,具体用于根据公式得到所述拉普拉斯矩阵L;其中I为单位矩阵。
[0030]具体来说,所述λ的确定方法如下:
[0031]对所述拉普拉斯矩阵L的费德勒向量进行聚类,观察聚类个数k与该聚类误差平方和之间的变化关系,通过肘部法则来确定所述聚类个数k的大致取值范围;
[0032]将所述λ设置为k、k

1和k

2共三组值,在保证所选取的特征能够对簇与簇之间的差别进行区分的基础上,选择较小的λ取值。
[0033]本专利技术中提供的一个或多个技术方案,至少具有如下技术效果或优点:
[0034]本专利技术基于谱聚类算法提出了一种时间序列趋势识别模型,根据科学文献关键词的词频时间序列在形状上的相似性实现了对关键词词频演化趋势的自动聚类识别。模型将需要进行演化趋势识别的各关键词词频时间序列视作数据点,通过动态时间规整计算它们在形状上的距离来构建无向加权图,将无向加权图的谱划分问题转化为矩阵的特征值分解,并最终通过特征矩阵的构造和聚类过程完成相关时间序列的演化趋势聚类,得到科学知识发现。
[0035]与现有技术相比,本专利技术还具有以下优点:
[0036]1、本专利技术提出的TS

TIM模型在时间序列变化趋势识别任务中具有良好的识别效果,能有效地区分具有相同演化趋势的时间序列数据。除应用于关键词词频相关时间序列的分析中,后续还可应用于引文数、发文数等科技情报领域其他类型时间序列的挖掘与分析。
[0037]2、本专利技术对于TS

TIM模型的实现过程具有科学性。首先,本专利技术使用动态时间规整算法进行时间序列数据间的形状距离计算,一方面能揭示时间序列数据间的相位畸变和振幅差异,另一方面能支持不同维度的向量间的距离计算,即可完成对不同时间跨度时间序列间的距离计算,增加了模型的鲁棒性;其次,本专利技术基于拉普拉斯矩阵费德勒向量进行谱聚类参数选择,避免了人为设定的主观性;最后,本专利技术借助Spark框架实现了模型的分布式计算,提高了识别效率。
[0038]3、本专利技术基于TS

TIM模型对关键词词频时间序列进行了分析,从中识别出了呈突然爆发趋势的新兴词、呈高频波动趋势的标签词、呈波动上升趋势的热点词和呈下降趋势的淡出词。
[0039]4、本专利技术选用对称型的归一化拉普拉斯矩阵进行图的拉普拉斯矩阵表示,防止了由于数据间量纲的不统一而出现分析误差,提高了识别的准确性。
[0040]5、本专利技术将时间因素纳入考量,通过对时间加权的关键词词频时间序列的分析,强化了关键词的上升和下降趋势,为科技情报分析提供了一种新的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种获取科学知识发现的方法,其特征在于,包括:获取科学文献关键词的词频时间序列集合;将所述词频时间序列集合中的各词频时间序列视为数据点进行形状距离计算来构造无向加权图,得到邻接矩阵A;将所述邻接矩阵A进行归一化得到图顶点间的相似矩阵W;将所述相似矩阵W的每一列元素相加,放置在对角线位置上组成对角阵,得到加权度矩阵D;根据所述相似矩阵W和所述加权度矩阵D得到拉普拉斯矩阵L,并进行特征值分解;取所述拉普拉斯矩阵L前λ个最小特征值所对应的特征向量组成特征矩阵H;对所述特征矩阵H进行聚类,得到相应词频时间序列的聚类标签,得到科学知识发现。2.如权利要求1所述的获取科学知识发现的方法,其特征在于,所述将所述词频时间序列集合中的各词频时间序列视为数据点进行形状距离计算来构造无向加权图,得到邻接矩阵A,包括:将所述词频时间序列集合中的各词频时间序列数据作为顶点,将所述各词频时间序列间的动态时间规整距离作为边权重构建所述邻接矩阵A。3.如权利要求1所述的获取科学知识发现的方法,其特征在于,所述根据所述相似矩阵W和所述加权度矩阵D得到拉普拉斯矩阵L,包括:根据公式得到所述拉普拉斯矩阵L;其中I为单位矩阵。4.如权利要求1所述的获取科学知识发现的方法,其特征在于,所述λ的确定方法如下:对所述拉普拉斯矩阵L的费德勒向量进行聚类,观察聚类个数k与该聚类误差平方和之间的变化关系,通过肘部法则来确定所述聚类个数k的大致取值范围;将所述λ设置为k、k

1和k

2共三组值,在保证所选取的特征能够对簇与簇之间的差别进行区分的基础上,选择较小的λ取值。5.一种获取科学知识发现的系统,其特征在于...

【专利技术属性】
技术研发人员:王宏宇黄菡王晓光
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1