一种获取科学知识发现的方法及系统技术方案

技术编号：36983544 阅读：9 留言：0更新日期：2023-03-25 18:02

本发明专利技术公开了一种获取科学知识发现的方法及系统，根据科学文献关键词的词频时间序列在形状上的相似性实现了对关键词词频演化趋势的自动聚类识别。将需要进行演化趋势识别的各关键词词频时间序列视作数据点，通过动态时间规整计算它们在形状上的距离来构建无向加权图，将无向加权图的谱划分问题转化为矩阵的特征值分解，并最终通过特征矩阵的构造和聚类过程完成相关词频时间序列的演化趋势聚类，得到科学知识发现。到科学知识发现。到科学知识发现。

全部详细技术资料下载

【技术实现步骤摘要】
一种获取科学知识发现的方法及系统

[0001]本专利技术涉及科技情报分析
，尤其涉及一种获取科学知识发现的方法及系统。

技术介绍

[0002]随着人类社会对“创新驱动发展”的日益重视，全球主要国家对科技研发投入的总额和强度也在不断攀升，这使得科学文献、科研项目与基金的数量也产生了快速膨胀。呈几何级数增长的规模庞大的科学文献给科研人员准确把握特定学科的知识结构、及时追踪相关领域的学术前沿和研究热点带来了全新的挑战。与此同时，这种科研环境为学科发展动态的全方位分析、领域知识的深入挖掘积累了海量优质的科学数据，特别是机器学习、大数据计算等技术的发展也为数据驱动视角下更加智能化、自动化的科学知识发现创造了新的研究条件。
[0003]关键词，作为科学文献基本的语义功能单元，通常是文章研究内容和学术观点的高度浓缩。基于关键词的科技情报分析对于理解学科结构，获取科学知识发现具有重要意义。

技术实现思路

[0004]本专利技术通过提供一种获取科学知识发现的方法及系统，基于对科学文献关键词的词频时间序列的演化趋势分析，获得科学知识发现。
[0005]本专利技术提供了一种获取科学知识发现的方法，包括：
[0006]获取科学文献关键词的词频时间序列集合；
[0007]将所述词频时间序列集合中的各词频时间序列视为数据点进行形状距离计算来构造无向加权图，得到邻接矩阵A；
[0008]将所述邻接矩阵A进行归一化得到图顶点间的相似矩阵W；
[0009]将所述相似矩阵W的每一列元...

【技术保护点】

【技术特征摘要】
1.一种获取科学知识发现的方法，其特征在于，包括：获取科学文献关键词的词频时间序列集合；将所述词频时间序列集合中的各词频时间序列视为数据点进行形状距离计算来构造无向加权图，得到邻接矩阵A；将所述邻接矩阵A进行归一化得到图顶点间的相似矩阵W；将所述相似矩阵W的每一列元素相加，放置在对角线位置上组成对角阵，得到加权度矩阵D；根据所述相似矩阵W和所述加权度矩阵D得到拉普拉斯矩阵L，并进行特征值分解；取所述拉普拉斯矩阵L前λ个最小特征值所对应的特征向量组成特征矩阵H；对所述特征矩阵H进行聚类，得到相应词频时间序列的聚类标签，得到科学知识发现。2.如权利要求1所述的获取科学知识发现的方法，其特征在于，所述将所述词频时间序列集合中的各词频时间序列视为数据点进行形状距离计算来构造无向加权图，得到邻接矩阵A，包括：将所述词频时间序列集合中的各词频时间序列数据作为顶点，将所述各词频时间序列间的动态时间规整距离作为边权重构建所述邻接矩阵A。3.如权利要求1所述的获取科学知识发现的方法，其特征在于，所述根据所述相似矩阵W和所述加权度矩阵D得到拉普拉斯矩阵L，包括：根据公式得到所述拉普拉斯矩阵L；其中I为单位矩阵。4.如权利要求1所述的获取科学知识发现的方法，其特征在于，所述λ的确定方法如下：对所述拉普拉斯矩阵L的费德勒向量进行聚类，观察聚类个数k与该聚类误差平方和之间的变化关系，通过肘部法则来确定所述聚类个数k的大致取值范围；将所述λ设置为k、k
‑
1和k
‑
2共三组值，在保证所选取的特征能够对簇与簇之间的差别进行区分的基础上，选择较小的λ取值。5.一种获取科学知识发现的系统，其特征在于...

【专利技术属性】
技术研发人员：王宏宇，黄菡，王晓光，
申请(专利权)人：武汉理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人