System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于双重网络的双重技术关联性分析方法。
技术介绍
1、技术关联性塑造了创新主体的技术多元化模式,影响着技术创新的发展方向。明晰技术之间的关联关系有助于理清不同技术的相对重要性以及
中的关联结构。探究不同技术之间的关联性能够帮助创新主体全面地把握技术动态,辅助开展技术创新的实施决策,从而推动发展新质生产力。
2、现有研究忽视了技术关联性所具有的多重关联类型,只考虑技术之间的单一关系类型。然而,技术关联性概念的维度并不是单一的,其中包含多重关联类型。不同类型的关联性在同一组技术之间具有不同的关联程度并展现出复杂的关联模式,与仅考虑单一关联类型时相比蕴含着更加丰富的技术信息。考虑技术关联性的多重类型能够帮助揭示技术系统中多个
间的真实关系结构,使得创新主体能够正确地做出技术创新决策。因此,需要一种方法能够同时嵌入技术关联性的多重关联类型,从而进行更加全面、准确的关联模式和关联结构研究。
3、目前的研究方法均依托于单层网络对技术间的单一关联性展开研究。受限于单层网络的模型能力,这些方法只能够研究一种关联类型,无法探究多重关联类型。使用这类方法对多种关联性进行研究时只能够将多种关联类聚合为一种,但这又会丢失不同关联类型之间包含的关联信息。因此,需要一种方法能够同时研究和揭示技术之间的多重关联关系。
4、技术之间的关联程度的测量是研究技术关联性的基础,它决定了技术之间的关联结构。尽管部分现有方法使用基于关键词的文本挖掘技术尝试利用文本数据实现更准确的关联程度测量,但基于关键词
技术实现思路
1、本专利技术的目的在于提供一种基于双重网络的双重技术关联性分析方法,以解决
技术介绍
所提出的技术问题,包括以下步骤:
2、基于技术文档提取技术关键词,构建技术检索式,基于技术检索式从技术数据库中获取d个原始技术文档;
3、对d个所述原始技术文档中的文本内容进行句子分割和第一次文本预处理,得到预处理后的技术文档句子,基于所述预处理后的技术文档句子,经过词嵌入模型的训练过程,获得d个所述原始技术文档中所含词项对应的词嵌入;
4、基于所述的d个原始技术文档进行第二次文本预处理,得到以词袋形式记录的技术文档;
5、基于所述词嵌入和所述词袋形式的技术文档,通过etm模型进行主题建模,获得3个结果,所述结果包括主题-词项概率分布矩阵β、文档-主题概率分布矩阵θ和主题嵌入矩阵α;
6、基于主题嵌入矩阵α使用cosine相似度计算公式测量两个主题嵌入间的邻近性,得到记录主题之间邻近性关联程度的邻近性关联矩阵p,基于所述文档-主题概率分布矩阵θ通过association strength标准化方法计算得出记录主题之间组合关联程度的组合关联矩阵c,基于邻近性关联矩阵p和组合关联矩阵c构建得到具有两个网络层次的双重网络并对双重网络进行可视化;基于双重网络中记录主题对关联程度的多链接向量构建二维空间;分别设定邻近性网络层和组合网络层的中划分关联程度强与弱的阈值λp和λc;基于阈值λp和λc将二维空间划分出四个不同的空间区域,判定主题对的四种关联模式,所述四种关联模式包括双重关联、邻近性主导关联、组合主导关联和弱关联;
7、双重网络可以由超邻接矩阵表示:
8、
9、其中
10、
11、进一步地,所述词嵌入模型为word2vec模型或glove模型。
12、进一步地,句子分割和第一次文本预处理的具体步骤包括:
13、通过python工具包nltk将每一个原始技术文档中的文本内容均采用分割处理得到成以句子为单元的技术文档句子;
14、使用python工具包spacy对技术文档句子进行第一次文本预处理得到预处理后的技术文档句子。
15、进一步地,所述第一次文本预处理过程:首先,删除文本中的数字、标点符号及字符长度小于3的词项;然后,对剩余的词项进行词性还原并转换为小写形式;最后,删除句子长度小于后续word2vec模型设定的“窗口大小”参数数值的句子,得到预处理后的技术文档句子。
16、进一步地,所述第二次文本预处理使用python工具包spacy,处理过程包括删除原始技术文档中的数字、标点符号、停用词、字符长度小于3的词项以及非名词词性的词项,对剩余的词项进行词性还原并转换为小写形式,删除了在技术文档集合中所出现文档频次小于3的词项,最终得到预处理后的、词典大小为v的词袋形式记录的技术文档。
17、进一步地,基于所述词嵌入和所述词袋形式的技术文档,通过etm模型进行主题建模,获得3个结果,所述结果包括主题-词项概率分布矩阵β、文档-主题概率分布矩阵θ和主题嵌入矩阵α
18、具体步骤如下:
19、基于所述词嵌入和所述词袋形式记录的技术文档作为训练etm模型的输入数据,通过重复实验确定etm模型中主题数量k这一参数的最优设定值;
20、基于所述词嵌入和所述词袋形式记录的技术文档作为模型输入,基于etm模型参数值主题数量k进行主题建模过程,得到3个矩阵形式的输出结果:
21、主题-词项概率分布矩阵β:
22、
23、行向量βk·为主题k在所有词项上的概率分布,其中,k为k个主题中第k个主题;
24、文档-主题概率分布矩阵θ:
25、
26、行向量θd·为文档d在所有主题上的概率分布,其中,d为d个主题中第d个文档;
27、主题嵌入矩阵α:
28、
29、列向量α·k为主题k的所对应的主题嵌入,其中,k为k个主题中第k个主题。
30、进一步地,使用cosine相似度计算公式测量两个主题嵌入间的邻近性,得到记录主题之间邻近性关联程度的邻近性关联矩阵p的具体步骤如下:
31、使用cosine相似度计算公式计算获得邻近性关联矩阵p中的元素值;
32、
33、p为对称的方阵,元素值的计算公式为:
34、
35、其中,αi为主题i所对应的主题嵌入,αj为主题j所对应的主题嵌入,|αi||为主题i对应的主题嵌入的l-2范数,||αj||为主题j对应的主题嵌入的l-2范数,pij和pji为主题i与主题j之间的邻近性关联程度;
36、通过标准化处理将邻近性关联矩阵p中的元素值的值域从[-1,1]缩放至[0,1],标准化处理计算公式为:
37、
38、p′ij是标准化后的矩阵元素值;
39、对邻近性关联矩阵p的对角线元素值进行归0处理,即:
40、p′ii=0本文档来自技高网...
【技术保护点】
1.一种基于双重网络的双重技术关联性分析方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于双重网络的双重技术关联性分析方法,其特征在于:所述词嵌入模型为Word2Vec模型或Glove模型。
3.根据权利要求1所述的一种基于双重网络的双重技术关联性分析方法,其特征在于:
4.根据权利要求3所述的一种基于双重网络的双重技术关联性分析方法,其特征在于:
5.根据权利要求1所述的一种基于双重网络的双重技术关联性分析方法,其特征在于:
6.根据权利要求1所述的一种基于双重网络的双重技术关联性分析方法,其特征在于:
7.根据权利要求1所述的一种基于双重网络的双重技术关联性分析方法,其特征在于:
8.根据权利要求1所述的一种基于双重网络的双重技术关联性分析方法,其特征在于:
9.根据权利要求1所述的一种基于双重网络的双重技术关联性分析方法,其特征在于:
10.根据权利要求1所述的一种基于双重网络的双重技术关联性分析方法,其特征在于:
【技术特征摘要】
1.一种基于双重网络的双重技术关联性分析方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于双重网络的双重技术关联性分析方法,其特征在于:所述词嵌入模型为word2vec模型或glove模型。
3.根据权利要求1所述的一种基于双重网络的双重技术关联性分析方法,其特征在于:
4.根据权利要求3所述的一种基于双重网络的双重技术关联性分析方法,其特征在于:
5.根据权利要求1所述的一种基于双重网络的双重技术关联性分析方...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。