本申请涉及文本文献信息处理的领域,公开隐性知识链路的生成方法、系统及存储介质,包括,获取目标文本数据;解析其中的概念词语及其语义关联;从词语集中锚定任意概念词作为起始点A,获得当前起始概念词语A对应的语义关联子集A{};从词语集中锚定任意其他概念词作为当前目标B,获得当前目标概念词语B对应的语义关联子集B{};基于起始语义关联集A{}和目标语义关联集B{},匹配出所有共同改进语词x[i];生成并输出由单因子(x)推导出的n路途径的三元组隐性知识链路集合A<=>x[i]<=>B。同理可推导A、B概念语词之间乃至三个因子(x、z、y)的五元组隐性知识链路集合A<=>x[i]<=>z[k]<=>y[j]<=>B。多路径多元组隐性知识链路的揭示有助于文本内容中新的知识发现。
【技术实现步骤摘要】
本申请涉及文本文献信息处理的,尤其是涉及一种隐性知识链路的生成方法、系统及存储介质。
技术介绍
1、人类历史上从未有过如此多的海量文本信息,以至于如何从文本信息中发现种种信息关联线索,从而梳理出条条清晰的知识脉络,对于文本知识内容的继承和发展具有重要意义。传统的文本信息阅读是顺序浏览并在起浏览过程中,发现其中知识关联的一种智力过程。
2、文本信息可以是单篇文献、也可以是任意的一组文献集合。文献的内容具备句子、段落等信息区块特性。其中,段落是由若干句子前后顺序组成;句子是由若干概念语词前后顺序组成。在文献的同一句子中,当同时存在一个概念语词(x)以及另一个概念语词(y)时,我们称(x)与(y)之间构成一条具有同句共现属性的显性知识链路(x<->y)。
3、显性知识链路体现的是一种直接语义关联关系。在当前文本集的文本分析过程中,由一个概念语词(x)推导并揭示其所有的直接关联概念语词集群(y{},y可以是1–n个概念语词),以实现概念语词(x)的启发式发散思维揭示。
4、但是在现有针对文本文献处理的方法中,还没有发现有多路径的多元组的隐性知识链路挖掘的方法。
5、隐性知识链路即任意两个概念语词(a,b),试图推导其潜在的第三概念语词(x),找出a<->x<->b三元组隐性知识链路。
6、多路径隐性知识链路是指a<->x[i]<->b隐性知识链路中的x[i]可以是1-n个推荐的概念语词,形成1-n个隐性知识链路路径。</p>7、多元组隐性知识链路是指如果a、b之间存在二因子的四元组隐性知识链路集合a<=>x[i]<=>y[j]<=>b。乃至三因子的五元组隐性知识链路集合a<=>x[i]<=>z[k]<=>y[j]<=>b。
8、多路径多元组隐性知识链路的揭示有助于文本内容中新的知识发现。
9、本专利技术目的就是寻找一种可溯源的多路径多元组隐性知识链路的发现推理方法。
技术实现思路
1、为了能够基于现有文本文献计算出隐性知识链路,本申请提供一种隐性知识链路的生成方法、系统及存储介质。
2、第一方面,本申请提供一种隐性知识链路的生成方法,采用如下的技术方案:
3、一种隐性知识链路的生成方法,包括如下步骤:
4、获取目标文本数据;目标文本数据可以是单篇文本文献,也可以是多篇文本文献;
5、解析所述目标文本数据中概念词语形成词语集;并提取概念语词之间语义关联关系;
6、从所述词语集中锚定当前起始概念词语a;
7、从所述词语集中锚定当前目标概念词语b;
8、从所述词语集中提取出与所述当前起始概念词语a有语义关联的词语形成起始语义关联集a{};
9、从所述词语集中提取出与所述当前目标概念词语b有语义关联的词语形成目标语义关联集b{};
10、从所述起始语义关联集a{}中排除与b的直接关联;从所述目标语义关联集b{}中排除所述当前起始概念词语a;
11、基于所述起始语义关联集a{}和所述目标语义关联集b{},匹配出共同改进词语集x[i],其中(i=1…n),当且仅当a<=>x[i],并且x[i]<=>b路经存在;
12、依据概念词语权重推荐算法,生成并输出单因子(x)的三元组隐性知识链路集合a<=>x[i]<=>b。
13、通过采用上述技术方案,通过文本数据分析,挖掘并构建出不同概念之间潜在的语义上相关联的知识路径。通过一个或多个隐性知识链路集合,这些链路揭示了a和b之间通过x[i]的潜在关系;有利于构建更完整、更精细的知识图谱;提高搜索结果的准确性和相关性,通过隐性链路发现更多未知相关信息。
14、可选地,所述概念词语权重推荐算法包括如下步骤:
15、获取概念词语a和概念词语b对应的词频(tf),其中,词频(tf)=当前概念语词(w)在文献集中出现的次数/文献集的总词数;
16、获取概念词语a和概念词语b对应的逆文档频率(idf);逆文档频率(idf)=log(当前文献集的文档总数/包含当前概念语词(w)的文档数+1);
17、计算概念词语权重,概念词语权重weight(w)=词频(tf)×逆文档频率(idf);
18、将概念词语权重weight(w)归一化映射到[0,1]的范围内:
19、normalized_weight(w)=(weight(w)–min_weight(w)/
20、(max_weight(w)-min_weight(w);
21、其中,min_weight(w)和max_weight(w)分别为文本中所有词weight(w)值的最小值和最大值。
22、通过采用上述技术方案,文本内容语义关联关系同时具备基于句子、段落、篇(章)的不同层级的关系权重解析。
23、可选地,所述形成起始语义关联集a{}的步骤中,还包括如下子步骤:
24、计算所述词语集中每个词语元素与所述当前起始概念词语a的语义关联度;
25、将所述语义关联度大于预设的第一语义参考值的所述词语元素作为与所述当前起始概念词语a有语义关联的词语;
26、其中根据所述当前起始概念词语a在所述目标文本数据中的权重的占比正相关调节所述第一语义参考值。
27、通过采用上述技术方案,根据a的权重的占比,正相关地调节第一语义参考值。具体来说,如果a在大量文本中都有出现,那么可以降低第一语义参考值,以捕获更多与a潜在相关的词语;反之,如果a仅在少数文本中出现,则应保持或提高第一语义参考值,以确保所选词语的强相关性。
28、可选地,所述形成目标语义关联集b{}的步骤中,还包括如下子步骤:
29、计算所述词语集中每个词语元素与所述当前目标概念词语b的语义关联度;
30、将所述语义关联度大于预设的第二语义参考值的所述词语元素作为与所述当前目标概念词语b有语义关联的词语;
31、其中根据所述当前目标概念词语b的权重占比与所述当前起始概念词语a的权重占比反相关调节所述第二语义参考值。
32、通过采用上述技术方案,可以更准确地形成与目标概念词语b紧密相关的语义关联集,为后续的知识链路构建和分析提供有力的支持。
33、可选地,所述匹配出共同改进词语集x[i]的步骤中,还包括如下子步骤:
34、计算所述起始语义关联集a{}中每个词语元素与所述当前起始概念词语a的第一语义关联度a;
35、计算所述目标语义关联集b{}中每个词语元素与所述当前目标概念词语b的第二语义关联度b;
36、根据所述第一语义关本文档来自技高网
...
【技术保护点】
1.一种隐性知识链路的生成方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的隐性知识链路的生成方法,其特征在于,所述概念词语权重推荐算法包括如下步骤:
3.根据权利要求1所述的隐性知识链路的生成方法,其特征在于,所述形成起始语义关联集A{}的步骤中,还包括如下子步骤:
4.根据权利要求3所述的隐性知识链路的生成方法,其特征在于,所述形成目标语义关联集B{}的步骤中,还包括如下子步骤:
5.根据权利要求4所述的隐性知识链路的生成方法,其特征在于,所述匹配出共同改进词语集x[i]的步骤中,还包括如下子步骤:
6.根据权利要求5所述的隐性知识链路的生成方法,其特征在于,方法还包括如下子步骤:
7.根据权利要求1所述的隐性知识链路的生成方法,其特征在于,方法还包括如下步骤:
8.根据权利要求7所述的隐性知识链路的生成方法,其特征在于,方法还包括如下步骤:
9.一种隐性知识链路的生成系统,其特征在于,包括处理器,所述处理器中运行有如权利要求1-8中任意一项所述的隐性知识链路的生成方法的程序。
10.一种存储介质,其特征在于,存储有如权利要求1-8中任意一项所述的隐性知识链路的生成方法的程序。
...
【技术特征摘要】
1.一种隐性知识链路的生成方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的隐性知识链路的生成方法,其特征在于,所述概念词语权重推荐算法包括如下步骤:
3.根据权利要求1所述的隐性知识链路的生成方法,其特征在于,所述形成起始语义关联集a{}的步骤中,还包括如下子步骤:
4.根据权利要求3所述的隐性知识链路的生成方法,其特征在于,所述形成目标语义关联集b{}的步骤中,还包括如下子步骤:
5.根据权利要求4所述的隐性知识链路的生成方法,其特征在于,所述匹配出共同改进词语集x[i]的步骤中,还包括如下...
【专利技术属性】
技术研发人员:耿亦兵,
申请(专利权)人:上海半坡网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。