本发明专利技术针对如何完善的知识图谱并非是传统意义上的结构化的知识图谱,而是一种基于非结构化文本增强关联规则的知识推理方法。由于知识图谱中的知识易于被计算机处理,因此它在许多自然语言处理任务中都起着至关重要的作用。虽然从绝对数量来看,现有的知识图谱已经包含了海量的三元组事实,但是与真实世界中存在的知识相比它远远不够。现有的研究方向主要分为内部推理和外部抽取两类,然而这些方法仍有很大的提升空间:一方面,由于知识图谱内部知识存在错误或缺失,可能会在推理时产生错误的扩散;另一方面,现有的知识抽取方法主要集中于对实体类型、关系等知识的抽取,从而导致抽取的知识不够全面。本方法从非结构化文本表述中抽象出文本表述模式,并以词语分布袋的形式对其进行表示,进而结合知识图谱已有的知识构建关联规则。与传统关联规则的区别在于,本方法得到的关联规则可以通过与非结构化文本匹配的方式来完成知识推理。实验结果表明,与传统方法相比,本方法可以高效地从非结构化文本中推理出数量更大且质量更高的三元组知识。本中推理出数量更大且质量更高的三元组知识。本中推理出数量更大且质量更高的三元组知识。
【技术实现步骤摘要】
一种增强关联规则的隐患知识推理方法
[0001]本专利技术涉及电网信息物理融合系统(CPS)攻击识别领域,是一种电力CPS恶性数据链识别方法。
技术介绍
[0002]知识图谱(KnowledgeGraph/Base)最早由谷歌发布,其主要作用是提高搜索引擎返回答案的质量以及用户查询的效率。由于知识图谱包含了大量的结构化知识以及特殊的存储结构,使得它在许多自然语言处理应用中起着至关重要的作用,例如问答系统、实体链接等。近年来,一些大型的知识图谱,例如DBpeida,Wikidata,Yago,Freebase等,受到了越来越多的关注。虽然这些知识图谱包含了数以千万计的实体以及数以亿计的三元组事实,但是与真实世界中存在的知识相比,它们仍然不够完善。因此,完善知识图谱(Knowledge Bases Completion,KBC)成为当前的研究热点,它主要是指将新的实体、关系、实体属性及属性值加入到知识图谱中。目前,完善知识图谱的方法主要集中在两个方面:1)使用知识图谱内部知识推理完善知识图谱;2)从非结构化文本中抽取新的知识来完善知识图谱。
[0003]知识图谱以一种结构化的形式存储知识并且其本身包含了大量的知识,鉴于这种特性,使用知识图谱内部知识推理完善知识图谱成为目前完善知识图谱的主流方向之一。其主要有两种方法:1)利用表示学习的方式,将知识图谱中的实体和关系嵌入到一个低维的向量空间,然后利用一个评价指标计算三元组事实成立的概率;2)利用逻辑推理的方式,从知识图谱中学习类似rel1(e1,e2)^rel2(e2,e3)
→
rel3(e1,e3)形式的规则。然而,这些方法仅仅对知识图谱中存在的实体起作用,并不能增加新的实体信息。而且由于知识图谱存在错误的信息,基于知识图谱内部的知识图谱完善还可能造成错误传播等问题。
[0004]完善知识图谱需要从外部资源获取新知识。随着互联网的发展,网络上的文本信息急剧增加,如网络新闻、产品说明、用户评论等。这些信息包含了大量的碎片化知识,如何有效抽取这些碎片化的知识并将其与现有知识图谱进行整合是目前研究的一个热点。由于这些文本信息大都以非结构化自然语言的形式存在,计算机无法直接对其进行有效处理,因此如何理解并利用这些信息是一个非常具有挑战性的问题。现有的方法所抽取到的知识往往是非结构化文本中所包含知识的一小部分。例如,对于非结构化文本“Lisa is widow of film director Donen”,利用常识可以推理出Lisa和Donen的类型(人类)、性别,Donen的职业(电影导演),Lisa和Donen的关系(配偶)以及Donen已经去世了等知识。但仅仅将关系分类算法应用于该文本,则只能得到Lisa和Donen的关系以及Donen的职业等一小部分知识。虽然一些研究也关注于联合抽取实体间的关系及实体的类型,但是这些方法所抽取的类型十分有限。
[0005]针对以上问题,本专利技术提出了一种基于非结构化文本增强关联规则的知识推理方法,用以完善知识图谱。该方法从非结构化文本表述中抽象出文本表述模式,并结合知识图谱已有的知识构建规则。规则的形式主要包含两种:一种形式的规则前件包含非结构化文本模式,后件包含三元组事实;另一种形式的规则前件包含非结构化文本模式及三元组事
实,后件包含三元组事实。使用该规则可以将非结构化文本中包含的三元组事实推理出来用以完善知识图谱。实验结果证明了本专利技术方法的有效性。
技术实现思路
[0006]一种增强关联规则的隐患知识推理方法,其特征是,它包括以下步骤:
[0007]步骤1)关系文本的聚类,通过对关系文本相似度的计算,采用基于密度峰值的聚类算法完成关系文本的聚类。
[0008](1.1)关系文本的收集,通过远程监督的方式来实现对相似文本的收集;
[0009](1.2)文本模式建模,采用改进的BoD(BoD*)来对相似的文本建立一个统一的表达模式;
[0010]步骤2)通过非结构化关联规则来实现知识图谱与非结构化文本之间桥梁的搭建,使用这些规则可以直接从非结构化文本中推出新的三元组知识。
[0011](2.1)非结构化文本增强的关联规则的构建,计算出每个规则的支持度和置信度,保留支持度和置信度大于预想值的规则;
[0012](2.2)非结构化文本增强的关联规则的挖掘,采用了自顶向下的层次聚类算法来获得不同粒度的类簇。
[0013](2.3)如果两个规则产生冲突,置信度最高的规则将被保留。
[0014]本专利技术提出了一种基于非结构化关联规则的知识推理方法,使用该方法产生的非结构化规则可以直接推理出非结构化文本中包含的三元组事实,实验结果表明了该方法的有效性。
附图说明
[0015]图1为一种增强关联规则的隐患知识推理方法流程图;
[0016]图2为BoD*、BoD、BoW三种方法三元组推理P/R曲线图
具体实施方式
[0017]下面结合附图对一种增强关联规则的隐患知识推理方法作详细描述。
[0018]一种增强关联规则的隐患知识推理方法,包括如下步骤:
[0019]步骤1)关系文本的聚类,通过对关系文本相似度的计算,采用基于密度峰值的聚类算法完成关系文本的聚类。
[0020](1.1)关系文本的收集,通过远程监督的方式来实现对相似文本的收集。
[0021]Step 1:从Wikidata中收集预先定义关系所对应的实体对(e1,e2)。
[0022]Step 2:爬取e1对应的Wikidata文章,匹配文章中包含实体对的句子。实体对的匹配主要包含完全匹配、同义词匹配、部分匹配以及人称代词匹配等。
[0023]Step 3:对于每个句子,截取e1和e2前后的3个单词以及它们中间的单词作为关系文本。
[0024](1.2)文本模式建模,采用改进的BoD(BoD*)来对相似的文本建立一个统一的表达模式。
[0025]一个类簇由语义和语法都相近的关系文本组成,为了将这些类簇放入到非结构化
关联规则中,需要将其表示为一个统一的文本模式。传统的词袋模型只使用了单词的词频信息,忽略了单词的位置。词语分布袋(Bag of Distribution,BoD)模式可以用来表示一个类簇。该方法使用Beta分布拟合单词在一个类簇的位置分布,再根据单词的频次排序,用高频单词的Beta分布表示该类簇。但是BoD仅仅对主语和宾语之间的单词进行建模,忽略了主语和宾语前后的单词,这可能会导致重要的信息丢失,因此本专利技术提出了一个改进的BoD(BoD*)来建模关系文本。
[0026]先计算类簇中每个单词出现在关系文本中的位置集合,再使每个单词的位置集合用一个高斯分布来拟合。一个类簇所对应的BoD*模式可以表示为如下形式:
[0027]BoD*(c)={(μ
i
,σ
i
,p
i
)|w
i
∈W
c
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种增强关联规则的隐患知识推理方法,其特征是,它包括以下步骤:步骤1)关系文本的聚类,通过对关系文本相似度的计算,采用基于密度峰值的聚类算法完成关系文本的聚类。(1.1)关系文本的收集,通过远程监督的方式来实现对相似文本的收集;(1.2)文本模式建模,采用改进的BoD(BoD*)来对相似的文本建立一个统一的表达模式;步骤2)通过非结构化关联规则来实现知识图谱...
【专利技术属性】
技术研发人员:于建友,孙建,刘明,
申请(专利权)人:国网吉林省电力有限公司白山供电公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。