一种基于多模态融合的知识库构建方法技术

技术编号:24683962 阅读:356 留言:0更新日期:2020-06-27 08:07
本发明专利技术公开了一种基于多模态融合的知识库构建方法,包括基于数据源中词条的信息框信息抽取实体的基本属性建立二元关系,生成所述信息框属性与关系的映射字典;建立基于词向量空间和条件随机场的主题实体与关系提取模型,扩充所述二元关系生成多元关系模板;基于抽取到的所述二元关系的名称构建实体的特征集合,对所述实体进行层次聚类划分,构建分类体系,概括所述分类体系信息;对数据源中的数据以所述实体的固有属性和属性值进行属性规范化;确定融合的数据集合,根据实体对齐算法识别不同数据源中的等价实体,建立不同数据源中同一实体的等价链接,进行多源数据融合;对进行所述多源数据融合后的知识图谱进行纠正和扩充,实现知识的自动补全。

A knowledge base construction method based on multimodal fusion

【技术实现步骤摘要】
一种基于多模态融合的知识库构建方法
本专利技术涉及计算机
,尤其涉及一种基于多模态融合的知识库构建方法。
技术介绍
目大数据已经逐步渗透到科学技术发展、国民经济和民众日常生活的各个方面,从海量数据中发现知识和挖掘信息成为关键技术。自然语言处理的快速发展为知识图谱的构建和扩充提供了可行性,而知识的抽取和统一表示为理解和关联知识提供了理论和技术支持。2012年Google提出知识图谱的概念,并将其作为向知识引擎迈进的关键和下一代搜索引擎的核心,实现客观世界中知识和事物到互联网中数据的转换。知识图谱的提出和快速发展,已经成为高校和企业进行知识转化和表示的重要工具,为信息挖掘、语义解析、知识生成和知识推理提供了重要手段。知识图谱以大量复杂且结构化的知识,存储与描述着互联网中的数据,为机器提供了一种更加可读的知识网络,助力其从语义角度理解用户的搜索意图,从海量数据中快速、准确地获得有价值的结果,并呈现与搜索结果关联的整个知识体系,满足信息时代人们更具深度与广度的数据需求。知识库中的知识条目(即事实,fact)被表示为一个形如(subject,relation,object)的三元组,其中subject和object表示实体,relation描述subject和object间的语义关系。将所有三元组组织在一起可以构成一个有向图,图中的节点和有向边分别表示实体及其实体间的关系,通过这种方式从知识库中得到的有向图被称为知识图谱(KnowledgeGraph)。目前多源数据融合的问题主要有两个:(1)来源于不同数据源的数据之间是多态、异构的,不同数据源之间可能在本体层面上有所不同,如属性名的表达不同;(2)不同数据源之间可能存在冲突数据,由于一些不完整、错误、过时问题导致的数据冲突可能会对信息的获取产生误导。
技术实现思路
为解决上述技术问题,本专利技术的目的在于提供了一种一种基于多模态融合的知识库构建方法,通过对整个知识库构建中中包括本体构建、实体对齐以及知识融合等子步骤进行统一建模,对实体对齐、知识融合方面的准确率有所提升。为实现上述目的,本专利技术的技术方案如下:一种基于多模态融合的知识库构建方法,包括:步骤一:基于数据源中词条的信息框信息抽取实体的基本属性建立二元关系,生成所述信息框属性与关系的映射字典;利用所述词条的文本描述信息建立基于词向量空间和条件随机场的主题实体与关系提取模型,扩充所述二元关系生成多元关系模板;基于抽取到的所述二元关系的名称构建实体的特征集合,对所述实体进行层次聚类划分,构建分类体系,概括所述分类体系信息;步骤二:对若干数据源中每个数据源中的数据以所述实体的固有属性和属性值进行属性规范化;确定融合的数据集合,根据实体对齐算法识别不同数据源中的等价实体,建立不同数据源中同一实体的等价链接,进行多源数据融合;步骤三:对进行所述多源数据融合后的知识图谱进行纠正和扩充,对语义向量空间进行联合学习以及链接预测,设计事实重建方法,实现知识的自动补全。进一步,所述步骤二中所述实体对齐算法用于计算所述实体间的相似度,当相似度超过设定的阈值时,所述实体为等价实体,其中,所述相似度为两个所述实体间本文描述的相似度。进一步,所述相似度通过以下方法得到:获得两个实体间的文本描述,分词,去除停用词,通过BERT训练的词向量将文本转化为向量,将每个词得到的向量累加后除以词的数量,将得到的两个句向量用余弦值求得相似度。进一步,所述步骤三中事实重建方法为:针对部分实体类型缺失的问题,设计多分类器对所述实体类型进行预测扩充,并基于类型约束生成候选实体集合,降低后续可连接实体搜索空间;建立实体可连接关系模型,拟采用多层感知机模型,建立实体的分布式表示与可连接关系间的分类模型,同时建立反传机制,利用所述多层感知机对所述实体的分布式表示进行修正;通过基本的多元关系表示学习模型和可连接关系模型的迭代,得到同时满足两类约束的模型参数,并利用实体相关性代价函数来进一步确定实体间的相关性,过滤不满足可连接关系的实体对;得到可连接关系的多元关系实例,拟将该问题抽象为最大团发现问题,设计基于启发式规则和剪枝策略的最大团扩展算法,实现事实的高效重建。本专利技术一种基于多模态融合的知识库构建方法,针对现有技术中多源数据融合的问题以及实体对齐准确率不足的问题,将整个多元数据融合过程进行统一化建模,同时在对实体对齐、知识融合方面的准确率有所提升。在融合多个来源的实体数据时,首先,分别对每个数据源的属性进行规范化表示,其中包括了同义属性映射和对属性值的数值单位的统一转换,这样对属性的规范化处理可以减少对后续实体比较造成的影响;然后,基于实体名和实体属性对实体进行分块聚合,这样仅将同一分块内不同来源的实体作为候选匹配实体对,避免了将两个数据源中所有的实体两两间比较,减少计算复杂度;最后,将同一分块内不同来源的实体作为候选实体对,采用实体对齐算法计算实体间的相似度,将匹配得到不同来源中描述同一客观世界的实体对,建立不同数据源之间同一实体的等价链接,并进行实体属性的合并,而对于一个数据源中独有的实体,可以直接添加到知识库中。附图说明图1为本专利技术知识库模型框架图;图2为本专利技术知识表达体系图;图3为本专利技术分类体系图;图4为本专利技术多源数据融合框架图;图5为本专利技术知识图谱的自主扩充框架图。具体实施方式为了能够更加详尽地了解本专利技术实施例的特点与
技术实现思路
,下面结合附图对本专利技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本专利技术实施例。为清楚地说明本专利技术的设计思想,下面结合实施例对本专利技术进行说明。图1为本专利技术实施例一种基于多模态融合的知识库构建方法的知识库模型框架图,如图1所示,所述基于多模态融合的知识库构建方法包括以下步骤:步骤一:基于数据源中词条的信息框信息抽取实体的基本属性建立二元关系,生成所述信息框属性与关系的映射字典;利用所述词条的文本描述信息建立基于词向量空间和条件随机场的主题实体与关系提取模型,扩充所述二元关系生成多元关系模板;基于抽取到的所述二元关系的名称构建实体的特征集合,对所述实体进行层次聚类划分,构建分类体系,概括所述分类体系信息;步骤二:对若干数据源中每个数据源中的数据以所述实体的固有属性和属性值进行属性规范化;确定融合的数据集合,根据实体对齐算法识别不同数据源中的等价实体,建立不同数据源中同一实体的等价链接,进行多源数据融合;步骤三:对进行所述多源数据融合后的知识图谱进行纠正和扩充,对语义向量空间进行联合学习以及链接预测,设计事实重建方法,实现知识的自动补全。上述示例中,在对本体尤其是类别层次体系和类别属性体系进行构建时,本专利技术根据知识分类和关系描述的不完整性特征,研究基于语义的知识图谱表达体系的构建方法和实体关系描述的理论方法,实现知识表达体系的统一化。针对知识图谱类型定义多样、需大量人工参与等问题,本专利技术设计了基于实体类型本文档来自技高网
...

【技术保护点】
1.一种基于多模态融合的知识库构建方法,其特征在于,所述方法包括:/n步骤一:基于数据源中词条的信息框信息抽取实体的基本属性建立二元关系,生成所述信息框属性与关系的映射字典;利用所述词条的文本描述信息建立基于词向量空间和条件随机场的主题实体与关系提取模型,扩充所述二元关系生成多元关系模板;基于抽取到的所述二元关系的名称构建实体的特征集合,对所述实体进行层次聚类划分,构建分类体系,概括所述分类体系信息;/n步骤二:对若干数据源中每个数据源中的数据以所述实体的固有属性和属性值进行属性规范化;确定融合的数据集合,根据实体对齐算法识别不同数据源中的等价实体,建立不同数据源中同一实体的等价链接,进行多源数据融合;/n步骤三:对进行所述多源数据融合后的知识图谱进行纠正和扩充,对语义向量空间进行联合学习以及链接预测,设计事实重建方法,实现知识的自动补全。/n

【技术特征摘要】
1.一种基于多模态融合的知识库构建方法,其特征在于,所述方法包括:
步骤一:基于数据源中词条的信息框信息抽取实体的基本属性建立二元关系,生成所述信息框属性与关系的映射字典;利用所述词条的文本描述信息建立基于词向量空间和条件随机场的主题实体与关系提取模型,扩充所述二元关系生成多元关系模板;基于抽取到的所述二元关系的名称构建实体的特征集合,对所述实体进行层次聚类划分,构建分类体系,概括所述分类体系信息;
步骤二:对若干数据源中每个数据源中的数据以所述实体的固有属性和属性值进行属性规范化;确定融合的数据集合,根据实体对齐算法识别不同数据源中的等价实体,建立不同数据源中同一实体的等价链接,进行多源数据融合;
步骤三:对进行所述多源数据融合后的知识图谱进行纠正和扩充,对语义向量空间进行联合学习以及链接预测,设计事实重建方法,实现知识的自动补全。


2.根据权利要求1所述的基于多模态融合的知识库构建方法,其特征在于,所述步骤二中所述实体对齐算法用于计算所述实体间的相似度,当相似度超过设定的阈值时,所述实体为等价实体,其中,所述相似度为两个所述实体间本文描述的相似度。<...

【专利技术属性】
技术研发人员:张日崇谭智隆刘幼峰
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1