一种基于本体映射的异构数据融合方法技术

技术编号:26170900 阅读:38 留言:0更新日期:2020-10-31 13:40
本发明专利技术涉及一种基于本体映射的异构数据融合方法,属于数据处理技术领域,通过数据库系统情况,构建元数据字典,进一步得出局部本体模型,然后对局部模式下本体和全局本体进行相似度计算,得到相似度,根据相似度判断出融合情况,将数据进行映射,实现异构数据融合。本发明专利技术通过先建立元数据字典的形式将数据字段进行标准化,然后利用图卷积网络自动学习计算出相似度,省去了数学计算的所带来的误差,准确率更高,最后通过制定的映射规则进行字段映射,避免了低效率的人工筛选,精准映射,数据融合匹配度更高。

【技术实现步骤摘要】
一种基于本体映射的异构数据融合方法
本专利技术涉及一种基于本体映射的异构数据融合方法,属于数据处理

技术介绍
随着大数据、云计算等新技术的不断发展,各个领域的数据信息极度膨胀,信息数量呈爆炸型趋势增长,而且它们广泛分布于复杂的网络环境中,并且数据的格式可能存在很多的不同。因此,如何解决这些数据之间的交互问题就变得至关重要。20世纪末,语义网络的概念被提出,语义网络的主要目的就是通过对数据进行处理,实现知识层面语义数据之间的相互理解,使其能够被计算机使用和分析。本体是语义网络的知识表现形式,是对语义网络中数据进行处理的关键技术,它可以有效表达知识与知识之间的关系。然而,由于数据来自不同的组织,产生不同的本体,不同的本体之间存在异构性,不利于对数据的融合操作。本体映射技术为不同数据源之间进行数据共享和信息交互提供了可能,也就是通过对异构本体去创建语义映射关系,从而解决不同领域之间难以进行数据融合共享的问题。在对数据进行融合共享时,一般要求所有的数据语义一致。语义冲突是指当描述同一现实事物时,两个对象在描述方式、结构上和内容上的不同造成的语义不一致性。但是考虑现实情况,不同数据源的数据库各自独立,具有高度自治性,所以不同数据源所构成的数据库不可能完全语义一致,这就对数据融合造成了极大的困扰。过去,数据融合要进行的模式匹配一般是通过人工识别、人工判断,执行字段匹配,对于语义冲突的问题,常用的解决方法是在模式集成的时候去人工的消除数据的语义不一致性,该办法局限性很大,准确率不理想且浪费大量人力资源。<br>很明显,手工表明模式匹配是一个冗长、费时、容易出错、代价也很高的过程。伴随着迅速发展信息技术、日益呈爆炸式增长的数据源,逐渐开始产生并需要处理更复杂的数据库,对应的模式也很大,要匹配的数量更是大大增加,因而需要一个更快的、劳动强度更小的匹配方法,这就需要模式匹配过程的自动支持。
技术实现思路
针对现有技术的不足,本专利技术提供一种基于本体映射的异构数据融合方法,通过数据库系统情况,构建元数据字典,进一步得出局部本体模型,然后对局部模式下本体和全局本体进行相似度计算,得到相似度,根据相似度判断出融合情况,将数据进行映射,实现异构数据融合。本专利技术主要解决的技术问题为:不同数据源局部本体模型的构建,局部模式下本体相似度的计算,以及依据相似度情况,将局部模式下的本体映射到全局模式下。本专利技术采用以下技术方案:一种基于本体映射的异构数据融合方法,包括以下步骤:(1)对来自不同数据源的数据,建立一个元数据字典,然后构建局部本体模型;(2)对局部本体与全局本体进行语义相似度计算,得到相似度;(3)根据相似度情况,按照局部模式到整体模式的映射规则,将数据进行映射,消除语义冲突,实现异构数据融合。要把来自不同领域、不同组织、不同人员提供的异构数据融合,步骤(1)中,需要在前期先把数据源进行处理,确定出最后需要的数据字段,即确定出要生成的数据的标准格式,然后再进行后续工作,构建数据源模式的局部本体。数据模式指的就是数据在数据源中的逻辑表达形式,在关系型数据库中,模式就是指对于数据表的定义,它包括表的属性名、属性的顺序、属性的域,主键和外键信息。数据融合就是模式集成的过程,把不同的模式集成为统一的形式。考虑到本体在模式集成过程中存在语义冲突,那么在映射之前,应该先构建各数据源模式的局部本体。要想构建局部本体,对于不同来源的数据库,需要去获取各异构数据源的源数据及其连接信息,本专利技术通过构建数据字典的途径实现这一目的。优选的,构建数据源模式的局部本体具体为:对于不同来源的数据库,获取各异构数据源的源数据及其连接信息,源数据及其连接信息包括数据库是由谁提供的,数据库的名字是什么,数据库包含多少表,表包含有什么字段,表之间有什么联系,表的每个字段有什么属性,属性之间有什么联系,表的主外键都有什么等信息,在现有的操作系统下,这些信息均可通过内置函数去查询获得,将查询的不同来源的数据库的数据按照key-value的形式呈现,即完成了对元数据字典的构建,将来自不同数据源的数据总体建立一个元数据字典,其中的每一条记录即为一个局部本体。本专利技术中,通过内置函数去查询所需要的信息,为现有技术,比如,可以用showdatabases语句来确定数据的名字是什么,用showtables语句来得到数据库中包含有多少表等。元数据字典的数据格式为字典,以key-value的形式呈现,如数据库名字的key定义为dbname,对应的值value为user_info,数据库包含的表的数目的key定义为dbnum,对应的值value为5,表之间的关系的key定义为dbrelation,对应的值value为one_to_one等。不同的数据库就对应不同的一条字典记录,它们可以拥有相同的key,但是value值可以不同。元数据字典的构建为构建局部本体提供了基础,为了明确、规范地描述数据源的概念,才去构建局部本体。优选的,构建局部本体模型分为两步,即先分析数据源,然后定义局部本体:数据源即指不同的数据来源,这些不同的数据来源提取它们的属性才构成了元数据字典,元数据字典的字段内容包括数据元素类、数据表属性类、表之间的关系和对数据源的描述,数据元素类包括表包含的所有字段、字段对应的属性,数据表属性类指的是字段属性间的联系、表的主外键信息;数据源类的描述包括数据源地址、源数据类型、源数据名称和源数据提供者,元数据字典中的数据元素类、数据表属性类;每一个元数据字典的记录即为一个局部本体。本体构建成功后,接下来检测语义冲突的情况,这一检测通过局部本体与全局本体的语义相似度的计算。语义相似度可以用来描述不同词语之间的相似程度,确定出相似度后,判断是否发生语义冲突,语义相似度值通常是介于0-1之间的实数。优选的,步骤(2)进一步为:通过建立图卷积网络的方式实现相似度的计算,判断是否发生语义冲突,以此来判断该数据该不该被映射,具体的,首先从元数据字典中选取所有的数据元素类,获取局部模式和全局模式下的组成元素,将其获取的各组成元素作为图卷积网络中的节点,将组成元素之间的关系作为边,各元素及其关系可从元数据字典中选取key值为元素关系的字段来确定;其中,把不同的数据源称为局部模式,把融合之后生成的目标库称为全局模式;在构建过程中,一个数据库对应局部本体中的一个实体,实体间的关系对应局部本体模型中的联系,实体间的关系包含一对一关系、一对多关系和多对多关系,实体的数据库表名、表的属性、字段名、字段类型、属性值域体现数据的属性信息,主键、外键约束体现数据的结构信息,将属性信息和结构信息相结合作为图卷积网络的标签,通过标签信息刻画局部本体和全局本体的特征,概率相近的本体即存在相似性(可通过图卷积网络自动学习计算),进行局部到全局的映射。优选的,图卷积网络的输入层由局部本体节点和全局本体节点,其中局部本体节点和全局本体节点均包括结构信息和本文档来自技高网
...

【技术保护点】
1.一种基于本体映射的异构数据融合方法,其特征在于,包括以下步骤:/n(1)对来自不同数据源的数据,建立元数据字典,然后构建局部本体模型;/n(2)对局部本体与全局本体进行语义相似度计算,得到相似度;/n(3)根据相似度情况,按照局部模式到整体模式的映射规则,将数据进行映射,消除语义冲突,实现异构数据融合。/n

【技术特征摘要】
1.一种基于本体映射的异构数据融合方法,其特征在于,包括以下步骤:
(1)对来自不同数据源的数据,建立元数据字典,然后构建局部本体模型;
(2)对局部本体与全局本体进行语义相似度计算,得到相似度;
(3)根据相似度情况,按照局部模式到整体模式的映射规则,将数据进行映射,消除语义冲突,实现异构数据融合。


2.根据权利要求1所述的基于本体映射的异构数据融合方法,其特征在于,步骤(1)中,在前期先把数据源进行处理,确定出最后需要的数据字段,然后构建数据源模式的局部本体。


3.根据权利要求2所述的基于本体映射的异构数据融合方法,其特征在于,构建数据源模式的局部本体具体为:
对于不同来源的数据库,获取各异构数据源的源数据及其连接信息,源数据及其连接信息包括数据库是由谁提供的,数据库的名字是什么,数据库包含多少表,表包含有什么字段,表之间有什么联系,表的每个字段有什么属性,属性之间有什么联系,表的主外键都有什么等信息,这些信息均通过内置函数查询获得,将查询的数据按照key-value的形式呈现,即完成了对元数据字典的构建。


4.根据权利要求3所述的基于本体映射的异构数据融合方法,其特征在于,构建局部本体模型分为两步,即先分析数据源,然后定义局部本体:
元数据字典的字段内容包括数据元素类、数据表属性类、表之间的关系和对数据源的描述,数据元素类包括表包含的所有字段、字段对应的属性,数据表属性类指的是字段属性间的联系、表的主外键信息;
每一个元数据字典的记录即为一个局部本体。


5.根据权利要求4所述的基于本体映射的异构数据融合方法,其特征在于,步骤(2)进一步为:
通过建立图卷积网络的方式实现相似度的计算,判断是否发生语义冲突,具体的,首先从元数据字典中选取所有的数据元素类,获取局部模式和全局模式下的组成元素,将其获取的各组成元素作为图卷积网络中的节点,将组成元素之间的...

【专利技术属性】
技术研发人员:孙留倩魏玉良王佰玲王巍刘扬辛国栋
申请(专利权)人:哈尔滨工业大学威海威海天之卫网络空间安全科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1