本发明专利技术实施例公开了一种异构数据的整合方法及系统,该方法包括:读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;及依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。解决由于现有异构数据的独立特性无法进行整体高性能处理的问题。
【技术实现步骤摘要】
本专利技术实施例涉及计算机应用领域,尤其涉及一种异构数据的整合方法及系统。
技术介绍
随着信息化的发展,人们积累了海量的数据资源,并且数据的规模正在以更快的速度增长,其中一些搜索引擎公司整合了几乎所有的Web数据,这类数据的特点是开放的,公有的,并且基本上都以非结构化的文本形式存在,我们称之为公共数据。而除了公共数据之外,还有一类更有价值的数据是结构化数据,这类数据的特点是私有的,结构化的,我们将其称之为私有数据。对公共数据的使用,搜索引擎已经做到了相当成熟的程度。要想进一步提高搜索引擎的可用性需要对非结构化的文本数据进行自然语言处理,使机器能够像人一样阅读网页,理解人类的各种语言,这是非常困难的事情,目前还没有突破性的进展。而对于私有数据以固定独立模式的数据库对它们的原始目标,即商业事务处理来说是非常有效的,但对于其以外的需求,如情报获取、知识挖掘、模式挖掘等,以SQL模式存在的数据库就显的力不从心了。由于这些原因,私有数据在支持原有业务本身之外,还没有发挥出太大的作用。针对现有的结构化数据和非结构数据,目前还没有办法打破异构数据的独立特性,并且无法对数据整体进行高性能的处理。
技术实现思路
本专利技术实施例提供一种异构数据的整合方法及系统,以对整体异构数据进行高性能的处理。本专利技术实施例提供了一种异构数据的整合方法,包括:读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;及依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。本专利技术实施例提供了一种异构数据的整合系统,包括:数据处理模块,用于读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;语义标注模块,用于分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;整合模块,用于依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。本专利技术实施例通过读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;及依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。解决由于现有异构数据的独立特性无法进行整体高性能处理的问题,本实施的技术方案将不同结构的数据抽象、分解成统一结构的对象和属性,使用三元模型对其进行重构,同时使用海量分布式数据存储系统对数据进行存储,因此可以处理任意复杂结构和任意规模的原始异构数据。【附图说明】图1是本专利技术实施例一提供的一种异构数据的整合方法的流程示意图;图2是本专利技术实施例一提供对象表、属性表及连接表进行语义标注示意图;图3是本专利技术实施例二提供的一种异构数据的整合系统的结构示意图。【具体实施方式】下面结合附图并通过【具体实施方式】来进一步说明本专利技术的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各项步骤的顺序可以被重新安排。当其步骤完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1为本专利技术实施例一提供的一种异构数据的整合方法,该方法可以由异构数据的整合系统执行,其中该整合系统可由软件和/或硬件实现,一般可集成在计算机中。参见图1,本实施例的异构数据的整合方法包括如下步骤:步骤S110、读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现。具体的,将原始的异构数据导入,即将各种格式的结构化数据或非结构化数据导入至计算机中以准备进行处理。其中,所述的结构化数据可以直接导入,而非结构化数据需要经过数据抽取、数据清洗后转换为结构化数据才能导入。其中,因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据” “洗掉”,这就是数据清洗。在信息社会,信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。结构化数据属于非结构化数据,是非结构化数据的特例。优选的,在本实施例中,当所述异构数据是结构化数据时,可直接将结构化数据分解成对象、属性和连接三类基本元素;当所述异构数据是非结构化数据时,需要先将所述非结构化数据进行抽取、清洗转换为结构化数据才能分解成对象、属性、及连接三类基元素。所述对象代表基本的数据单位,对应结构化数据的一个“行”。对象包括实体和事件两类,常见的实体如人物、组织、文档等,事件是指由实体参与的行为或活动,例如乘某一个架次的航班,某个号码的一次电话通话等。所述属性代表对象的具体信息,对应结构化数据的一个“行”数据的一个字段。每个对象由一组属性来表示,例如人物对象可以由姓名,电话号码,性别,出生日期,籍贯来表示,而一次打电话的行为可以用电话主叫方,电话被叫方,通话时间,通话时长来表示。所述连接代表对数据关联利用的基础,将属性值相同的两个对象建立连接。例如两个对象的某些属性相同时,则可以在所述两对象间建立一个连接,例如:人物的电话号码属性和打电话的电话主叫号码属性相同,人物对象和打电话事件对象之间就可以建立称为“电话主叫方”的连接。在分解成对象、属性和连接三类基本元素后,构建对象、属性和连当前第1页1 2 3 本文档来自技高网...
【技术保护点】
一种异构数据的整合方法,其特征在于,包括:读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;及依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。
【技术特征摘要】
【专利技术属性】
技术研发人员:许中兴,
申请(专利权)人:北京天广汇通科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。