本发明专利技术公开了一种基于开放接口的多源异构数据源访问方法,包括:查询并获取多种数据源连接的开放接口;适配各开放接口;集成封装各开放接口;选取数据源连接的开放接口;选取数据源并对各数据源设定连接参数与查询数据集;获取数据元信息;数据元信息标准化;数据访问。本发明专利技术通过集成封装各数据源访问接口来进行数据的获取,对这些访问接口进行统一管理避免了新数据源在加入时进行单独开发,实现对数据源统一透明的访问;通过数据元标准化,提供统一的数据元读取和处理规则,并对数据进行分类映射,保障后续流程处理;解决了多源异构数据源访问过程中面对的系统异构、数据模型异构和逻辑异构三个层面的问题,高效地将不同的数据源有机的结合起来。
【技术实现步骤摘要】
本专利技术涉及多源异构数据源整合
,具体而言,涉及一种基于开放接口的多源异构数据源访问方法。
技术介绍
随着信息化程度的提高,数据共享的内容与形式也越来越丰富,然而数据源以及数据之间的异构性使数据的共享产生了一定的困难,解决这一问题的关键手段是进行有效的数据整合。数据整合的首要任务是提供对异构数据源透明、一致的访问能力。透明性需要屏蔽底层数据源的差异,当需要从多个数据源进行读取时,从使用者的角度来看,不是来自于若干个数据源,而是一个数据源,需要消除各数据源之间的存在的模型差异性来保证一致性。然而由于数据模型差异导致数据源存储格式不同,导致了各类数据源有各自的访问方式。数据的读取是直接对数据源中数据进行读操作,不可能有一个统一的方法来读取所有数据源,同时,异构数据源数据,对于同一类数据的描述,会存在数据元表示不统一的情况,这样会干扰数据使用,导致数据冗余及数据错误问题。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种基于开放接口的多源异构数据源访问方法,解决了多源异构数据源访问过程中面对的系统异构、数据模型异构和逻辑异构三个层面的问题,高效地将不同的数据源有机的结合起来。本专利技术提供了一种基于开放接口的多源异构数据源访问方法,该方法包括以下步骤:步骤1,查询并获取多种数据源连接的开放接口,即查询关系型数据库、电子表格、结构化平面文件和其他数据源提供的访问接口;步骤2,适配各开放接口,即将步骤1中得到的多种数据源的开放接口进行对应的特性适配;步骤3,集成封装各开放接口,即将步骤2中适配的多种数据源的开放接口和访问方法进行集成封装,得到开放接口集;步骤4,选取数据源连接的开放接口,即当需要进行数据源连接时,从步骤3中已封装好的开放接口集中选取合适的访问方法;步骤5,选取数据源并对各数据源设定连接参数与查询数据集,即选取数据源并将步骤4中选取好的开放接口进行连接参数与查询数据集的设定;步骤6,获取数据元信息,即利用步骤3中封装好的访问方法获取数据元信息或通过预览的数据获取数据元信息;步骤7,数据元信息标准化,即在获取数据元信息后,归约数据元信息的数据类型并对归类的数据元进行统一的命名与最大化元数据处理;步骤8,数据访问,即根据步骤5连接的数据源,从封装的开放接口集中选取访问方法来进行数据访问和应用。作为本专利技术进一步的改进,步骤1中,关系型数据库的访问接口为JDBC接口或ODBC接口,电子表格的访问接口为Apache POI接口,结构化平面文件的访问接口为JDOM接口,其他数据源的访问接口为API接口。作为本专利技术进一步的改进,步骤5对各数据源连接参数与查询数据集的设定通过常量和变量的组合来完成,同时通过正则表达式对数据源进行选取。作为本专利技术进一步的改进,对访问过程中长期不变的连接参数或查询数据集,通过硬编码录入的常量方式来设定;对访问过程中短期内需要变动的连接参数或查询数据集,通过读取配置文件、在运行前进行加载、在运行过程中保持不变的静态变量方式来设定;对访问过程中需要变动的连接参数或查询数据集,通过在访问过程中动态生成配置文件再加载的动态变量方式来设定。作为本专利技术进一步的改进,当需要进行大规模的多数据源选择性连接时,通过正则表达式的匹配选取数据源,将满足条件的数据源连接,不满足条件的数据源忽略,具体包括以下步骤:步骤s1,编辑需要选取的数据源特性的正则表达式;步骤s2,读取数据源信息;步骤s3,判定已读取的数据源信息的正则表达式;步骤s4,连接符合正则表达式规则的数据源,并读取连接的数据源的数据;步骤s5,忽略不符合正则表达式规则的数据源。作为本专利技术进一步的改进,步骤6通过直接读取或自动模糊匹配生成数据元信息,具体包括以下步骤:步骤601,根据步骤3中集成的访问方法,通过开放接口查询已存储的元数据;步骤602,元数据查询后,直接读取元数据对应的数据元信息;步骤603,如果通过开放接口无法查询已存储的元数据,则进行数据预览;步骤604,对预览的数据值进行特性判断,并模糊匹配其数据元信息;步骤605,将查询到的数据元信息和模糊匹配的数据元信息进行汇总。作为本专利技术进一步的改进,步骤7具体包括以下步骤:步骤701,将获取的数据元信息进行数据类型分类归约,归约后的数据类型分为字符型、数字型、日期型、日期时间型、布尔型和二进制型;步骤702,将同一类的数据元的不同命名调整为统一的命名;步骤703,将同一类数据元的值域按照所获取到的数据元值域中的最大值进行重新指定,其中值域的内容包括长度和精度;步骤704,数据元信息标准统一,进行相应的数据应用。本专利技术的有益效果为:1、针对数据模型差异导致数据源存储格式不同,各类数据源有各自的访问方式的问题,通过集成封装各类数据源访问接口来进行数据的获取,对这些数据源访问接口进行统一的管理避免了新数据源在加入时进行单独开发,实现了对数据源统一透明的访问;2、通过数据元标准转化,提供统一的数据元读取和处理规则,并对数据进行分类映射,保障了后续流程处理对于处理的数据单元有着共同、一致和无歧义的理解;3、解决了多源异构数据源访问过程中面对的系统异构、数据模型异构和逻辑异构三个层面的问题,高效地将不同的数据源有机的结合起来。附图说明图1为本专利技术实施例所述的一种基于开放接口的多源异构数据源访问方法的流程示意图;图2为图1中步骤1的适配各种存储模式的示意图;图3为图1中步骤5的数据源连接参数与查询数据集的常量和变量设定的示意图;图4为图1中步骤5的正则表达式数据源选取的流程示意图;图5为图1中步骤6的数据元获取的流程示意图;图6为图1中步骤7数据元标准处理的流程示意图。具体实施方式下面通过具体的实施例并结合附图对本专利技术做进一步的详细描述。如图1所示,本专利技术实施例所述的一种基于开放接口的多源异构数据源访问方法,该方法包括以下步骤:步骤1,查询并获取多种数据源连接的开放接口,即获取关系型数据库、电子表格、结构化平面文件和其他数据源提供的访问接口;步骤2,适配各开放接口,即将步骤1中查询到的多种数据源的开放接口进行对应的特性适配,得到各开放接口的访问方法;步骤3,集成封装各开放接口,即将步骤2中适配的多种数据源的开放接口和访问方法进行集成封装,得到开放接口集;步骤4,选取数据源连接的开放接口,即当需要进行数据源连接时,从步骤3中已封装好的开放接口集中选取合适的访问方法;步骤5,选取数据源并对各数据源设定连接参数与查询数据集,即选取数据源并将步骤4中选取好的开放接口进行连接参数与查询数据集的设定;步骤6,获取数据元信息,即利用步骤3中封装好的访问方法获取数据元信息或通过预览的数据获取数据元信息;步骤7,数据元信息标准化,即在获取数据元信息后,归约数据元信息的数据类型并对归类的数据元进行统一的命名与最大化元数据处理;步骤8,数据访问,即根据步骤5连接的数据源,从封装的开放接口集中选取访问方法来进行数据访问和应用。本专利技术的数据源的访问覆盖了现有的存储模式,如图2所示,依据各类数据驱动方式,关系型数据库通过Java数据库连接(JDBC)或开放数据库互联(ODBC)接口读取访问,电子表格通过Apache POI接口读取访问,结构化平面文件通过Java文档对象模型(JDOM)接口读取访问,其他数据源本文档来自技高网...
【技术保护点】
一种基于开放接口的多源异构数据源访问方法,其特征在于,该方法包括以下步骤:步骤1,查询并获取多种数据源连接的开放接口,即获取关系型数据库、电子表格、结构化平面文件和其他数据源提供的访问接口;步骤2,适配各开放接口,即将步骤1中得到的多种数据源的开放接口进行对应的特性适配;步骤3,集成封装各开放接口,即将步骤2中适配的多种数据源的开放接口和访问方法进行集成封装,得到开放接口集;步骤4,选取数据源连接的开放接口,即当需要进行数据源连接时,从步骤3中已封装好的开放接口集中选取合适的访问方法;步骤5,选取数据源并对各数据源设定连接参数与查询数据集,即选取数据源并将步骤4中选取好的开放接口进行连接参数与查询数据集的设定;步骤6,获取数据元信息,即利用步骤3中封装好的访问方法获取数据元信息或通过预览的数据获取数据元信息;步骤7,数据元信息标准化,即在获取数据元信息后,归约数据元信息的数据类型并对归类的数据元进行统一的命名与最大化元数据处理;步骤8,数据访问,即根据步骤5连接的数据源,从封装的开放接口集中选取访问方法来进行数据访问。
【技术特征摘要】
1.一种基于开放接口的多源异构数据源访问方法,其特征在于,该方法包括以下步骤:步骤1,查询并获取多种数据源连接的开放接口,即获取关系型数据库、电子表格、结构化平面文件和其他数据源提供的访问接口;步骤2,适配各开放接口,即将步骤1中得到的多种数据源的开放接口进行对应的特性适配;步骤3,集成封装各开放接口,即将步骤2中适配的多种数据源的开放接口和访问方法进行集成封装,得到开放接口集;步骤4,选取数据源连接的开放接口,即当需要进行数据源连接时,从步骤3中已封装好的开放接口集中选取合适的访问方法;步骤5,选取数据源并对各数据源设定连接参数与查询数据集,即选取数据源并将步骤4中选取好的开放接口进行连接参数与查询数据集的设定;步骤6,获取数据元信息,即利用步骤3中封装好的访问方法获取数据元信息或通过预览的数据获取数据元信息;步骤7,数据元信息标准化,即在获取数据元信息后,归约数据元信息的数据类型并对归类的数据元进行统一的命名与最大化元数据处理;步骤8,数据访问,即根据步骤5连接的数据源,从封装的开放接口集中选取访问方法来进行数据访问。2.根据权利要求1所述的多源异构数据源访问方法,其特征在于,步骤1中,关系型数据库的访问接口为JDBC接口或ODBC接口,电子表格的访问接口为Apache POI接口,结构化平面文件的访问接口为JDOM接口,其他数据源的访问接口为API接口。3.根据权利要求1所述的多源异构数据源访问方法,其特征在于,步骤5对各数据源连接参数与查询数据集的设定通过常量和变量的组合来完成,同时通过正则表达式对数据源进行选取。4.根据权利要求3所述的多源异构数据源访问方法,其特征在于,对访问过程中长期不变的连接参数或查询数据集,通过硬编码录入的常量方式来设定;对访问过程中短期内需要变动的连...
【专利技术属性】
技术研发人员:曾德贤,李睿,王夏男,
申请(专利权)人:中国人民解放军装备学院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。