将文档型数据库的数据转换至关系型数据库的方法及系统技术方案

技术编号:10270055 阅读:155 留言:0更新日期:2014-07-30 20:41
本发明专利技术提供一种将文档型数据库的数据转换至关系型数据库的方法及系统,所述方法包括:采集地址参数、用户身份参数以及导出参数;采集用户输入的启动请求;根据所述的启动请求、地址参数以及用户身份参数抓取文档型数据库的数据,得到超文本标记语言HTML文件;根据标签匹配方式对所述的HTML文件进行转换,得到文本文件;根据所述的导出参数将所述的文本文件中的数据导入至关系型数据库中。实现了文档型数据库向关系型数据库的数据移行,由此降低移行程序的开发成本,提高移行效率。

【技术实现步骤摘要】
将文档型数据库的数据转换至关系型数据库的方法及系统
本专利技术关于计算机数据处理
,特别是关于不同数据库之间的数据迁移技术,具体的讲是一种将文档型数据库的将文档型数据库的数据转换至关系型数据库至关系型数据库的方法及系统。
技术介绍
随着计算机技术的日益发展,原本基于文档型数据库开发的应用系统越来越多的需要迁移到主流的浏览器B/服务器模式S平台应用系统。如何实现将文档型数据库中的老数据迁移到B/S平台的关系型数据库中,并同时满足B/S平台新系统的要求呢?传统的数据信息获取和转换方式是通过后台数据逻辑变换实现的,即通过文档型数据库的客户端导出程序,文档型数据库中按移行要素遍历和逻辑计算后,下载数据至导出客户端本地,下载的数据包括文字信息和实体文件。上述传统的数据获取和转换方式在数据移行中存在的弊端主要包括:1、移行程序开发成本高,复用率低。在文档型数据库中存放的是非结构化的文档,而用户看到的信息是显示时应用系统计算得出的,因此为满足移行要求,导出程序在导出的同时需要对数据进行逻辑计算,所以对于导出方,必须对应用系统的后台数据结构有深入了解,定制化开发成本高,移行程序复用率低;2、移行效率低。文档型数据库的查询效率低,尤其是在高并发情况下查询效率急剧下降,大大限制了移行效率的提高。因此,如何实现将文档型数据库中的老数据迁移到B/S平台的关系型数据库中,既能满足B/S平台新系统的要求,又能克服移行工具开发成本高、复用率低、移行效率低的问题是本领域亟待解决的技术难题。
技术实现思路
为了克服现有技术中文档型数据库向关系型数据库数据移行工具开发成本高、复用率低,移行效率低的问题,本专利技术提供了一种将文档型数据库的数据转换至关系型数据库的方法及系统,将文档型数据库的数据以HTML文件的形式保存,对于HTML文件的数据,采取标签匹配方式逐行进行字符级匹配截取,最后将转换处理后的数据导入关系型数据库,来实现文档型数据库向关系型数据库的高效数据移行。本专利技术的目的之一是,提供一种将文档型数据库的数据转换至关系型数据库的方法,包括:采集地址参数、用户身份参数以及导出参数;采集用户输入的启动请求;根据所述的启动请求、地址参数以及用户身份参数抓取文档型数据库的数据,得到超文本标记语言HTML文件;根据标签匹配方式对所述的HTML文件进行转换,得到文本文件;根据所述的导出参数将所述的文本文件中的数据导入至关系型数据库中。本专利技术的目的之一是,提供了一种将文档型数据库的数据转换至关系型数据库的系统,所述的系统具体包括采集装置,用于采集地址参数、用户身份参数以及导出参数,采集用户输入的启动请求;数据抓取装置,用于根据所述的启动请求、地址参数以及用户身份参数抓取文档型数据库的数据,得到超文本标记语言HTML文件;数据转换装置,用于根据标签匹配方式对所述的HTML文件进行转换,得到文本文件;数据导入装置,用于根据所述的导出参数将所述的文本文件中的数据导入至关系型数据库中。本专利技术的有益效果在于,提供了一种将文档型数据库的数据转换至关系型数据库的方法及系统,将文档型数据库的数据以HTML文件的形式保存,对于HTML文件的数据,采取标签匹配方式逐行进行字符级匹配截取,最后将转换处理后的数据导入关系型数据库,来实现文档型数据库向关系型数据库的数据移行,由此降低移行程序的开发成本,提高移行效率。为让本专利技术的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种将文档型数据库的数据转换至关系型数据库的方法的流程图;图2为图1中的步骤S103的具体流程图;图3为图1中的步骤S104的具体流程图;图4为图1中的步骤S105的具体流程图;图5为本专利技术实施例提供的一种将文档型数据库的数据转换至关系型数据库的系统的结构框图;图6为本专利技术实施例提供的一种将文档型数据库的数据转换至关系型数据库的系统中数据抓取装置200的结构框图;图7为本专利技术实施例提供的一种将文档型数据库的数据转换至关系型数据库的系统中数据转换装置300的结构框图;图8为本专利技术实施例提供的一种将文档型数据库的数据转换至关系型数据库的系统中数据导入装置400的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了克服了现有文档型数据库向关系型数据库数据移行工具开发成本高、复用率低,移行效率低的问题,本专利技术提供了一种数据转换装置及方法。通过从浏览器访问应用页面,按深入层数参数访问页面,获取页面数据信息并下载为HTML文件,同时通过链接下载实体文件。客户端通过本专利技术中定制的转换工具对HTML文件解析,可做到按需要截取某块或某几块数据信息。由此降低移行程序的开发成本,提高移行效率。图1为本专利技术提出的一种将文档型数据库的数据转换至关系型数据库的方法的具体流程图,由图1可知,所述的方法包括:S101:采集地址参数、用户身份参数以及导出参数;S102:采集用户输入的启动请求。在具体的实施方式中,用户可通过客户端发起启动请求,传入的参数包括地址参数、用户身份参数以及导出参数。参数还可包括初始网页地址、数据传输速率、站点结构构造、抓取层级等信息。其中,导出参数形如:%h%p/%n%q.%t,其中各参数意义如下:%n不含扩展名的文件名(如:image)%N含有扩展名的文件名(如:image.gif)%t仅扩展名(如:gif)%p路径[无尾随'/'](如:/someimages)%h主机名(如:www.someweb.com)%MMD5URL(128位,32ascii字节)%QMD5querystring(128位,32ascii字节)%qMD5smallquerystring(16位,4ascii字节)%s?短文件名(如:%sN)。S103:根据所述的启动请求、地址参数以及用户身份参数抓取文档型数据库的数据,得到超文本标记语言HTML文件。图2为步骤S103的具体流程图,由图2可知,该步骤具体包括:S201:读取所述的启动请求中的站点地址;S202:获取所述地址参数中的抓取层级;S203:根据所述的站点地址连接文档型数据库对应的网页;S204:根据所述的抓取层级按照所述的用户身份参数抓取所述网页中的元素数据。在具体的实施方式中,读取站点地址,根据导出参数解析元素数据排布顺序和展现形式。可根据启动请求中的初始站点地址,连接并读取指定网页,按用户身份参数读取网页中元素数据。然后根据地址参数中的抓取层级以及解析后的站点地址,逐级向下读取其他站点地址并抓取其中元素数据。S205:将所述网页的附件以实体文件的形式进行下载;S206:将所述网页的元素数据以HTML文件的本文档来自技高网...
将文档型数据库的数据转换至关系型数据库的方法及系统

【技术保护点】
一种将文档型数据库的数据转换至关系型数据库的方法,其特征是,所述的方法具体包括:采集地址参数、用户身份参数以及导出参数;采集用户输入的启动请求;根据所述的启动请求、地址参数以及用户身份参数抓取文档型数据库的数据,得到超文本标记语言HTML文件;根据标签匹配方式对所述的HTML文件进行转换,得到文本文件;根据所述的导出参数将所述的文本文件对应的数据导入至关系型数据库中。

【技术特征摘要】
1.一种将文档型数据库的数据转换至关系型数据库的方法,其特征是,所述的方法具体包括:采集地址参数、用户身份参数以及导出参数;采集用户输入的启动请求;根据所述的启动请求、地址参数以及用户身份参数抓取文档型数据库的数据,得到超文本标记语言HTML文件,该步骤包括:读取所述的启动请求中的站点地址;获取所述地址参数中的抓取层级;根据所述的站点地址连接文档型数据库对应的网页;根据所述的抓取层级按照所述的用户身份参数抓取所述网页中的元素数据;将所述网页的附件以实体文件的形式进行下载;将所述网页的元素数据以HTML文件的形式下载;将下载得到的实体文件以及元素数据存储至中间数据库,所述的实体文件以及元素数据即为文档型数据库的数据;将所述实体文件以及元素数据的存储位置保存至HTML文件中;根据标签匹配方式对所述的HTML文件进行转换,得到文本文件;根据所述的导出参数将所述的文本文件对应的数据导入至关系型数据库中。2.根据权利要求1所述的方法,其特征是,根据标签匹配的方式对所述的HTML文件进行转换,得到文本文件具体包括:根据标签匹配方式从所述的HTML文件中提取字段数据;将所述的字段数据中的链接相对路径替换为可用路径,得到替换处理后的字段数据;去除替换处理后的字段数据中的不适用部分内容,得到去除处理后的字段数据;将去除处理后的字段数据进行组合处理,得到组合处理后的字段数据;将组合处理后的字段数据写入文本文件;将所述的文本文件存储至所述的中间数据库。3.根据权利要求2所述的方法,其特征是,根据所述的导出参数将所述的文本文件对应的数据导入至关系型数据库中具体包括:从所述的中间数据库中读取所述的文本文件;根据所述的导出参数对所述的文本文件进行拆分,得到拆分数据;将所述的拆分数据导入至关系型数据库中。4.一种将文档型数据库的数据转换至关系型数据库的系统,其特征是,所述的系统具体包括:采集装置,用于采集地址参数、用户身份参数以及导出参数,采集用户输...

【专利技术属性】
技术研发人员:陈旻炜陈建军舒文宇
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1