基于MapReduce的MYSQL数据库的变化数据捕获方法技术

技术编号：9434592 阅读：133 留言：0更新日期：2013-12-12 00:38

本发明专利技术公开了一种基于MapReduce的MYSQL数据库的变化数据捕获方法，包括：（1）生成摘要的查询语句“select?into?outfile”，根据FIELDS子句设置标志位；将“select?into?outfile”从数据库查询得到的一行元组插入“属性值分隔符”；根据标志位值对“select?into?outfile”查询执行的结果生成摘要md5value和产生输出格式；将查询结果写到磁盘文件outfile；（2）采用Hadoop?MapReduce并行框架求差分；从map端读入两个快照文件old.txt和new.txt，MapReduce的shuffle函数对Key/value结构中相同key的value值存入迭代器iterator，将reduce的输出文件合并成insert文件和delete文件，即CDC的结果。本发明专利技术对MYSQL中的查询语句从语法到实现上作了改进，使其一次查询数据库数据文件就能生成带摘要的快照文件，一个快照文件的生成就减少了一次I/O，连续多次的快照差分过程可以减少大量的I/O。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种，包括：（1）生成摘要的查询语句“select?into?outfile”，根据FIELDS子句设置标志位；将“select?into?outfile”从数据库查询得到的一行元组插入“属性值分隔符”；根据标志位值对“select?into?outfile”查询执行的结果生成摘要md5value和产生输出格式；将查询结果写到磁盘文件outfile；（2）采用Hadoop?MapReduce并行框架求差分；从map端读入两个快照文件old.txt和new.txt，MapReduce的shuffle函数对Key/value结构中相同key的value值存入迭代器iterator，将reduce的输出文件合并成insert文件和delete文件，即CDC的结果。本专利技术对MYSQL中的查询语句从语法到实现上作了改进，使其一次查询数据库数据文件就能生成带摘要的快照文件，一个快照文件的生成就减少了一次I/O，连续多次的快照差分过程可以减少大量的I/O。【专利说明】
本专利技术涉及数据捕捉的
,特别涉及一种。
技术介绍
变化数据捕获(changedata capture, CDC)是 ETL (Extract Transform Load)过程所要解决的主要问题之一。⑶C用于捕获生产数据库中数据更新操作(如插入insert、删除delete、修改update)的数据，为OLAP数据库、报表数据库、数据仓库，商业智能数据库等企业应用数据库的数据同步更新提供增量数据抽取服务。现有的变化数据捕获⑶C方法可归纳为五类:(I)基...

【技术保护点】
基于MapReduce的MYSQL数据库的变化数据捕获方法，其特征在于，包括下述步骤：（1）生成摘要的查询语句“select?into?outfile”，其具体步骤如下：（1?1）词法和语法分析“select?into?outfile”，根据FIELDS子句设置标志位；（1?2）将“select?into?outfile”从数据库查询得到的一行元组插入“属性值分隔符”；（1?3）根据标志位值对“select?into?outfile”查询执行的结果生成摘要md5value和产生输出格式；（1?4）将查询结果写到磁盘文件outfile；（2）采用Hadoop?MapReduce并行框架求差分；(2?1)从map端读入两个快照文件old.txt和new.txt，通过文件按行切分在map端输出或者的形式，其中@md5value@value或@md5value作为Key/value结构中的value值；(2?2)MapReduce的shuffle函数对Key/value结构中相同key的value值存入迭代器iterator，发送reduce端；(2?3)reduce端接收的数据形式为，对it...

【技术特征摘要】

【专利技术属性】
技术研发人员：邹先霞，李鹏，杜威，
申请(专利权)人：暨南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人