一种数据抽取方法及装置制造方法及图纸

技术编号：10710171 阅读：155 留言：0更新日期：2014-12-03 15:31

本发明专利技术提供一种数据抽取方法，应用于关系型数据库，所述方法包括：根据选取的数据表中某字段的值域分布，将所述数据表分成M个数据分区，所述字段的类型为数值型或者所述字段的值能够转换成数值；根据所述各数据分区的数据行数计算所述各数据分区的权重；根据所述各数据分区的权重为所述各数据分区分配线程数；所述各数据分区分配的各线程数的总和等于预设的总线程数N，其中M≤N；开启N个线程，按照所分配的线程数，分别对所述各数据分区采用相应数量的线程进行数据抽取。本发明专利技术通过对将数据表分为若干数据分区，动态分配各数据分区的线程数，解决了各线程分配数据不均匀的问题，提高了关系型数据的数据抽取效率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种数据抽取方法，应用于关系型数据库，所述方法包括：根据选取的数据表中某字段的值域分布，将所述数据表分成M个数据分区，所述字段的类型为数值型或者所述字段的值能够转换成数值；根据所述各数据分区的数据行数计算所述各数据分区的权重；根据所述各数据分区的权重为所述各数据分区分配线程数；所述各数据分区分配的各线程数的总和等于预设的总线程数N，其中M≤N；开启N个线程，按照所分配的线程数，分别对所述各数据分区采用相应数量的线程进行数据抽取。本专利技术通过对将数据表分为若干数据分区，动态分配各数据分区的线程数，解决了各线程分配数据不均匀的问题，提高了关系型数据的数据抽取效率。【专利说明】一种数据抽取方法及装置
本专利技术涉及数据抽取领域，具体涉及关系型数据库的数据抽取方法及装置。
技术介绍
数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地集中，从而提供全面的数据共享，是企业商务智能、数据仓库系统的重要组成部分。ETL是企业数据集成的主要解决方案。ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。数据抽取是从数据源中抽取数据的过程。实际应用中，数据源较多采用的是关系型数据库。从关系型数据库中抽取数据的方式可以分为直接导出备份数据和通过JDBC等接口读数据等方式。其中通过ODBC或者JDBC等接口读取的方式比较灵活，不仅可以进行数据的全量抽取，又可以进行增量抽取。然而，通过ODBC或者JDBC等接口抽取数据的方式如果不采用多线程并行的话效率会比较低，特别是大数据时代...
一种数据抽取方法及装置

【技术保护点】
一种数据抽取方法，应用于关系型数据库，其特征在于，所述方法包括：根据选取的数据表中某字段的值域分布，将所述数据表分成M个数据分区，所述字段的类型为数值型或者所述字段的值能够转换成数值；根据所述各数据分区的数据行数计算所述各数据分区的权重；根据所述各数据分区的权重为所述各数据分区分配线程数；所述各数据分区分配的各线程数的总和等于预设的总线程数N，其中M≤N；开启N个线程，按照所分配的线程数，分别对所述各数据分区采用相应数量的线程进行数据抽取。

【技术特征摘要】

【专利技术属性】
技术研发人员：曹连超，辛国茂，亓开元，刘伟，李占强，卢军佐，
申请(专利权)人：浪潮北京电子信息产业有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人