【技术实现步骤摘要】
本申请涉及计算机
,尤其涉及一种数据提取方法和装置。
技术介绍
随着数据量的增长,业务数据不再仅存储在数据库(db)中,由此数据查询将变得复杂。并且由于数据量的增长和数据需求多样,需要进行人工干预,即针对每种需求,人工编写和管理计算脚本,这样容易造成混淆,扩展困难,以及开发和维护成本高。
技术实现思路
本申请实施例提供一种数据提取方法和装置,可以实现快捷自动的数据提取。一方面,本申请实施例提供了一种数据提取方法,该方法包括:获取用户输入的数据提取需求信息;根据所述数据提取需求信息,生成计算机可读形式的任务描述信息;根据所述任务描述信息,获取待提取的数据源对应的计算脚本,以及确定所述数据源对应的计算平台;利用所述计算平台调度所述计算脚本,以得到提取结果。另一方面,本申请实施例提供了一种数据提取装置,该装置包括:获取单元,用于获取用户输入的数据提取需求信息;生成模块,用于根据所述数据提取需求信息,生成计算机可读形式的任务描述信息;确定模块,根据所述任务描述信息,获取待提取的数据源对应的计算脚本,以及确定所述数据源对应的计算平台;调度模块,用于利用所述计算平台调度所述计算脚本,以得到提取结果。在本申请实施例中,在获取到用户输入的数据提取需求信息后,可以根据由数据提取需求信息转换而成的任务描述信息确定生成计算脚本,以及确定用于调度该计算脚本的计算平台,并由该计算平台调度计算脚本,得到用于反馈给用户的提取结果,因此,可以实现快捷自动的数据提取,从而可以降低沟通成本,减少人工干预,缩短取数周期。附图说明为了更清楚地说明本专利技术实施例或现有技术中的 ...
【技术保护点】
一种数据提取方法,其特征在于,包括:获取用户输入的数据提取需求信息;根据所述数据提取需求信息,生成计算机可读形式的任务描述信息;根据所述任务描述信息,获取待提取的数据源对应的计算脚本,以及确定所述数据源对应的计算平台;利用所述计算平台调度所述计算脚本,以得到提取结果。
【技术特征摘要】
1.一种数据提取方法,其特征在于,包括:获取用户输入的数据提取需求信息;根据所述数据提取需求信息,生成计算机可读形式的任务描述信息;根据所述任务描述信息,获取待提取的数据源对应的计算脚本,以及确定所述数据源对应的计算平台;利用所述计算平台调度所述计算脚本,以得到提取结果。2.根据权利要求1所述的方法,其特征在于,所述获取待提取的数据源对应的计算脚本,以及确定所述数据源对应的计算平台,包括:根据所述任务描述信息,确定所述数据源的存储介质;根据所述数据源的存储介质,确定所述数据源对应的计算脚本的语言代码类型,获取确定的所述类型的计算脚本;根据所述数据源的存储介质,确定所述计算平台。3.根据权利要求2所述的方法,其特征在于,在所述任务描述信息指示的数据源存储在分布式文件系统HDFS时,所述计算脚本的语言类型为开放源PIG代码,所述计算平台为分布式系统基础架构Hadoop平台;和/或,在所述任务描述信息指示的数据源存储在利用开源数据库DB搭建的分布式集群时,所述计算脚本的语言类型为自定义的接口访问方式,所述数据源对应的计算平台为开源DB搭建的分布式集群。4.根据权利要求1所述的方法,其特征在于,所述任务描述信息用于指示所述数据源的分析类型,以及包括分析指标、分析维度和过滤条件中的至少一种,且根据所述任务描述信息中获取的所述计算脚本包括所述分析类型的信息以及包括所述分析类型,以及包括分析指标、分析维度和过滤条件中的至少一种的信息;所述利用所述计算平台调度所述计算脚本,以得到提取结果,包括:根据所述计算脚本中包括的所述分析类型的信息以及根据所述分析指标、分析维度和过滤条件中的所述至少一种的信息,获取所述提取结果。5.根据权利要求4所述的方法,其特征在于,在所述分析类型为用户定制化类型时,获取待提取的数据源对应的计算脚本,包括:获取以插件形式存储的所述计算脚本。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:在确定所述数据源新增数据字段后,更改所述任务描述信息中的数据源对应的描述信息。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据提取结果的代码和用户可读文字的对应关系,在提取结果中填入全部或部分代码对应的用户可读文字;将替换后的所述提取结果反馈给所述用户。8.根据权利要求1所述的方法,其特征在于,利用所述计算平台调度所述计算脚本,以得到提取结果,包括:根据所述任务描述信息所确定的任务优先级和所述计算平台的繁忙程度中的至少一种,确定利用所述计算平台调度所述计算脚本的开始时间或所在次序;根据所述开始时间或所在次序,利用所述计算平台调度所述计算脚本。9.根据权利要求1所述的方法,其特征在于,利用所述计算平台调度所述计算脚本,以得到提取结果,包括:在所述数据源、配置文件或前置任务满足预定要求后,利用所述计算平台调度所述计算脚本。10.根据权利要求1至9中任一项所述...
【专利技术属性】
技术研发人员:曾艳梅,黄国强,
申请(专利权)人:腾讯科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。