数据提取方法和装置制造方法及图纸

技术编号:15054747 阅读:134 留言:0更新日期:2017-04-06 00:44
本申请实施例提供了一种数据提取方法和装置。该方法包括:获取用户输入的数据提取需求信息;根据所述数据提取需求信息,生成计算机可读形式的任务描述信息;根据所述任务描述信息,获取待提取的数据源对应的计算脚本,以及确定所述数据源对应的计算平台;利用所述计算平台调度所述计算脚本,以得到提取结果。本申请实施例可以实现快捷自动的数据提取。

【技术实现步骤摘要】

本申请涉及计算机
,尤其涉及一种数据提取方法和装置。
技术介绍
随着数据量的增长,业务数据不再仅存储在数据库(db)中,由此数据查询将变得复杂。并且由于数据量的增长和数据需求多样,需要进行人工干预,即针对每种需求,人工编写和管理计算脚本,这样容易造成混淆,扩展困难,以及开发和维护成本高。
技术实现思路
本申请实施例提供一种数据提取方法和装置,可以实现快捷自动的数据提取。一方面,本申请实施例提供了一种数据提取方法,该方法包括:获取用户输入的数据提取需求信息;根据所述数据提取需求信息,生成计算机可读形式的任务描述信息;根据所述任务描述信息,获取待提取的数据源对应的计算脚本,以及确定所述数据源对应的计算平台;利用所述计算平台调度所述计算脚本,以得到提取结果。另一方面,本申请实施例提供了一种数据提取装置,该装置包括:获取单元,用于获取用户输入的数据提取需求信息;生成模块,用于根据所述数据提取需求信息,生成计算机可读形式的任务描述信息;确定模块,根据所述任务描述信息,获取待提取的数据源对应的计算脚本,以及确定所述数据源对应的计算平台;调度模块,用于利用所述计算平台调度所述计算脚本,以得到提取结果。在本申请实施例中,在获取到用户输入的数据提取需求信息后,可以根据由数据提取需求信息转换而成的任务描述信息确定生成计算脚本,以及确定用于调度该计算脚本的计算平台,并由该计算平台调度计算脚本,得到用于反馈给用户的提取结果,因此,可以实现快捷自动的数据提取,从而可以降低沟通成本,减少人工干预,缩短取数周期。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是根据本申请一种实施例的数据提取方法的示意性流程图;图2是根据本申请另一种实施例的用于数据提取的逻辑框图;图3是根据本申请另一种实施例的用于获取计算代码的示意性流程图;图4是根据本申请另一种实施例的计算平台调度计算代码的示意性流程图;图5是根据本申请另一种实施例的用于向用户反馈提取结果的示意性流程图;图6是根据本申请另一种实施例的数据提取装置的示意性框图;图7是根据本申请另一种实施例的数据提取装置的示意性框图;图8是根据本申请另一种实施例的数据提取装置的示意性框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1是根据本申请实施例的数据提取方法100的示意性流程图。如图1所示,该方法100包括:在步骤110中,获取用户输入的数据提取需求信息;在步骤120中,根据所述数据提取需求信息,生成计算机可读形式的任务描述信息;在步骤130中,根据所述任务描述信息,获取待提取的数据源对应的计算脚本,以及确定所述数据源对应的计算平台;在步骤140中,利用所述计算平台调度所述计算脚本,以得到提取结果;从而后续可以将所述提取结果反馈给所述用户。在本申请实施例中,在获取到用户输入的数据提取需求信息后,可以根据由数据提取需求信息转换而成的任务描述信息确定生成计算脚本,以及确定用于调度该计算脚本的计算平台,并由该计算平台调度计算脚本,得到用于反馈给用户的提取结果,因此,可以实现快捷自动的数据提取,从而可以降低沟通成本,减少人工干预,缩短取数周期。在本申请实施例中,可以动态增减数据源,根据业务需要动态增加新字段(带有效期),可以根据数据特征动态部署分析指标,可以实现自适应数据源及分析类型的数据提取。在本申请实施例中,数据源是指需要被提取分析的数据对象。可选地,在申请实施例中,用数据库db实时记录任务执行过程的操作状态,由此可以在进行下一步操作时,通过在db中快速读取上一步操作的状态。例如,在利用所述计算平台调度所述计算脚本,正确得到提取结果后,可以在db中存储状态为正确获取提取结果,从而可以进行下一步的用户反馈。在本申请实施例中,通过db实时记录任务计算过程的操作状态,可以实现操作状态的快速读取,方便后续步骤的快速进行。可选地,在本申请实施例中,所述任务描述信息用于指示所述数据源和分析指标,以及包括所述数据源的分析维度、分析指标和过滤条件中的至少一种,其中,其中,待提取的数据可以根据任务描述信息中的数据开始时间和结束时间从数据源中确定提取范围,其中,数据源的数据可以按天存储。且根据所述任务描述信息中获取的所述计算脚本包括所述分析类型的信息以及包括所述分析类型,以及包括分析指标、分析维度和过滤条件中的至少一种的信息;所述利用所述计算平台调度所述计算脚本,以得到提取结果,包括:根据所述计算脚本中包括的所述分析类型的信息以及根据所述分析指标、分析维度和过滤条件中的所述至少一种的信息,获取所述提取结果。具体地说,在获取到数据提取需求信息时,可以将该数据提取需求信息可以转换为计算机可读形式的任务描述信息(也可称为任务描述接口),例如,json;该计算机可读形式的代码可以描述数据源,也可以进一步描述数据源的分析维度、分析指标、过滤条件、开始时间、结束时间等,并可以将该需求描述代码存储到db中;然后可以从该db中读取该需求描述代码,来生成数据源对应的计算脚本。其中,该分析维度用于指示数据提取所考虑的维度,例如,时间维度、性别维度或空间维度等。该过滤条件用于指示数据提取被过滤的对象,例如,数据提取针对的对象是上海地区,则除上海之外的地区被排除。该分析类型可以属于统计类、用户类分析类型和定制化数据需求分析类型;其中,统计类分析类型可以包括base分析类型和accu_reach分析类型等,base包含的分析指标包括但不限于库存,频次,点击,覆盖,收入等,accu_reach包含的分析指标包含但不限于累计频次,累计uv等;用户类分析类型可以包括amp_getuin分析类型,amp_user_analysis分析类型,overlap分析类型和TGI分析类型,其中,amp_getuin用于指示获取人群包(例如,获取某一号段的qq(OPEN-ICQ,OICQ)号,amp_user_analysis用于指示进行人群分析(例如,对获取的qq号进行分析),overlap用于指示进行重合度计算(qq号重合度的计算),以及TGI用于指示目标群体指数(如,在15-34岁的人群中,有8.9%的人过去一个月来过腾讯视频电视剧频道看电视,而在总体人群中,去过该电视剧频道看电视的人数比例为6.6%,则该电视剧频道在15-34岁人群中的TGI指数是134.9(8.9%/6.6%×100),这说明,电视剧频道主要定位在15-34岁的人群中。其数额越大,就表明目标群体吻合度度就越高)。定制化分析类型,用于指示定制化数据提取需求,以插件的形式支持,因此上述统计类分析指标和用户类分析指标都不能满足用户的需要,则可以进行人工预处理,以插件的形式支持计算。本文档来自技高网...

【技术保护点】
一种数据提取方法,其特征在于,包括:获取用户输入的数据提取需求信息;根据所述数据提取需求信息,生成计算机可读形式的任务描述信息;根据所述任务描述信息,获取待提取的数据源对应的计算脚本,以及确定所述数据源对应的计算平台;利用所述计算平台调度所述计算脚本,以得到提取结果。

【技术特征摘要】
1.一种数据提取方法,其特征在于,包括:获取用户输入的数据提取需求信息;根据所述数据提取需求信息,生成计算机可读形式的任务描述信息;根据所述任务描述信息,获取待提取的数据源对应的计算脚本,以及确定所述数据源对应的计算平台;利用所述计算平台调度所述计算脚本,以得到提取结果。2.根据权利要求1所述的方法,其特征在于,所述获取待提取的数据源对应的计算脚本,以及确定所述数据源对应的计算平台,包括:根据所述任务描述信息,确定所述数据源的存储介质;根据所述数据源的存储介质,确定所述数据源对应的计算脚本的语言代码类型,获取确定的所述类型的计算脚本;根据所述数据源的存储介质,确定所述计算平台。3.根据权利要求2所述的方法,其特征在于,在所述任务描述信息指示的数据源存储在分布式文件系统HDFS时,所述计算脚本的语言类型为开放源PIG代码,所述计算平台为分布式系统基础架构Hadoop平台;和/或,在所述任务描述信息指示的数据源存储在利用开源数据库DB搭建的分布式集群时,所述计算脚本的语言类型为自定义的接口访问方式,所述数据源对应的计算平台为开源DB搭建的分布式集群。4.根据权利要求1所述的方法,其特征在于,所述任务描述信息用于指示所述数据源的分析类型,以及包括分析指标、分析维度和过滤条件中的至少一种,且根据所述任务描述信息中获取的所述计算脚本包括所述分析类型的信息以及包括所述分析类型,以及包括分析指标、分析维度和过滤条件中的至少一种的信息;所述利用所述计算平台调度所述计算脚本,以得到提取结果,包括:根据所述计算脚本中包括的所述分析类型的信息以及根据所述分析指标、分析维度和过滤条件中的所述至少一种的信息,获取所述提取结果。5.根据权利要求4所述的方法,其特征在于,在所述分析类型为用户定制化类型时,获取待提取的数据源对应的计算脚本,包括:获取以插件形式存储的所述计算脚本。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:在确定所述数据源新增数据字段后,更改所述任务描述信息中的数据源对应的描述信息。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据提取结果的代码和用户可读文字的对应关系,在提取结果中填入全部或部分代码对应的用户可读文字;将替换后的所述提取结果反馈给所述用户。8.根据权利要求1所述的方法,其特征在于,利用所述计算平台调度所述计算脚本,以得到提取结果,包括:根据所述任务描述信息所确定的任务优先级和所述计算平台的繁忙程度中的至少一种,确定利用所述计算平台调度所述计算脚本的开始时间或所在次序;根据所述开始时间或所在次序,利用所述计算平台调度所述计算脚本。9.根据权利要求1所述的方法,其特征在于,利用所述计算平台调度所述计算脚本,以得到提取结果,包括:在所述数据源、配置文件或前置任务满足预定要求后,利用所述计算平台调度所述计算脚本。10.根据权利要求1至9中任一项所述...

【专利技术属性】
技术研发人员:曾艳梅黄国强
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1