本发明专利技术实施例提供了一种测试数据生成方法、提取策略测试方法及相关装置,本发明专利技术实施例的测试数据生成方法包括:在确定待测试的提取策略后,从提取策略中确定目标对象,调用目标对象关联的数据生成函数生成对象数据作为提取策略的测试数据。本实施例实现了从待测试的提取策略中确定目标对象,调用目标对象的数据生成函数生成对象数据来作为测试数据,无需测试人员手工编辑生成测试数据,可以自动生成用于对提取策略进行测试的大量测试数据,并且生成测试数据的效率高、周期短,准确率高。准确率高。准确率高。
【技术实现步骤摘要】
测试数据生成方法、提取策略测试方法及相关装置
[0001]本专利技术实施例涉及数据处理的
,尤其涉及一种测试数据生成方法、提取策略测试方法及相关装置。
技术介绍
[0002]随着互联网的快速发展,互联网数据呈爆炸式增长,从互联网上提取出有价值对象的对象数据,以通过对象数据进行大数据分析尤为重要。
[0003]目前,基于对象关系的互联网数据提取策略被广泛应用于从互联网上提取对象数据,而为了保证提取策略所提取的对象数据的准确性,在提取策略投入前需要对提取策略进行测试。然而,对提取策略进行验证需要测试数据,将测试数据上传测试平台后对提取策略测试,目前,测试数据由测试人员手动编辑生成。
[0004]由测试人员编辑生成测试数据存在测试数据少、数据准备周期长、错误率高、效率低的问题。
技术实现思路
[0005]本专利技术实施例提出了一种测试数据生成方法、提取策略测试方法及相关装置,以解决人工编辑生成测试数据存在测试数据量少、数据准备周期长、错误率高、效率低的问题。
[0006]第一方面,本专利技术实施例提供了一种测试数据生成方法,包括:
[0007]确定待测试的提取策略;
[0008]从所述提取策略中确定目标对象;
[0009]调用所述目标对象关联的数据生成函数生成对象数据,作为所述提取策略的测试数据。
[0010]可选地,在所述从所述提取策略中确定目标对象之前,包括:
[0011]获取字段
‑
对象列表,所述字段
‑<br/>对象列表为所述提取策略提取到的数据中字段与对象的映射表。
[0012]可选地,所述从所述提取策略中确定目标对象,包括:
[0013]从所述提取策略中确定所需要提取的对象数据的目标字段;
[0014]从所述字段
‑
对象列表中查找与所述目标字段匹配的对象作为目标对象。
[0015]可选地,所述提取策略包括至少一个提取条件,所述从所述提取策略中确定所需要提取的对象数据的目标字段,包括:
[0016]针对每个提取条件,将满足所述提取条件时所要提取的对象数据的字段作为目标字段。
[0017]可选地,所述调用所述目标对象关联的数据生成函数生成对象数据,作为所述提取策略的测试数据,包括:
[0018]针对每个所述提取条件,调用所述目标对象的数据生成函数生成所述目标对象的
对象数据,得到满足所述提取条件的测试数据;
[0019]将多个提取条件的测试数据打包为所述提取策略的测试数据。
[0020]第二方面,本专利技术实施例还提供了一种提取策略测试方法,包括:
[0021]确定待测试的提取策略;
[0022]获取所述提取策略的测试数据;
[0023]将所述测试数据上传测试平台;
[0024]采用所述提取策略从所述测试平台提取数据得到目标数据;
[0025]基于所述目标数据和所述测试数据对所述提取策略调整;
[0026]其中,所述测试数据通过第一方面所述的测试数据生成方法所生成。
[0027]第三方面,本专利技术实施例还提供了一种测试数据生成装置,包括:
[0028]提取策略确定模块,用于确定待测试的提取策略;
[0029]目标对象确定模块,用于从所述提取策略中确定目标对象;
[0030]测试数据生成模块,用于调用所述目标对象关联的数据生成函数生成对象数据,作为所述提取策略的测试数据。
[0031]第四方面,本专利技术实施例还提供了一种提取策略测试装置,包括:
[0032]测试数据获取模块,用于获取所述提取策略的测试数据;
[0033]测试数据上传模块,用于将所述测试数据上传测试平台;
[0034]目标数据提取模块,用于采用所述提取策略从所述测试平台提取数据得到目标数据;
[0035]提取策略调整模块,用于基于所述目标数据和所述测试数据对所述提取策略调整;
[0036]其中,所述测试数据由第一方面所述的测试数据生成方法所生成。
[0037]第五方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:
[0038]一个或多个处理器;
[0039]存储器,用于存储一个或多个程序,
[0040]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的测试数据生成方法和/或第二方面所述的提取策略测试方法。
[0041]第六方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的测试数据生成方法和/或第二方面所述的提取策略测试方法。
[0042]本专利技术实施例在确定待测试的提取策略后,从提取策略中确定目标对象,调用目标对象关联的数据生成函数生成对象数据作为提取策略的测试数据。本实施例实现了从待测试的提取策略中确定目标对象,调用目标对象的数据生成函数生成对象数据来作为测试数据,无需测试人员手工编辑生成测试数据,可以自动生成用于对提取策略进行测试的大量测试数据,并且生成测试数据的效率高、周期短,准确率高。
附图说明
[0043]图1为本专利技术实施例一提供的一种测试数据生成方法的流程图;
[0044]图2为本专利技术实施例二提供的另一种测试数据生成方法的流程图;
[0045]图3是本专利技术实施例三提供的一种提取策略测试方法的流程图;
[0046]图4为本专利技术实施例四提供的一种测试数据生成装置的结构示意图;
[0047]图5为本专利技术实施例五提供的一种提取策略测试装置的结构示意图;
[0048]图6为本专利技术实施例六提供的一种计算机设备的结构示意图。
具体实施方式
[0049]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0050]实施例一
[0051]图1为本专利技术实施例一提供的一种测试数据生成方法的流程图,本实施例可适用于生成测试数据来对提取策略进行测试的情况,该方法可以由测试数据生成装置来执行,该测试数据生成装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,配置在电脑、服务器中,等等,具体包括如下步骤:
[0052]S101、确定待测试的提取策略。
[0053]提取策略可以提取特定对象的对象数据,以便数据分析师通过对象数据进行大数据分析。例如,提取策略可以从网络上提取身份证、地址、手机号等对象数据,在一个实施例中,提取策略可以应用于网络爬虫,以使得网络爬虫可以从网络上提取特定对象的对象数据。
[0054]网络爬虫是一种用来自动浏览万维网的网络机器人,其目的一般为编纂网络索引,所谓网络爬虫,就是需要模拟浏览器,向网络服务器发送请求以便将本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种测试数据生成方法,其特征在于,包括:确定待测试的提取策略;从所述提取策略中确定目标对象;调用所述目标对象关联的数据生成函数生成对象数据,作为所述提取策略的测试数据。2.根据权利要求1所述的测试数据生成方法,其特征在于,在所述从所述提取策略中确定目标对象之前,包括:获取字段
‑
对象列表,所述字段
‑
对象列表为所述提取策略提取到的数据中字段与对象的映射表。3.根据权利要求2所述的测试数据生成方法,其特征在于,所述从所述提取策略中确定目标对象,包括:从所述提取策略中确定所需要提取的对象数据的目标字段;从所述字段
‑
对象列表中查找与所述目标字段匹配的对象作为目标对象。4.根据权利要求3所述的测试数据生成方法,其特征在于,所述提取策略包括至少一个提取条件,所述从所述提取策略中确定所需要提取的对象数据的目标字段,包括:针对每个提取条件,将满足所述提取条件时所要提取的对象数据的字段作为目标字段。5.根据权利要求4所述的测试数据生成方法,其特征在于,所述调用所述目标对象关联的数据生成函数生成对象数据,作为所述提取策略的测试数据,包括:针对每个所述提取条件,调用所述目标对象的数据生成函数生成所述目标对象的对象数据,得到满足所述提取条件的测试数据;将多个所述提取条件的测试数据打包为所述提取策略的测试数据。6.一种提取策略测试方法,其特征在于,包括:确定待测试的提取策略;获取所述提取策略的测试数据;将所述测试数据上传测试平台;采用所述提取策略从所述测试平台提取数据得到目标数据...
【专利技术属性】
技术研发人员:张林,王杰,万月亮,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。