本申请提供了一种测试集生成方法、装置、存储介质及电子设备,其中,测试集生成方法包括:获取目标领域内的目标关键词;基于所述目标关键词收集候选测试问题;利用满足预设条件的所述候选测试问题生成测试集。本申请利用目标关键字收集其所属的目标领域内的候选测试问题,并确定候选测试问题是否满足预设条件,进而基于满足预设条件的候选测试问题生成测试集,无需人工采样调查便能够得到大量的候选测试问题,大大提高了测试集的生成效率;并且,候选测试问题来源于网络中存在的搜索记录,使得生成的测试集的覆盖率较高。得生成的测试集的覆盖率较高。得生成的测试集的覆盖率较高。
【技术实现步骤摘要】
一种测试集生成方法、装置、存储介质及电子设备
[0001]本申请涉及数据处理
,特别涉及一种测试集生成方法、装置、存储介质及电子设备。
技术介绍
[0002]随着互联网的发展,互联网上的信息越来越丰富,通过搜索引擎检索得到的相关信息越越来越多,并且,自动问答很好的解决了信息爆炸所带来的问题。因此,设计一个好的问答测试集对问答系统的评估以及提升是非常重要的。
[0003]现有技术中,通常利用人工采样调查得到的问答生成测试集,导致生成效率较低且覆盖率较低。
技术实现思路
[0004]有鉴于此,本申请实施例提出了一种测试集生成方法、装置、存储介质及电子设备,用以解决现有技术中测试集生成效率较低且覆盖率较低的问题。
[0005]第一方面,本申请实施例提供了一种测试集生成方法,其中,包括:
[0006]获取目标领域内的目标关键词;
[0007]基于所述目标关键词收集候选测试问题;
[0008]利用满足预设条件的所述候选测试问题生成测试集。
[0009]在一种可能的实施方式中,所述基于所述目标关键词收集候选测试问题,包括:
[0010]将所述目标关键词与疑问词进行拼接,得到种子问题;
[0011]基于所述种子问题搜索所述目标领域内的所述候选测试问题。
[0012]在一种可能的实施方式中,所述利用满足预设条件的所述候选测试问题生成测试集,包括:
[0013]对所述候选测试问题进行语义分析,确定所述候选测试问题是否满足预设条件;其中,所述预设条件为语义清晰度大于阈值;
[0014]利用满足预设条件的所述候选测试问题生成测试集。
[0015]在一种可能的实施方式中,所述利用满足预设条件的所述候选测试问题生成测试集,包括:
[0016]若所述候选测试问题不满足所述预设条件,则删除;
[0017]若所述候选测试问题满足所述预设条件,将该候选测试问题作为目标测试问题;
[0018]所有的所述目标测试问题组合形成所述测试集。
[0019]第二方面,本申请实施例还提供了一种测试集生成装置,其中,包括:
[0020]获取模块,其配置地获取目标领域内的目标关键词;
[0021]收集模块,其配置地基于所述目标关键词收集候选测试问题;
[0022]生成模块,其配置地利用满足预设条件的所述候选测试问题生成测试集。
[0023]在一种可能的实施方式中,所述收集模块具体配置为:
[0024]将所述目标关键词与疑问词进行拼接,得到种子问题;
[0025]基于所述种子问题搜索所述目标领域内的所述候选测试问题。
[0026]在一种可能的实施方式中,所述生成模块具体配置为:
[0027]对所述候选测试问题进行语义分析,确定所述候选测试问题是否满足预设条件;其中,所述预设条件为语义清晰度大于阈值;
[0028]利用满足预设条件的所述候选测试问题生成测试集。
[0029]在一种可能的实施方式中,所述生成模块还具体配置为:
[0030]若所述候选测试问题不满足所述预设条件,则删除;
[0031]若所述候选测试问题满足所述预设条件,将该候选测试问题作为目标测试问题;
[0032]所有的所述目标测试问题组合形成所述测试集。
[0033]第三方面,本申请实施例还提供了一种存储介质,其中,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
[0034]获取目标领域内的目标关键词;
[0035]基于所述目标关键词收集候选测试问题;
[0036]利用满足预设条件的所述候选测试问题生成测试集。
[0037]第四方面,本申请实施例还提供了一种电子设备,其中,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
[0038]获取目标领域内的目标关键词;
[0039]基于所述目标关键词收集候选测试问题;
[0040]利用满足预设条件的所述候选测试问题生成测试集。
[0041]本申请实施例利用目标关键字收集其所属的目标领域内的候选测试问题,并确定候选测试问题是否满足预设条件,进而基于满足预设条件的候选测试问题生成测试集,无需人工采样调查便能够得到大量的候选测试问题,大大提高了测试集的生成效率;并且,候选测试问题来源于网络中存在的搜索记录,使得生成的测试集的覆盖率较高。
附图说明
[0042]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0043]图1示出了本申请所提供的一种测试集生成方法的流程图;
[0044]图2示出了本申请所提供的一种测试集生成方法中基于目标关键词收集候选测试问题的流程图;
[0045]图3示出了本申请所提供的一种测试集生成方法中利用满足预设条件的候选测试问题生成测试集的流程图;
[0046]图4示出了本申请所提供的一种测试集生成装置的结构示意图;
[0047]图5示出了本申请所提供的一种电子设备的结构示意图。
具体实施方式
[0048]为了使得本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例的附图,对本申请实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于所描述的本申请的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0049]除非另外定义,本申请使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0050]为了保持本申请实施例的以下说明清楚且简明,本申请省略了已知功能和已知部件的详细说明。
[0051]如图1所示,为本申请第一方面提供的测试集生成方法的流程图,其中,具体步骤包括S101
‑
S103。
[0052]S101,获取目标领域内的目标关键词。
[00本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种测试集生成方法,其特征在于,包括:获取目标领域内的目标关键词;基于所述目标关键词收集候选测试问题;利用满足预设条件的所述候选测试问题生成测试集。2.根据权利要求1所述的测试集生成方法,其特征在于,所述基于所述目标关键词收集候选测试问题,包括:将所述目标关键词与疑问词进行拼接,得到种子问题;基于所述种子问题搜索所述目标领域内的所述候选测试问题。3.根据权利要求1所述的测试集生成方法,其特征在于,所述利用满足预设条件的所述候选测试问题生成测试集,包括:对所述候选测试问题进行语义分析,确定所述候选测试问题是否满足预设条件;其中,所述预设条件为语义清晰度大于阈值;利用满足预设条件的所述候选测试问题生成测试集。4.根据权利要求1或3所述的测试集生成方法,其特征在于,所述利用满足预设条件的所述候选测试问题生成测试集,包括:若所述候选测试问题不满足所述预设条件,则删除;若所述候选测试问题满足所述预设条件,将该候选测试问题作为目标测试问题;所有的所述目标测试问题组合形成所述测试集。5.一种测试集生成装置,其特征在于,包括:获取模块,其配置地获取目标领域内的目标关键词;收集模块,其配置地基于所述目标关键词收集候选测试问题;生成模块,其配置地利用满足预设条件的所述候选测试问题生成测试集。6.根据权利要求5所述的测试集生成装置,其特征在于,所述收集模...
【专利技术属性】
技术研发人员:王展,于皓,张杰,袁杰,罗华刚,
申请(专利权)人:秒针信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。