【技术实现步骤摘要】
一种测试搜索引擎评价指标的综合性能的方法和测试装置
本专利技术属于信息检索领域,特别涉及到一种测试搜索引擎评价指标的综合性能的方法和测试装置。
技术介绍
对搜索引擎的检索效果进行评价是信息检索领域的一个重要方面,为此,人们提出了许多评价指标,比如平均精确率(average precision, AP)、每10个精确率(precisionat ten, P10)、精度-查全率(recall-level precision, RP)> 倒数排名(reciprocalranking, RR)、归一化衰减累积增量(normalized discounted cumulative gain,NDCG)等,而这些评价指标的特点和目标各不相同,有的评价指标仅与搜索引擎返回的相关文档数目有关,而有的评价指标不仅与搜索引擎返回的相关文档数目有关,还考虑了返回的相关文档的位置信息。所以有的评价指标的敏感性较强,稳定性较低,而有的评价指标的稳定性较高,敏感性较弱。为此,人们通常需要选取综合特性最优的评价指标。评价指标AP定义为:
【技术保护点】
一种测试搜索引擎评价指标的综合性能的方法,其特征在于,包括:步骤1测试装置选择2个以上数据集;步骤2所述测试装置依次在一个数据集中,根据一个评价指标,对每一个搜索引擎的每一个查询的查询结果,计算出其得分值;并对于一个数据集中的所有搜索引擎的得分值,两两之间进行配对;步骤3测试装置根据每个配对结果和一个设定阈值,使用双尾的t检验进行分析计算,确定两个搜索引擎的检索质量之间的差异是显著的或是非显著的;步骤4测试装置在得到所有配对结果之间的t检验值后,计算出有显著差异的配对结果在所有配对结果所占的比例;步骤5测试装置设定2个以上不同的阈值,在每一个阈值情况下,重复步骤3和4;步骤6测试装置分别利用2个以上不同的评价指标,重复步骤3至5,在所述2个以上不同的评价指标中比例最大的评价指标的综合性能最好。
【技术特征摘要】
1.一种测试搜索引擎评价指标的综合性能的方法,其特征在于,包括: 步骤I测试装置选择2个以上数据集; 步骤2所述测试装置依次在一个数据集中,根据一个评价指标,对每一个搜索引擎的每一个查询的查询结果,计算出其得分值;并对于一个数据集中的所有搜索引擎的得分值,两两之间进行配对; 步骤3测试装置根据每个配对结果和一个设定阈值,使用双尾的t检验进行分析计算,确定两个搜索引擎的检索质量之间的差异是显著的或是非显著的; 步骤4测试装置在得到所有配对结果之间的t检验值后,计算出有显著差异的配对结果在所有配对结果所占的比例; 步骤5测试装置设定2个以上不同的阈值,在每一个阈值情况下,重复步骤3和4 ; 步骤6测试装置分别利用2个以上不同的评价指标,重复步骤3至5,在所述2个以上不同的评价指标中比例最大的评价指标的综合性能最好。2.如权利要求1所述方法,其特征在于,还包括:步骤7测试装置分别在2个以上不同...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。