一种搜索引擎索引功能的测试方法和装置制造方法及图纸

技术编号:9667978 阅读:108 留言:0更新日期:2014-02-14 06:29
本申请提供了一种搜索引擎索引功能的测试方法和装置,其中的方法具体包括:利用新版本搜索引擎对基准数据进行索引,得到相应新版索引文件;其中,新版本搜索引擎为待测试的搜索引擎;将旧版索引文件和所述新版索引文件作为文件流进行内容的对比,若相同则测试通过,若不同则测试不通过;其中,旧版索引文件为利用旧版本搜索引擎对所述基准数据进行索引得到。本申请能够提高搜索引擎索引功能的测试效率。

【技术实现步骤摘要】
一种搜索引擎索引功能的测试方法和装置
本申请涉及互联网
,特别是涉及一种搜索引擎索引功能的测试方法和装置。
技术介绍
搜索引擎是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统,其所实现的功能概括来说就是数据预处理、建立索引和接受查询请求并返回结果。其中,数据预处理是指根据搜索引擎要求,把经各种渠道获得的数据转化为结构化数据;建立索引是指根据结构化数据中的各种字段建立相应的索引;接受查询请求并返回结果是指使用查询关键词对建立的索引进行检索,并返回检索到的索引所指向的结构化数据。一般来说,搜索引擎版本的更新是很频繁的,而在每次更新完毕后都要对更新后的搜索引擎(相对于更新前的旧版本搜索引擎,更新完毕后的搜索引擎可以称为新版本搜索引擎)进行功能和性能测试以判断其是否满足功能与性能要求。现有技术一种搜索引擎索引功能的测试方法,通过检索的间接手段来完成搜索引擎索引功能的测试;该间接检索预置检索结果和相应的检索条件,并依据该检索条件在索引的结构化数据下进行相关的检索,并通过对比实际检索结果和预置检索结果,若二者相同则测试通过,否则测试不通过。为了保证测试的覆盖率,现有技术的间接检索需要遍历所有的索引;然而搜索引擎的索引数目众多,且单个索引下面的数据记录的数量也巨大,在实际应用中,间接检索需要对数亿条数据记录进行逐个的检索,导致测试时间的增加和测试效率的降低。而目前敏捷开发导致搜索引擎版本的更新周期缩短到3天甚至更短,故现有技术在测试效率上很难满足搜索引擎版本的更新速度的要求。总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提高搜索引擎索引功能的测试效率。
技术实现思路
本申请所要解决的技术问题是提供一种搜索引擎索引功能的测试方法和装置,能够提高搜索引擎索引功能的测试效率。为了解决上述问题,本申请公开了一种搜索引擎索引功能的测试方法,包括:利用新版本搜索引擎对基准数据进行索引,得到相应新版索引文件;其中,新版本搜索引擎为待测试的搜索引擎;将旧版索引文件和所述新版索引文件作为文件流进行内容的对比,若相同则测试通过,若不同则测试不通过;其中,旧版索引文件为利用旧版本搜索引擎对所述基准数据进行索引得到。优选的,所述将旧版索引文件和新版索引文件作为文件流进行内容的对比的步骤进一步包括:将旧版索引文件和新版索引文件作为文件流,进行全部或部分内容的对比。优选的,所述将旧版索引文件和新版索引文件作为文件流,进行部分内容的对比的步骤,进一步包括:分别提取旧版索引文件流和新版索引文件流的若干个相同位置区间的数据;所述相同位置区间用于表示从所述旧版索引文件流和新版索引文件流提取数据时采用的区间位置相同;分别对所述旧版索引文件流和新版索引文件流的若干个相同位置区间的数据进行比较,在所有相同位置区间的数据比较结果均为相同时测试通过,在相同位置区间的数据比较结果中存在不同时测试不通过。优选的,可以通过下列步骤提取文件流上区间的数据:获取文件流的文件指针;通过文件指针偏移的方式确定区间的起端位置,并依据文件指针从区间的起端位置起读取文件流上长度与区间长度相应的数据。优选的,可以通过下列步骤获取区间的起端位置:依据预置的区间个数、区间长度和区间间隔长度,获取各区间的起端位置;所述获取过程包括:将在前区间的起始位置与在前区间的区间长度及在前区间与在后区间的区间间隔长度之和作为在后区间的起端位置。优选的,可以通过下列步骤获取区间的起端位置:确定文件流长度和区间个数;产生数值在文件流长度范围内的数量与二倍于区间个数相应的随机数;依据所述随机数获取各区间的起始位置。优选的,所述文件流为文本流或者二进制流。另一方面,本申请还公开了一种搜索引擎索引功能的测试装置,包括:索引模块,用于利用新版本搜索引擎对基准数据进行索引,得到相应新版索引文件;其中,新版本搜索引擎为待测试的搜索引擎;对比模块,用于将旧版索引文件和所述新版索引文件作为文件流进行内容的对t匕,若相同则测试通过,若不同则测试不通过;其中,旧版索引文件为利用旧版本搜索引擎对所述基准数据进行索引得到。优选的,所述对比模块进一步包括:全部对比子模块,用于将旧版索引文件和新版索引文件作为文件流,进行全部内容的对比;或者部分对比子模块,用于将旧版索引文件和新版索引文件作为文件流,进行部分内容的对比。优选的,所述部分对比子模块进一步包括:区间提取单元,用于分别提取旧版索引文件流和新版索引文件流的若干个相同位置区间的数据;所述相同位置区间用于表示从所述旧版索引文件流和新版索引文件流提取数据时采用的区间位置相同;及比较单元,用于分别对所述旧版索引文件流和新版索引文件流的若干个相同位置区间的数据进行比较,在所有相同位置区间的数据比较结果均为相同时测试通过,在相同位置区间的数据比较结果中存在不同时测试不通过。优选的,所述装置还包括:用于提取文件流上区间的数据的文件流区间数据提取模块;所述文件流区间数据提取模块进一步包括:指针获取子模块,用于获取文件流的文件指针;及读取子模块,用于通过文件指针偏移量的方式确定区间的起端位置,并依据文件指针从区间的起端位置起读取文件流上长度与区间长度相应的数据。优选的,所述装置还包括:用于获取区间的起端位置的起端位置获取模块;所述起端位置获取模块进一步包括:预置获取子模块,用于依据预置的区间个数、区间长度和区间间隔长度,获取各区间的起端位置;所述获取过程包括:将在前区间的起始位置与在前区间的区间长度及在前区间与在后区间的区间间隔长度之和作为在后区间的起端位置。优选的,所述装置还包括:用于获取区间的起端位置的起端位置获取模块;所述起端位置获取模块进一步包括:确定子模块,用于确定文件流长度和区间个数;随机数子模块,用于产生数值在文件流长度范围内的数量与二倍于区间个数相应的随机数;随机获取子模块,用于依据所述随机数获取各区间的起始位置。优选的,所述文件流为文本流或者二进制流。与现有技术相比,本申请具有以下优点:本申请利用新版本搜索引擎对基准数据进行索引,得到相应的新版索引文件,并基于文件流对比的方式对旧版索引文件和新版索引文件进行测试,得到相应的测试结果;本申请只需将旧版索引文件和所述新版索引文件作为文件流进行内容的对比即可完成新版本搜索引擎索引功能的测试,由于能够避免现有技术中对数亿条数据记录进行逐个的检索,因此能够有效提高搜索引擎索引功能的测试效率。【附图说明】图1是本申请一种搜索引擎索引功能的测试方法实施例的流程图;图2是本申请一种搜索引擎索引功能的测试装置实施例的结构图。【具体实施方式】为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本申请作进一步详细的说明。参照图1,示出了本申请一种搜索引擎索引功能的测试方法实施例的流程图,具体可以包括:步骤101、利用新版本搜索引擎对基准数据进行索引,得到相应新版索引文件;其中,新版本搜索引擎为待测试的搜索引擎;本
内,公知的是,索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库;通常索引库用于存储根据结构化数据中的各种字段建立相本文档来自技高网
...

【技术保护点】
一种搜索引擎索引功能的测试方法,其特征在于,包括:利用新版本搜索引擎对基准数据进行索引,得到相应新版索引文件;其中,新版本搜索引擎为待测试的搜索引擎;将旧版索引文件和所述新版索引文件作为文件流进行内容的对比,若相同则测试通过,若不同则测试不通过;其中,旧版索引文件为利用旧版本搜索引擎对所述基准数据进行索引得到。

【技术特征摘要】
1.一种搜索引擎索引功能的测试方法,其特征在于,包括: 利用新版本搜索引擎对基准数据进行索引,得到相应新版索引文件;其中,新版本搜索引擎为待测试的搜索引擎; 将旧版索引文件和所述新版索引文件作为文件流进行内容的对比,若相同则测试通过,若不同则测试不通过;其中,旧版索引文件为利用旧版本搜索引擎对所述基准数据进行索引得到。2.如权利要求1所述的方法,其特征在于,所述将旧版索引文件和新版索引文件作为文件流进行内容的对比的步骤进一步包括: 将旧版索引文件和新版索引文件作为文件流,进行全部或部分内容的对比。3.如权利要求2所述的方法,其特征在于,所述将旧版索引文件和新版索引文件作为文件流,进行部分内容的对比的步骤,进一步包括: 分别提取旧版索引文件流和新版索引文件流的若干个相同位置区间的数据;所述相同位置区间用于表示从所述旧版索引文件流和新版索引文件流提取数据时采用的区间位置相同; 分别对所述旧版索引文件流和新版索引文件流的若干个相同位置区间的数据进行比较,在所有相同位置区间的数据比较结果均为相同时测试通过,在相同位置区间的数据比较结果中存在不同时测试不通过。4.如权利要求3所述的方法,其特征在于,通过下列步骤提取文件流上区间的数据: 获取文件流的文件指针; 通过文件指针偏移的方式确定区间的起端位置,并依据文件指针从区间的起端位置起读取文件流上长度与区间长度相应的数据。5.如权利要求4所述的方法,其特征在于,通过下列步骤获取区间的起端位置: 依据预置的区间个数、区间长度和区间间隔长度,获取各区间的起端位置;所述获取过程包括:将在前区间的起始位置与在前区间的区间长度及在前区间与在后区间的区间间隔长度之和作为在后区间的起端位置。6.如权利要求4所述的方法,其特征在于,通过下列步骤获取区间的起端位置: 确定文件流长度和区间个数; 产生数值在文件流长度范围内的数量与二倍于区间个数相应的随机数; 依据所述随机数获取各区间的起始位置。7.如权利要求1至6中任一项所述的方法,其特征在于,所述文件流为文本流或者二进制流。8.一种搜索引擎索引功能的测试装置,其特征在于,包括: 索引模块,用于利用新版本搜索引擎对基准数据进行索引,得到相应新版索引文件;其中,新版本搜索引擎为待测试的搜索引擎; 对比模块...

【专利技术属性】
技术研发人员:罗峰黄苏支李娜
申请(专利权)人:亿赞普北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1