计算文档质量值的方法和装置制造方法及图纸

技术编号:20551045 阅读:54 留言:0更新日期:2019-03-14 00:23
本发明专利技术的各实施方式提供了一种计算文档质量值的方法和装置。所述方法包括:确定产生新文档;在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成,所述第一文档范围小于全网文档范围。本发明专利技术的方法提升了系统的运算速度,实现了检索的实时性和精确性的平衡。

Method and Device for Calculating Document Quality Value

The embodiments of the present invention provide a method and device for calculating document quality values. The method includes: determining the generation of new documents; calculating the quality value of each new document within the scope of the first document; the first document range consists of the new document, or the new document and the document generated in the first predetermined time before, and the first document range is smaller than the whole network document range. The method of the invention improves the operation speed of the system and achieves the balance of real-time and accuracy of retrieval.

【技术实现步骤摘要】
计算文档质量值的方法和装置
本专利技术的各实施方式涉及搜索领域,并且更具体地,涉及一种计算文档质量值的方法和装置。
技术介绍
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。搜索引擎的工作原理主要包括:一、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库;二、预处理:对抓取来的页面数据进行文字提取、中文分词、索引、涉及相关性的文档质量值等处理,以备排名程序调用;三、排名:用户输入词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。由此,在预处理阶段对抓取的文档进行质量值计算成为相关性计算的重要步骤。在现有的搜索系统中,预处理阶段的文档质量值常常是将抓取的文档代入全网文档,然后迭代多次计算得出,由于已有的文档浩如烟海,数量可能达到数百亿计,计算的过程可能需要花费数小时或甚至是几天的时间,这样的速度对于非实时系统而言,可能不成为问题。然而对于实时系统,例如SNS类的网站而言,它的应用数据更新特别频繁,用户总是希望在系统中能够即时快速地搜到刚刚更新的文档,常规的、缓慢的文档质量值计算将不可避免地影响搜索引擎的响应时间,这是实时系统所不愿意见到。因此,现在需要一种能够优化文档质量值计算的、优化检索策略的方法和装置。
技术实现思路
鉴于上述现状,本专利技术的至少一个目的在于提供一种计算文档质量值的方法和装置。根据本专利技术的方法和装置,其提升了系统的运算速度,保证了实时检索更新文档成为可能,极大的增强了用户的体验。根据本专利技术的方法和装置,还兼顾了检索的实时性和精确性。根据本专利技术的一个方面,提供了一种计算文档质量值的方法,包括:确定产生新文档;在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成,所述第一文档范围小于全网文档范围。根据本专利技术优选的实施例,在第二预定时间,在第二文档范围内重新计算所述新文档的质量值,所述第二文档范围大于且包括所述第一文档范围。根据本专利技术优选的实施例,所述第一预定时间包括半个小时、一个小时。根据本专利技术优选的实施例,所述第二预定时间为每天的预定时刻。根据本专利技术优选的实施例,所述第二文档范围等于全网文档范围。根据本专利技术优选的实施例,在第三预定时间,在第三文档范围内重新计算所述新文档的质量值,所述第三文档范围大于且包括第二文档范围。根据本专利技术优选的实施例,所述方法适用于对SNS网站产生的文档执行质量值计算。根据本专利技术的一个方面,提供了一种计算文档质量值的装置,包括:确定装置,用于确定产生新文档;计算装置,用于在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成,所述第一文档范围小于全网文档范围。根据本专利技术优选的实施例,所述计算装置进一步包括:在第二预定时间,在第二文档范围内重新计算所述新文档的质量值,所述第二文档范围大于且包括所述第一文档范围。根据本专利技术优选的实施例,所述第一预定时间包括半个小时、一个小时。根据本专利技术优选的实施例,所述第二预定时间为每天的预定时刻。根据本专利技术优选的实施例,所述第二文档范围等于全网文档范围。根据本专利技术优选的实施例,在第三预定时间,在第三文档范围内重新计算所述新文档的质量值,所述第三文档范围大于且包括第二文档范围。根据本专利技术优选的实施例,所述装置适用于对SNS网站产生的文档执行质量值计算。附图说明当结合附图阅读下文对示范性实施方式的详细描述时,这些以及其他目的、特征和优点将变得显而易见,在附图中:图1示出了搜索引擎工作原理的示意图;图2示出了根据本专利技术一个实施方式的计算文档质量值的方法流程示意图;以及图3示出了根据本专利技术一个实施方式的计算文档质量值的装置的方框图;具体实施方式附图中的流程图和框图,图示了按照本专利技术各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。现在将仅通过示例性方式来详细地描述本专利技术的各种实施方式。图1示出了搜索引擎工作原理的示意图。本领域技术人员知晓,图1仅是搜索引擎工作原理的简单示例,不意图对本专利技术构成任何的限制。例如图1中的各Web页面产生各种数据,搜索软件搜索这些数据并且对这些数据进行预处理,预处理例如包括由索引软件对产生的数据执行索引,产生各种文档并将这些文档存储于数据库内以备检索;然后,检索软件响应于用户的检索输入执行对上述文档的检索;最后将检索结果呈现在浏览器界面中。虽然图1没有明确示出,但在预处理阶段,通常还将包括对数据库内的文档执行质量值计算的步骤,该质量值将用于后续的相关性计算。故质量值的计算对于后续相关性计算的影响是不言而喻的。下面本专利技术的各实施例将示出如何优化文档质量值的计算,从而提升系统的运算速度及实现实时性和精确性之间的平衡。图2示出了根据本专利技术一个实施方式的计算文档质量值的方法流程示意图。根据本专利技术的方法,可以适用于实时系统或非实时系统。优选地,本专利技术的方法适用于实时系统。在下面的描述中,应用于实时系统更能提升整个系统的性能。该方法流程开始于步骤S200。步骤S210,确定产生新文档;根据本专利技术的各实施例,可以实时地监视上述系统,以确定是否产生新文档。如前所述,特别是对于在线实时系统而言,应用数据更新特别频繁,每分钟甚至是每秒钟都可能产生大量的应用数据,可以对这些新应用数据执行预处理从而产生新文档。预处理例如可以包括文字提取、分词、去重、去停止词、去除噪音、索引、特殊文件处理等。根据本专利技术的各实施例,在确定产生新文档时,执行下一步骤S220。步骤S220,在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成,所述第一文档范围小于全网文档范围;本专利技术的所述新文档的质量值有些类似于google的PageRank分值。根据本专利技术的实施例,文档质量值例如可以包括基于该文档在一定数量的文档范围内与其他文档之间的关系(例如包括引用关系、链接关系等)而计算的分值。文档质量值的计算将涉及各种复杂的算法。根据本专利技术的各实施例,所述算法将适用本领域各种公知的算法,对此,本申请并不加以限制。如步骤S220所述,本专利技术的构思在于第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成。具体本文档来自技高网...

【技术保护点】
1.一种计算文档质量值的方法,包括:确定产生新文档;在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间段内产生的文档构成,所述第一文档范围小于全网文档范围;以及在第二预定时间,在第二文档范围内重新计算所述新文档的质量值,所述第二文档范围大于且包括所述第一文档范围,其中所述质量值是基于某个文档在一定数量的文档范围内与其他文档之间的关系而计算的分值。

【技术特征摘要】
1.一种计算文档质量值的方法,包括:确定产生新文档;在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间段内产生的文档构成,所述第一文档范围小于全网文档范围;以及在第二预定时间,在第二文档范围内重新计算所述新文档的质量值,所述第二文档范围大于且包括所述第一文档范围,其中所述质量值是基于某个文档在一定数量的文档范围内与其他文档之间的关系而计算的分值。2.根据权利要求1所述的方法,其中:所述第一预定时间段包括半个小时或一个小时。3.根据权利要求1所述的方法,其中:所述第二预定时间为每天的预定时刻。4.根据权利要求1所述的方法,其中:所述第二文档范围等于全网文档范围。5.根据权利要求1所述的方法,包括:在第三预定时间,在第三文档范围内重新计算所述新文档的质量值,所述第三文档范围大于且包括第二文档范围。6.根据权利要求1-5任一所述的方法,其中:所述方法适用于对SNS网站产生的文档执行质量值计算。7.一种计算文档质量值的装置,包...

【专利技术属性】
技术研发人员:郭杨
申请(专利权)人:北京千橡网景科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1