本发明专利技术提供了一种优质图片搜索资源的收录方法,包括:针对Query进行搜索得到原始图片搜索资源;根据预设规则对所述原始图片搜索资源进行处理,筛选出其中针对Query的优质图片搜索资源;收录所述优质图片搜索资源,将其记录为该Query对应的图片搜索资源。采用本发明专利技术能够对已获取的搜索资源进行更为有效的数据收录。
【技术实现步骤摘要】
优质图片搜索资源的收录方法及装置
本专利技术涉及互联网搜索领域,特别是涉及一种优质图片搜索资源的收录方法及装置。
技术介绍
随着网络技术的日益发展,互联网与用户生活越来越紧密。生活中,大量用户通过搜索引擎进行信息搜索。搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。系统一方面提供时效性数据,另外一方面,它提供更多的数据给线上的引擎排序(Rank)。但无论是哪种,最主要的目的是提升搜索结果的质量和相关性。特别的,在抓取资源一定的情况下,如何抓取那些更优质,更能和引擎现有数据互补的数据才是最重要的。即,如何更有效的进行数据的收录,特别是对于包含信息量较大的、信息不容易识别的图片搜索资源。特别的,对于垂直搜索,其数据来源往往来源与网页搜索已经抓取的网页,这些数据已经存在了,这就能够通过数据挖掘进行搜索资源的收录。实施时,由于线上的相关性评估是以Query为维度的,用户看到的结果(例如图片)也是以Query为维度的。因此图片资源收录从本质上也是为了提高某个Query搜索结果的相关性,对此,相关技术并未提供具体的方法。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的优质图片搜索资源的收录装置和相应的优质图片搜索资源的收录方法。基于本专利技术的一个方面,提供了一种优质图片搜索资源的收录方法,包括:针对Query进行搜索得到原始图片搜索资源;根据预设规则对所述原始图片搜索资源进行处理,筛选出其中针对Query的优质图片搜索资源;收录所述优质图片搜索资源,将其记录为该Query对应的图片搜索资源。可选地,根据预设规则对所述原始图片搜索资源进行处理,筛选出其中针对Query的优质搜索资源,包括:计算各图片搜索资源为优质搜索资源的概率P(Image=Good|Query);将计算得到的各图片搜索资源的P(Image=Good|Query)分别与预设的优质资源阈值进行比较;筛选出比较结果为P(Image=Good|Query)大于所述优质资源阈值的搜索资源,作为针对Query的优质搜索资源。可选地,在原始图片搜索资源中,计算各图片搜索资源为优质资源的概率P(Image=Good|Query),包括:对所述原始图片搜索资源中的图片进行遍历;遍历到某张图片时,获取该图片的属性信息;根据该图片的属性信息计算该图的P(Image=Good|Query)。可选地,根据预设规则对所述原始搜索资源进行处理,筛选出其中针对Query的优质搜索资源,包括:在原始图片搜索资源中,筛选出其中的优质图片搜索资源;在所述筛选出的优质图片搜索资源中,进一步筛选出针对Query的部分优质图片搜索资源;在部分优质图片搜索资源中,计算各优质图片搜索资源的P(Image=Good|Query);将计算得到的各优质图片搜索资源的P(Image=Good|Query)分别与预设的优质资源阈值进行比较;筛选出比较结果为P(Image=Good|Query)大于所述优质资源阈值的搜索资源,作为针对Query的优质搜索资源。可选地,在所述筛选出的优质图片搜索资源中,进一步筛选出针对Query的部分优质图片搜索资源,包括:通过浏览行为获取各图片的文本描述信息;依次计算Query与各图片的文本描述信息的相似度;根据计算得到的相似度进一步筛选出针对Query的部分优质图片搜索资源。可选地,若某一图片的文本描述信息包括Query,则该图片为针对Query的部分优质图片搜索资源。可选地,在原始图片搜索资源中,计算各图片搜索资源为优质搜索资源的概率P(Image=Good|Query),包括:在搜索历史记录中查询包含所述原始图片搜索资源的网页;在查询到的网页中筛选出满足P(Page=Good|Query)大于预设网页阈值的网页;计算筛选出的网页上的各图片的P(Image=Good|Query)。可选地,在查询到的网页中筛选出满足P(Page=Good|Query)大于预设网页阈值的网页,包括:在查询到的网页中筛选出Query对应的网页;遍历Query对应的网页;遍历到某个网页时,获取该网页的属性信息;根据该网页的属性信息判断该网页是否满足P(Page=Good|Query)大于预设网页阈值。可选地,根据如下步骤确定P(Page=Good|Query):在搜索日志中查找匿名用户在一定时间段时针对各网页的第一点击行为;在搜索日志中查找匿名用户在一定时间段时针对Query的第二点击行为;比较所述第一点击行为和所述第二点击行为的相似度;根据两者的相似度确定P(Page=Good|Query)。可选地,比较所述第一点击行为和所述第二点击行为的相似度,包括:根据点击时间和/或点击次数比较所述第一点击行为和所述第二点击行为的相似度。可选地,根据如下步骤确定P(Page=Good|Query):通过浏览行为获取各网页的文本描述信息;依次计算Query与各网页的文本描述信息的相似度;根据计算得到的相似度确定P(Page=Good|Query)。可选地,所述各网页的文本描述信息包括下列至少之一:各网页的标题title、正文、摘要。基于本专利技术的另一个方面,本专利技术还提供了一种优质图片搜索资源的收录装置,包括:搜索模块,适于针对Query进行搜索得到原始图片搜索资源;筛选模块,适于根据预设规则对所述原始图片搜索资源进行处理,筛选出其中针对Query的优质图片搜索资源;收录模块,适于收录所述优质图片搜索资源,将其记录为该Query对应的图片搜索资源。可选地,所述筛选模块还适于:在原始图片搜索资源中,计算各图片搜索资源为优质搜索资源的概率P(Image=Good|Query);将计算得到的各图片搜索资源的P(Image=Good|Query)分别与预设的优质资源阈值进行比较;筛选出比较结果为P(Image=Good|Query)大于所述优质资源阈值的搜索资源,作为针对Query的优质搜索资源。可选地,所述筛选模块还适于:对所述原始图片搜索资源中的图片进行遍历;遍历到某张图片时,获取该图片的属性信息;根据该图片的属性信息计算该图的P(Image=Good|Query)。可选地,所述筛选模块还适于:在原始图片搜索资源中,筛选出其中的优质图片搜索资源;在所述筛选出的优质图片搜索资源中,进一步筛选出针对Query的部分优质图片搜索资源;在部分优质图片搜索资源中,计算各优质图片搜索资源的P(Image=Good|Query);将计算得到的各优质图片搜索资源的P(Image=Good|Query)分别与预设的优质资源阈值进行比较;筛选出比较结果为P(Image=Good|Query)大于所述优质资源阈值的搜索资源,作为针对Query的优质搜索资源。可选地,所述筛选模块还适于:通过浏览行为获取各图片的文本描述信息;依次计算Query与各图片的文本描述信息的相似度;根据计算得到的相似度进一步筛选出针对Query的部分优质图片搜索资源。可选地,所述筛选模块还适于:在搜索历史记录中查询本文档来自技高网...
【技术保护点】
一种优质图片搜索资源的收录方法,包括:针对Query进行搜索得到原始图片搜索资源;根据预设规则对所述原始图片搜索资源进行处理,筛选出其中针对Query的优质图片搜索资源;收录所述优质图片搜索资源,将其记录为该Query对应的图片搜索资源。
【技术特征摘要】
1.一种优质图片搜索资源的收录方法,包括:针对Query进行搜索得到原始图片搜索资源;在搜索历史记录中查询包含所述原始图片搜索资源的网页;在查询到的网页中筛选出满足网页资源为优质网页资源的概率P(Page=Good|Query)大于预设网页阈值的网页;计算筛选出的网页上的各图片搜索资源为优质图片搜索资源的概率P(Image=Good|Query);将计算得到的概率P(Image=Good|Query)分别与预设的优质资源阈值进行比较;筛选出比较结果为P(Image=Good|Query)大于所述优质资源阈值的图片搜索资源,作为针对Query的优质图片搜索资源;收录所述优质图片搜索资源,将其记录为该Query对应的图片搜索资源。2.根据权利要求1所述的方法,其中,计算概率P(Image=Good|Query),包括:对所述各图片搜索资源中的图片进行遍历;遍历到某张图片时,获取该图片的属性信息;根据该图片的属性信息计算P(Image=Good|Query)。3.根据权利要求1所述的方法,其中,在查询到的网页中筛选出满足P(Page=Good|Query)大于预设网页阈值的网页,包括:在查询到的网页中筛选出Query对应的网页;遍历Query对应的网页;遍历到某个网页时,获取该网页的属性信息;根据该网页的属性信息判断该网页是否满足P(Page=Good|Query)大于预设网页阈值。4.根据权利要求1所述的方法,其中,根据如下步骤确定P(Page=Good|Query):在搜索日志中查找匿名用户在一定时间段针对各网页的第一点击行为;在搜索日志中查找匿名用户在一定时间段针对Query的第二点击行为;比较所述第一点击行为和所述第二点击行为的相似度;根据两者的相似度确定P(Page=Good|Query)。5.根据权利要求4所述的方法,其中,比较所述第一点击行为和所述第二点击行为的相似度,包括:根据点击时间和/或点击次数比较所述第一点击行为和所述第二点击行为的相似度。6.根据权利要求1所述的方法,其中,根据如下步骤确定P(Page=Good|Query):通过浏览行为获取各网页的文本描述信息;依次计算Query与各网页的文本描述信息的相似度;根据计算得到的相似度确定P(Page=Good|Query)。7.根据权利要求6所述的方法,其中,所述各网页的文本描述信息包括下列至少之一:各网页的标题、正文、摘要。8.一种优质图片搜索资源的收...
【专利技术属性】
技术研发人员:陶哲,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。