一种搜索方法、装置及设备制造方法及图纸

技术编号:18302186 阅读:40 留言:0更新日期:2018-06-28 12:04
本发明专利技术公开了一种搜索方法、装置及设备。该方法包括:获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息;基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序;基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页。实现了在获取搜索结果页的过程中更多地考虑用户的搜索需求,以更加准确地对搜索结果进行排序,从而获得更加贴近用户搜索需求的搜索结果,提升用户的搜索体验。

A search method, device, and equipment

The invention discloses a search method, device and device. The method includes: obtaining the candidate blocks matching with the search key and the entry information in each candidate block; based on the feature of the block blocks and the entry features of each item information, the item information in the candidate blocks and the candidate blocks is arranged, and the candidate blocks are based on the sorting. The entry information in each candidate block is generated and the search result page is generated. In the process of obtaining the search result page, we can more consider the user's search requirement in order to sort the search results more accurately, so as to get the search result which is closer to the user's search requirement and improve the user's search experience.

【技术实现步骤摘要】
一种搜索方法、装置及设备
本专利技术实施例涉及信息搜索技术,尤其涉及一种搜索方法、装置及设备。
技术介绍
在当今大数据时代的背景下,互联网所提供的信息正以惊人的速度持续增长。面对这样膨大的信息库,如何准确有效地提取并呈现用户关注的有用信息成为搜索引擎服务器要解决的首要问题,其中网页的智能排序更是其中的一个不可忽略的关键问题。目前搜索引擎服务器对于网页的排序主要是基于网页的可靠性、网页内容与搜索关键词的相关性以及网页的搜索热度等。比如基于链接的分析算法是基于网页的重要性进行排序,基于文本的相关性技术是基于网页内容与搜索关键词的相关性进行排序,而基于用户行为的点击调权技术则是基于用户浏览网页过程中的点击率来排序。这些排序算法所考虑的因素比较单一,且呈现给用户的搜索结果可能和用户的真实需求有较大出入,用户需要从搜索引擎服务器返回的结果中再次筛选有用信息,这无疑加重了用户的负担,影响用户体验。
技术实现思路
本专利技术实施例提供一种搜索方法、装置及设备,以实现更加准确地对搜索结果进行排序,获得更加贴近用户搜索需求的搜索结果,提升用户的搜索体验。第一方面,本专利技术实施例提供了一种搜索方法,包括:获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息;基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序;基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页。第二方面,本专利技术实施例还提供了一种搜索装置,该装置包括:候选信息获取模块,用于获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息;排序模块,用于基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序;搜索结果页生成模块,用于基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页。第三方面,本专利技术实施例还提供了一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例所述的方法。本专利技术实施例提供的一种搜索方法、装置及设备,通过获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息,基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序,并基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页,减少与用户搜索需求偏离较远的搜索条目,获得更加贴近用户搜索需求的搜索结果页,能够有效减少用户的二次筛选,提升用户的搜索体验。附图说明图1为本专利技术实施例一提供的一种搜索排序方法的流程图;图2为本专利技术实施例一提供的一种搜索结果页示意图;图3为本专利技术实施例二提供的一种搜索排序方法的流程图;图4a为本专利技术实施例三提供的一种页面元素排序模型的结构图;图4b为本专利技术实施例三提供的另一种页面元素排序模型的结构图;图5为本专利技术实施例四提供的一种搜索排序方法的流程图;图6为本专利技术实施例五提供的一种搜索排序装置的结构示意图;图7为本专利技术实施例六提供的一种设备的结构图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一本专利技术实施例可以适用于针对搜索查询的各种搜索引擎服务器,只要该搜索引擎服务器能够依据用户的搜索请求,在搜索结果页上展现相应的搜索查询的信息即可,而不对具体的搜索查询加以限制,比如商品、知识、资源或服务等。该方法可以由搜索装置来执行。参见图1,本实施例提供的搜索方法具体包括:S100-S300。S100、获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息。其中,搜索关键词是用户输入搜索引擎的搜索请求的概括性词语。候选区块是根据搜索关键词从所有的备选区块中选择的用于在搜索结果页中展示的区块。备选区块是预先对某一时间段内的所有搜索关键词(即历史搜索关键词)进行统计分类之后得到的不同搜索主题对应的区块,比如“包子机”之类的机械类产品,可以根据历史搜索关键词划分出“包子机价格”、“包子机使用说明”、“包子机维修与保养”、“包子机销售商”和“包子机生产商”等搜索主题,则备选区块可以是“产品列表区”、“产品知识区”和“厂家介绍区”等。历史搜索关键词是基于搜索日志数据来获取,统计分类方法可以采用贝叶斯逻辑回归分类器、词频-逆向文件频率(TermFrequency-InverseDocumentFrequency,TF-IDF)或诸如支持向量机和神经网络算法的机器学习方法等。条目信息是与候选区块相对应的搜索条目,这些搜索条目是根据搜索关键词及各个区块的信息预先确定的归属于某一个区块下的所有条目,其预先确定方法可以是利用诸如页面分析技术的内容理解方法对各种搜索条目的内容进行理解,并按照理解的结果将其划分于某一区块下,划分方法可以与上述统计分类方法相同。具体地,依据搜索关键词从多个备选区块中筛选出与搜索关键词适配的所有区块作为搜索结果页中的候选区块。然后获取每一个候选区块中对应的条目信息。在搜索结果页内进行区块的划分可以更加直观地向用户呈现搜索结果,便于用户快速找到其最感兴趣的条目。至于如何筛选与搜索关键词适配的区块及条目信息,可以是预先设立搜索关键词与区块及条目信息的映射关系,然后根据映射关系直接进行区块和条目信息的筛选;也可以是分别对搜索关键词和区块以及搜索关键词和条目信息进行回归分析,分别得到备选区块以及备选区块对应的条目信息与搜索关键词的匹配度,将达到匹配度阈值的备选区块和条目信息确定为候选区块和候选区块中的条目信息。匹配度的衡量指标可以是贴近度、语义距离或相似度,具体的算法可以是计算几何距离或相关系数等统计学方法。匹配度阈值可以根据具体的情况进行设置,比如为了获得更贴近搜索需求的搜索结果,可以将匹配度阈值设置为80%。示例性地,获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息可以是:从区块数据库中获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息,所述区块数据库中的条目信息按区块存储且各区块与搜索关键词相关联地存储。具体地,预先对网页进行页面分析获得搜索关键词与各区块的第一映射关系以及各区块与条目信息的第二映射关系,然后将搜索关键词与各备选区块按照第一映射关系关联地存储,并将条目信息按照第二映射关系分区块存储,共同构成区块数据库。然后根据用户的搜索关键词从区块数据库中选择出候选区块以及各候选区块中的条目信息。其中,上述第一映射关系和第二映射关系的形式可以是树结构,也可以是查找表结构。生成映射关系所用的数据是网络用户的搜索日志,即历史搜索关键词。至于映射关系的生成算法可以是诸如贝叶斯回归分类算法或聚类法等回归分析方法,也可以是决策树、支持向量机或神经网络算法等机器学习算法。S200、基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序。其中,区块特征是描述区块特性的参数,其可以是区块点击率、区块转化率、区块所属领域、区块与搜索关键词匹配度等中的一个或多个。区块点击率是该区块内所有条本文档来自技高网...
一种搜索方法、装置及设备

【技术保护点】
1.一种搜索方法,其特征在于,包括:获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息;基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序;基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页。

【技术特征摘要】
1.一种搜索方法,其特征在于,包括:获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息;基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序;基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页。2.根据权利要求1所述的方法,其特征在于,获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息包括:从区块数据库中获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息,所述区块数据库中的条目信息按区块存储且各区块与搜索关键词相关联地存储。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:依据所接收的搜索请求确定所述搜索关键词。4.根据权利要求1所述的方法,其特征在于,基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序包括:基于搜索关键词特征、各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序。5.根据权利要求1或4所述的方法,其特征在于,所述方法还包括:确定所述搜索关键词的用户需求类型;基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序包括:基于所述用户需求类型、各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序。6.根据权利要求1所述的方法,其特征在于,所述区块特征包括区块点击率和区块转化率,所述条目特征包括条目点击率和条目转化率。7.根据权利要求1到6中任一所述的方法,其特征在于,基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序包括:利用预先训练的页面元素排序模型,基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序。8.根据权利要求7所述的方法,其特征在于,所述页面元素排序模型的输入参数还包括:所述搜索关键词区块相似度、所述搜索关键词条目相似度、所述搜索关键词和所述候选区块的组合点击率、所述搜索关键词和所述候选区块的组合转化率、所述搜索关键词和所述条目信息的组合点击率及所述搜索关键词和所述条目信息的组合转化率中的至少一个。9.一种搜索装置,其特...

【专利技术属性】
技术研发人员:秦首科张泽明韩聪马飞超陈志扬吕显赫王楠
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1