一种相关搜索系统及方法技术方案

技术编号:10645538 阅读:164 留言:0更新日期:2014-11-12 18:59
本发明专利技术提供了一种相关搜索系统及方法。方法包括如下步骤:a)接收搜索词,提取关键词及参数;b)基于关键词及参数,筛选候选搜索词;c)利用神经网络语言模型计算搜索词与候选搜索词之间的相关性,并获取其他特征相关性;d)进行对多种特征相关性的加权计算,得到相关搜索词结果。系统包括:接收搜索词的接收模块;提取关键词及关键词参数的关键词提取模块;存储候选搜索词的搜索词数据库;以关键词参数为筛选条件搜索候选搜索词的筛选模块;计算多种特征相关性的相关性计算模块;对多种特征相关性分数的加权计算,得到相关搜索词的融合模块。根据本发明专利技术能够以简单的结构实现高效精准的相关搜索。

【技术实现步骤摘要】

本专利技术涉及搜索引擎
,特别是一种相关搜索系统及方法
技术介绍
随着互联网的发展,通过互联网网络侧可以为客户端提供各种服务。其中一种就是搜索服务,也就是在网络侧设置搜索引擎,当网络侧的搜索引擎接收客户端发送的搜索请求后,检索互联网网络侧候选数据库中所存储的匹配该搜索请求携带的关键词的所有字面索引,提供给客户端。为了提高使用客户端的用户搜索体验度,提出了相关搜索技术,也就是网络侧的搜索引擎在接收搜索请求后,不仅仅检索互联网网络侧候选数据库中匹配该搜索请求携带的关键词的所有字面索引,还检索互联网网络侧候选数据库所存储的匹配该搜索请求携带的关键词的相关或相近字面索引,提供给客户端,用于用户的进一步搜索。然而,现有的相关搜索技术使用词频-逆文档频率法对关键词进行提取,然而由于该方法提取的关键词的准确性不高,影响了相关搜索的结果的准确率。因此,需要一种相关搜索系统及方法,以简单的结构实现高效精准的相关搜索。
技术实现思路
本专利技术的目的是提供一种相关搜索系统及方法。根据本专利技术的一个方面,提供了一种相关搜索的方法,其特征在于,包括如下步骤:a)接收搜索词,提取关键词及关键词参数;b)基于所述关键词及所述关键词参数,筛选出至少一个候选搜索词;c)利用神经网络语言模型计算所述搜索词与所述候选搜索词之间的相关性,并获取其他特征相关性;d)进行对多种特征相关性的加权计算,得到相关搜索词结果。优选地,所述步骤a中还包括获取用户设备情景信息。优选地,所述步骤a还包括获取用户身份信息。优选地,所述步骤b中通过垂直搜索引擎进行对所述候选搜索词的筛选。优选地,所述步骤c利用神经网络语言模型计算当前搜索词与候选搜索词之间的相关性的方法如下:c1)提取所述搜索词或所述候选搜索词中的所述关键词在所述神经网络语言模型中的向量;c2)计算所述搜索词或所述候选搜索词的模型向量;c3)计算所述搜索词或所述候选搜索词的模型向量之间的距离。优选地,所述其他特征相关性包括以下分数中的至少一种:关键词相关分数、字面距离分数、搜索次数分数、共同出现搜索分数、物理距离分数。优选地,步骤d包括如下步骤:d1)提取各种特征相关性分数的权重;d2)进行加权计算,求出所述候选搜索词与所述搜索词的相关性分数;d3)将计算分数排序;d4)选取分数最高的1个或多个所述候选搜索词作为所述相关搜索词以向用户返回结果。优选地,基于所述用户设备情景信息对各种特征相关性分数配置不同的权重,步骤c基于所述用户设备情景信息,进行对多种特征相关性分数的加权计算。根据本专利技术的另一方面,提供了一种相关搜索的系统,其特征在于,所述系统包括接收模块、关键词提取模块、搜索词数据库、筛选模块、相关性计算模块,以及融合模块,其中,所述接收模块用于接收来自客户端的搜索词,并将所述搜索词向所述关键词提取模块输出;所述关键词提取模块用于提取关键词及关键词参数,并将所述关键词及关键词参数输出至所述筛选模块;所述搜索词数据库用于存储候选搜索词;所述筛选模块用于在所述搜索词数据库中,以所述关键词参数为筛选条件,搜索出候选搜索词;所述相关性计算模块用于利用神经网络语言模型计算所述搜索词与所述候选搜索词之间的相关性,并获取其他特征相关性分数;所述融合模块用于对多种特征相关性分数的加权计算,得到相关搜索词结果。优选地,所述接收模块还读取客户端的用户设备情景信息,并将所述用户设备情景信息向所述融合模块输出。优选地,所述融合模块首先基于所述用户设备情景信息对各种特征相关性分数配置不同的权重,然后根据该权重,进行对多种特征相关性分数的加权计算,得到所述相关搜索词结果。根据本专利技术的一种相关搜索系统及方法,能够实现以简单的结构实现高效精准的相关搜索。附图说明参考随附的附图,本专利技术更多的目的、功能和优点将通过本专利技术实施方式的如下描述得以阐明,其中:图1示意性示出了本专利技术的一种相关搜索方法的流程图。图2示意性示出了本专利技术的一种相关搜索系统的框图。具体实施方式通过参考示范性实施例,本专利技术的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本专利技术并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本专利技术的具体细节。在下文中,将参考附图描述本专利技术的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。图1示意性示出了本专利技术的一种相关搜索方法的流程图。如图1所示:步骤110,接收搜索词,提取关键词及关键词参数。其中,提取关键词的方式包括以下三种:通过分词操作提取关键词;通过利用知识库提取关键词;通过分词以及知识库提取关键词。此外,知识库(Knowledge Base)是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一或某些领域问题求解的需要,采用某种或若干知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。例如,将搜索词样本放在一个垂直搜索系统中,利用过去高频历史搜索词以及知识库数据进行关键词及关键词参数的提取。关键词参数是指每个关键词对应的属性,所述属性包括但不限于类别特征、名称特征、行为特征、地理位置特征等,可以用来对关键词的多个属性进行划分和标识的参数。例如,接收到的搜索词为:“嘉铭桐城租房”。利用知识库提取到的关键词为“嘉铭桐城”和“租房”。关键词“嘉铭桐城”的参数为关键词分类(房产小区)、位置(地理坐标(经纬度))等,关键词“租房”的参数例如关键词分类(房产行为)。根据本专利技术的另一实施例,还可以获取用户设备情景信息,用户设备情景信息为用户发送搜索词所利用的智能终端的设备信息,所述智能终端可以例如智能手机、平板电脑、便携式电脑、掌上数字助理、智能腕表、台式电脑、数字眼镜、电视游戏机以及全景头盔式游戏机等中的任意一种。获取的用户设备信息包括但不限于国际移动设备身份码(IMEI,International Mobile Equipment Identity)和用户代理(User Agent)等信息。根据本专利技术的又一实施例,对于已注册用户,还可以获取用户身份信息(ID),以在后续步骤中进行个性化相关搜索词的分析。例如:从用户ID取得用户偏好文档,取得用户购买力水平、历史偏好本文档来自技高网...
一种相关搜索系统及方法

【技术保护点】
一种相关搜索的方法,其特征在于,包括如下步骤:a)接收搜索词,提取关键词及关键词参数;b)基于所述关键词及所述关键词参数,筛选出至少一个候选搜索词;c)利用神经网络语言模型计算所述搜索词与所述候选搜索词之间的相关性,并获取其他特征相关性;d)进行对多种特征相关性的加权计算,得到相关搜索词结果。

【技术特征摘要】
1.一种相关搜索的方法,其特征在于,包括如下步骤:
a)接收搜索词,提取关键词及关键词参数;
b)基于所述关键词及所述关键词参数,筛选出至少一个候选搜索词;
c)利用神经网络语言模型计算所述搜索词与所述候选搜索词之间的
相关性,并获取其他特征相关性;
d)进行对多种特征相关性的加权计算,得到相关搜索词结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤a中还包括
获取用户设备情景信息。
3.根据权利要求1所述的方法,其特征在于,所述步骤a还包括获
取用户身份信息。
4.根据权利要求1所述的方法,其特征在于,所述步骤b中通过垂
直搜索引擎进行对所述候选搜索词的筛选。
5.根据权利要求1所述的方法,其特征在于,所述步骤c利用神经
网络语言模型计算当前搜索词与候选搜索词之间的相关性的方法如下:
c1)提取所述搜索词或所述候选搜索词中的所述关键词在所述神经网
络语言模型中的向量;
c2)计算所述搜索词或所述候选搜索词的模型向量;
c3)计算所述搜索词或所述候选搜索词的模型向量之间的距离。
6.根据权利要求1所述的方法,其特征在于,所述其他特征相关性
包括以下分数中的至少一种:关键词相关分数、字面距离分数、搜索次
数分数、共同出现搜索分数、物理距离分数。
7.根据权利要求1所述的方法,其特征在于,步骤d包括如下步骤:
d1)提取各种特征相关性分数的权重;
d2)进行加权计算,求出所述候选搜索词与所述搜索词的相关性分
数;
d3)将计算分数排序;

【专利技术属性】
技术研发人员:杨锦峰
申请(专利权)人:五八同城信息技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1