进行数据搜索的方法及搜索服务器技术

技术编号:11164905 阅读:111 留言:0更新日期:2015-03-18 21:18
本发明专利技术公开了进行数据搜索的方法及搜索服务器,其中,该方法包括:从搜索日志中提取出设定时间段内的搜索记录;从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;由查询词的特征参数确定查询词是否为异常查询词;对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。本发明专利技术方案能够提高数据搜索时显示提示词的准确性。

【技术实现步骤摘要】
进行数据搜索的方法及搜索服务器
本专利技术涉及数据处理技术,尤其涉及进行数据搜索的方法及搜索服务器。
技术介绍
现有技术中,进行数据搜索时,用户在搜索网页的查询栏中输入查询词,向搜索服 务器发送包含查询词的查询请求,接收搜索服务器反馈关于查询词的搜索条目;之后,用户 可点击搜索条目,以切换到该搜索条目对应的网页查询详细内容。 在用户输入查询词的过程中,搜索服务器会根据用户输入的过程信息反馈联想 词,以显示在网页的智能提示栏中;用户可直接点击联想词,以作为查询词,发送给搜索服 务器。并且,在显示搜索条目时,网页在相关搜索栏还会显示与查询词关联的相关搜索词, 一般地,相关搜索栏置于网页下端。 举例进行说明,想要输入的查询词为ABC,当输入到AB时,即过程信息为AB,联想 词里包括ABC、阿波罗、ABB等,这时可以直接选中ABC;进行查询之后,相关搜索栏中显示的 相关搜索词包括智能ABC输入法、ABC儿歌等。 用户的搜索行为记录在搜索日志中,搜索服务器对搜索日志进行分析,来确定各 查询词的联想词和相关搜索词。分析方法有多种,举例说明:对于查询词ABC,如果搜索日 志中记录的以ABC公司最好为查询词进行查询的次数大于设定阈值,则将ABC公司最 好作为ABC的联想词和相关搜索词,分别放入联想词库和相关搜索词库中。这里,将联想 词和相关搜索词统称为提示词。 在实际运用中,存在采用机器操作频繁输入查询词,以增加某查询词的搜索次数, 进而将其设置到联想词库和相关搜索词库中,以提高该查询词为用户点击的几率。这导致 搜索时显示提示词的准确性较低。 目前,机器操作一般具有搜索频率较高的特点,例如为1分钟10次查询,因而,为 了避免机器操作,常采用如下的解决方式:对用户关于某查询词的搜索频率进行判断,如果 大于设定阈值,例如大于1分钟5次,则判断为机器操作,对其进行标记,不将其作为提示 词。但该方式存在以下缺陷:如果机器操作时将搜索频率降低,例如为1分钟1次,则无法 对其进行避免,仍为将其确定为提示词,导致搜索时显示提示词的准确性很低。
技术实现思路
本专利技术提供了一种进行数据搜索的方法,该方法能够提高数据搜索时显示提示词 的准确性。 本专利技术提供了一种进行数据搜索的搜索服务器,该搜索服务器提高数据搜索时显 示提示词的准确性。 一种进行数据搜索的方法,该方法包括: 从搜索日志中提取出设定时间段内的搜索记录; 从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的 总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv ; 由查询词的特征参数确定查询词是否为异常查询词; 对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。 一种进行数据搜索的搜索服务器,该搜索服务器包括搜索记录提取单元、特征参 数统计单元、异常查询词确定单元和标记单元; 所述搜索记录提取单元,从搜索日志中提取出设定时间段内的搜索记录,发送给 所述特征参数统计单元; 所述特征参数统计单元,从搜索记录中统计出对应查询词的特征参数,发送给所 述异常查询词确定单元,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查 询前驱行为为空的查询次数NoReferQv ; 所述异常查询词确定单元,由查询词的特征参数确定查询词是否为异常查询词; 所述标记单元,对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。 从上述方案可以看出,本专利技术中,从搜索日志中提取出设定时间段内的搜索记 录;对提取出的搜索记录进行分析,从搜索记录中统计出对应查询词的特征参数,所述 特征参数包括查询词被查询的总次数Q v,查询词对应的查询前驱行为为空的查询次数 NoReferQv ;根据Qv、NoReferQv进行判断,确定出异常查询词;对异常查询词进行标记,以 使联想词库和相关搜索词库中的异常查询词不用于后续的搜索处理。本专利技术基于查询词被 查询的总次数Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv,进行异常查询 词的判断,而不采用基于搜索频率来确定异常查询词,这样,对于机器操作搜索频率较低的 情况,可避免将其确定为提示词,从而,提高了数据搜索时显示提示词的准确性。 【附图说明】 图1为本专利技术进行数据搜索的方法示意性流程图; 图2为本专利技术进行数据搜索的方法流程图实例; 图3为本专利技术进行数据搜索的系统结构示意图。 【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本 专利技术进一步详细说明。 本专利技术基于查询词的多个特征参数确定其是否为异常查询词,而不再仅基于搜索 频率来确定异常查询词;这样,对于机器操作搜索频率较低的情况,可避免将其确定为提示 词,提高了数据搜索时显示提示词的准确性。 参见图1,为本专利技术进行数据搜索的方法示意性流程图,其包括以下步骤: 步骤101,从搜索日志中提取出设定时间段内的搜索记录。 用户的搜索行为记录在搜索日志中,包括对每次搜索的搜索时间、查询词、每 次搜索后对搜索条目进行点击的次数,搜索行为输入的统一资源定位符(URL,Uniform Resource Locator)地址等等。 根据需要,可以从搜索日志中提取出设定时间段的搜索记录,设定时间段例如为2 天。 步骤102,从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词 被查询的总次数Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv。 用于确定异常查询词的特征参数可根据需要设置,例如包括本步骤上述的两项, 下面进行说明,设定时间段内记载的搜索记录中包含关于多个查询词的搜索行为,针对每 个查询词分别统计出其特征参数。 针对某一查询词,Qv为设定时间段内该查询词被搜索的总次数,对设定时间段内 关于该查询词的搜索行为进行累加,得到的结果便为总次数。 搜索记录中还包含各次搜索行为输入的URL地址,正常地,针对某次搜索行为,用 户先输入前驱行为URL地址,然后再输入关于查询词的URL地址;一般地,前驱行为URL地 址为搜索网站主页。举例说明,前驱行为URL地址为www. bdui. com,用户输入查询词专 利,相应地,后续记录的URL地址为http://www. bdui. com/s ? wd=专利&rsv......;正 常地,搜索行为中记录有前驱行为URL地址;如果为机器操作,则直接多次输入后续URL地 址,而没有前驱行为URL地址,这里统计出某查询词没有前驱行为URL地址的次数,作为前 驱行为为空的查询次数NoreferQv。对应地,搜索记录中包含前驱行为URL地址的搜索行便 为前驱行为非空的搜索,统计出某查询词有前驱行为URL地址的次数,作为前驱行为非空 的查询次数referQv。 通过搜索记录,还可获知用户搜索各次查询词之后是否对搜索条目进行了点击, 例如搜索关于查询词专利的搜索条目后,是否点击了搜索条目;对有点击的搜索行为数 目进行统计,得到的结果作为有点击行为的查询次数CQv。进一步地,还可以统计针对搜索 条目的点击次数,针本文档来自技高网
...
进行数据搜索的方法及搜索服务器

【技术保护点】
一种进行数据搜索的方法,其特征在于,该方法包括:从搜索日志中提取出设定时间段内的搜索记录;从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;由查询词的特征参数确定查询词是否为异常查询词;对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。

【技术特征摘要】
1. 一种进行数据搜索的方法,其特征在于,该方法包括: 从搜索日志中提取出设定时间段内的搜索记录; 从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次 数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv ; 由查询词的特征参数确定查询词是否为异常查询词; 对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。2. 如权利要求1所述的方法,其特征在于,所述特征参数还包括CQv、NoEentryQv、 SentryQv和URLQv中的至少一种。3. 如权利要求1所述的方法,其特征在于,所述由查询词的特征参数确定查询词是否 为异常查询词,包括:判断NoReferQv/Qv是否大于第一设定阈值,如果是,则将查询词确定 为异常查询词。4. 如权利要求3所述的方法,其特征在于,所述特征参数还包括对查询词对应的查询 结果有点击行为的查询次数CQv,判断NoReferQv/Qv不大于第一设定阈值之后,该方法还 包括: 判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查询词 确定为异常查询词。5. 如权利要求4所述的方法,其特征在于,所述判断NoReferQv/Qv是否大于第一设定 阈值之前,该方法还包括: 判断Qv是否大于第四设定阈值,如果是,则执行所述判断NoReferQv/Qv是否大于第一 设定阈值的步骤,第四设定阈值小于第三设置阈值;否则,将查询词确定为非异常查询词。6. 如权利要求4或5所述的方法,其特征在于,所述特征参数还包含查询词对应的搜索 行为没有标明来源渠道的查询次数NoEentryQv,以及查询词对应的搜索行为来源渠道为特 定渠道的查询次数SentryQv ;判断不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈 值之后,该方法还包括: 判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询词;否 则判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询词。7. 如权利要求6所述的方法,其特征在于,所述特征参数还包含统一资源定位符URL信 息错误次数URLQv,所述URLQv表示查询词对应的URL信息中含有的标签与实际情况不相符 合的次数;所述判断NoEentryQv/Qv不大于第六设定阈值之后,该方法还包括: 判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词。8. 如权利要求1所述的方法,其特征在于,该方法还包括: 接收包含过程信息的查询过程输入信息; 从联想词库中获取与过程信息关联的联想词,去除其中标记为异常查询词的联想词, 将剩余的联想词反馈给搜索客户端在智能提示栏中进行显示; 接收包含查询词的查询请求; 从相关搜索词库中获取与查询词关联的相关搜索词,反馈给搜索客户端在相关搜索栏 中进行显示。9. 一种进行数据搜索的搜索服务器,其特征在于,该搜索服务器包括搜索记录提取单 元、特征参数统计单元、异常查询词确定单元和标记单元; 所述搜索记录提取单元,从搜索日志中提取出设定时间段内的搜索记录,发送给所述 特征参数统计单元; 所述特征参数统计单元,从搜索记录中统计出对应查询词的特征参数,发送给所述异 常查询词...

【专利技术属性】
技术研发人员:王顼唐文宁禹荣凌岑植旺
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1