当前位置: 首页 > 专利查询>清华大学专利>正文

搜索辅助系统、搜索辅助方法及程序技术方案

技术编号:3962018 阅读:185 留言:0更新日期:2012-04-11 18:40
搜索辅助系统、搜索辅助方法及程序,搜索辅助系统10,具有:将客户端发来的搜索关键词发送至搜索服务器28、提交搜索请求的技术手段;将返回的搜索结果列表发送至客户端24、促使其进行基准网页选择的技术手段;在收到返回的基准网页选择信息时,将该基准网页的文本分解为语素单位,并提取特定词性相关的关键词的技术手段;将以AND条件连接各被提取关键词与搜索关键词的搜索公式发送至搜索服务器28、提交搜索请求的技术手段;在返回的各搜索公式相关的搜索结果列表中,按各页排序自上而下提取出20个网页作为相似候选网页的技术手段;可计算各搜索公式相关的相似候选网页间相似度的技术手段;将相似度最高的20个搜索公式相关的被提取关键词认定为重要词语的技术手段;在所有的相似候选网页中将包含3种以上重要词语的网页认定为相似网页的技术手段;将相似网页列表画面40发送至客户端24的技术手段。

【技术实现步骤摘要】

本专利技术涉及一种搜索辅助系统、搜索辅助方法以及搜索辅助程序,特别是用于有 效率地提取符合用户意图网页的技术。
技术介绍
如今,通过向Google (注册商标)或Yahoo !(注册商标)等因特网上的搜索网 站发送搜索关键词,任何人都可以轻松地获得各种信息。比如,正在考虑买入某股票品种的的普通投资者,只要在搜索网站的搜索栏里输 入该品种的企业名称,提交搜索请求,关于该企业的网页列表就会作为搜索结果返回,显示 在Web浏览器上。投资者由此对新闻报道、消息发布、博客文章等逐个阅览,以确认该企业的最新动 向。而如果发现新产品信息或丑闻等可能对股价造成影响的报道,则可通过将该报道 中使用的合适关键词添加到企业名后,继续进行进一步搜索,从而得以集中收集到所需信 肩、ο非专利文献1Google网络 URL :http //www. google, co. jp/搜索日期平成22年1月16日非专利文献2Yahoo ! JAPAN网络 URL :http://www. yahoo, co. jp/搜索日期平成22年1月16日
技术实现思路
传统的利用搜索网站的搜索方式,需要用户自己选定追加的关键词并将其再次输 入搜索网站,在得到所期望的搜索结果前需要不断重复操作,非常麻烦。本专利技术意在解决传统方法中的该问题,以实现能高效率地提交符合用户搜索意图 网页的技术为目的。为了达到上述目的,要求项1中所记载的搜索辅助系统具备以下特征,即包含了 将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求的技术手段;将搜索服务器发来的记有搜索结果列表的图像发送至客户端、促使其进行基准网 页选择的技术手段;在收到来自客户端的基准网页选择信息时,将该基准网页的文本分解为语素单 位,并提取特定词性相关的关键词的手段;对每一个被提取关键词生成以与(AND)条件将其与上述搜索关键词相连的搜索 公式,并将各搜索公式发送至搜索服务器、提交搜索请求的技术手段;在搜索服务器返回的各搜索公式相关的搜索结果列表中,按各页排序自上而下提取出所定数目的网页作为相似候选网页的手段;可计算各搜索公式相关的相似候选网页间相似度的计算方法;将相似度高的指定数目的搜索公式相关关键词认定为重要词语的技术手段; 在上述所有的相似候选网页中,将包含多于指定数目的上述重要词语的网页认定 为相似网页的技术手段;生成含有该相似网页列表的页面并将其发送至客户端的技术手段。要求项2中所记载的搜索辅助系统以要求项1中的系统为前提,而其中页面间相 似度计算方法,其特征在于将各搜索公式相关的相似候选网页中的某一相似候选网页设 定为比较对象网页,并分别计算该比较对象网页与其余相似候选网页间的相似度,在所有 计算结果中按序抽出指定数目的结果,计算出这些相似度结果的平均值作为临界值;重复 以上所有处理直至该搜索公式相关的所有相似候选网页都被设定为比较对象网页后,将得 到的所有临界值中的具有最大值的临界值设定为该搜索公式相关的页面间相似度。要求项3中所记载的搜索辅助系统以要求项2的系统为前提,而其中页面间相似 度计算方法,其特征在于以下处理将上述比较对象网页与其他相似候选网页分解为语素 单位,从各网页提取出与指定词性相关的语素,计算被提取的各语素的TF-IDF值,并根据 各语素的该TF-IDF值将各网页进行矢量化处理,计算比较对象网页矢量与其他相似候选 网页矢量的标量积(dot product),作为两个网页之间的相似度。要求项4中所记载的搜索辅助方法,其特征由以下步骤组成将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求;将搜索服务器发来的记有搜索结果列表的图像发送至客户端、促使其进行基准网 页选择;在收到来自客户端的基准网页选择信息时,将该基准网页的文本分解为语素单 位,并提取特定词性相关的关键词;对每一个被提取关键词生成以AND条件将其与上述搜索关键词相连的搜索公式, 并将各搜索公式发送至上述搜索服务器、提交搜索请求;在搜索服务器返回的各搜索公式相关的搜索结果列表中,按各页排序自上而下提 取出所定数目的网页作为相似候选网页;可计算各搜索公式相关的相似候选网页间相似度的页面间相似度计算;将相似度高的指定数目的搜索公式相关关键词认定为重要词语的步骤;在上述所有的相似候选网页中,将包含多于指定数目的上述重要词语的网页认定 为相似网页;生成记有该相似网页列表的页面并将其发送至上述客户端。要求项5中所记载的搜索辅助工具,其特征在于使计算机发挥以下功能将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求的功能;将搜索服务器发来的记有搜索结果列表的图像发送至客户端、促使其进行基准网 页选择的功能;在收到来自客户端的基准网页选择信息时,将该基准网页的文本分解为语素单 位,并提取特定词性相关的关键词的功能;对每一个被提取关键词生成以与(AND)条件将其与搜索关键词相连的搜索公式,并将各搜索公式发送至搜索服务器、提交搜索请求的功能;在搜索服务器返回的各搜索公式相关的搜索结果列表中,按各页排序自上而下提取出所定数目的网页作为相似候选网页的功能;可计算各搜索公式相关的相似候选网页间相似度的页面间相似度计算功能;将相似度高的指定数目的搜索公式相关关键词认定为重要词语的功能;在上述所有的相似候选网页中,将包含多于指定数目的上述重要词语的网页认定 为相似网页的功能;生成记有该相似网页列表的页面并将其发送至上述客户端的功能。 附图说明图1显示本专利技术相关的搜索辅助系统的功能构成的区块图图2显示本搜索辅助系统的整体性处理程序的流程图图3搜索结果列表画面展示图图4显示相似网页提取相关程序的概念图图5相似网页列表画面展示图图6显示页面间相似度的计算程序的流程图图7显示页面间相似度的计算程序的概念图图8显示使用TF-IDF及矢量空间法的相似度具体计算程序的流程图图9显示使用TF-IDF及矢量空间法的相似度具体计算程序的说明图图10显示使用TF-IDF及矢量空间法的相似度具体计算程序的说明图符号的说明10搜索辅助系统12搜索中继处理部14关键词提取处理部16页面间相似度计算处理部18推荐网页选择处理部19搜索辅助服务器20网络服务器22因特网24客户端26因特网28搜索服务器30搜索结果列表画面32复选框34 “查看相似网页”按钮40相似网页列表画面50DF辞典(页面文档频率索引表)具体实施例方式图1是表示本专利技术相关的搜索辅助系统10的功能结构图,由具备搜索中继处理部 12、关键词提取处理部14、页面间相似度计算处理部16和推荐网页选择处理部18的搜索辅 助服务器19、以及网络服务器20组成。 上述搜索中继处理部12、关键词提取处理部14、页面间相似度计算处理部16和推 荐网页选择处理部18,是通过搜索辅助服务器19的CPU根据OS以及应用程序进行必要处 理而得以实现的。搜索中继处理部12及推荐网页选择处理部18,通过网络服务器20及因特网22, 与用户进行操作的客户端24相连接。另外,搜索中继处理部12通过因特网26,与Google (注册商标)和Yahoo !(注 册商标)等搜索网站28相连接。搜索网站28载有搜索引擎,具有在参照索引信息提取包括 用户输入的搜索关键词在内的网页的同时,按照指定算法将被提取网页进行排序本文档来自技高网...

【技术保护点】
一种搜索辅助系统,其特征在于具有:将客户端发来的搜索关键词发送至搜索服务器、提交搜索请求的技术手段,将搜索服务器发来的记有搜索结果列表的图像发送至客户端、促使其进行基准网页选择的技术手段,在收到来自客户端的基准网页选择信息时,将该基准网页的文本分解为语素单位,并提取特定词性相关的关键词的技术手段,对每一个被提取关键词生成以AND条件将其与上述搜索关键词相连的搜索公式,并将各搜索公式发送至搜索服务器、提交搜索请求的技术手段,在搜索服务器返回的各搜索公式相关的搜索结果列表中,按各页排序自上而下提取出所定数目的网页作为相似候选网页的技术手段,可计算各搜索公式相关的相似候选网页间相似度的页面间相似度计算方法,将相似度高的指定数目的搜索公式相关关键词认定为重要词语的技术手段,在上述所有的相似候选网页中,将包含多于指定数目的上述重要词语的网页认定为相似网页的技术手段,生成记有该相似网页列表的页面并将其发送至上述客户端的技术手段。

【技术特征摘要】

【专利技术属性】
技术研发人员:李春平王益斌阿部昌平
申请(专利权)人:清华大学株式会社野村综合研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1