本发明专利技术提供了一种用于处理搜索请求的系统和方法,包括分析所接收到的查询以提供被搜索信息的更完善理解。在一个实施例中,查询被解析为单元,其中可能包括查询的一个或多个单词或标记,并且单元在概念网络中相关。通过沿着感兴趣的维度将查询分类成子集和比较用于不同子集的概念网络来执行倾向分析。倾向信息可用于增强自动搜索工具对后续接收到的查询的响应。(*该技术在2024年保护过期,可自由使用*)
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及以下共同转让的待审美国专利申请于2003年4月4日提交的题为“Universal Interface System and Methods”的临时申请第60/460,222号;以及于2003年10月9日提交的题为“Systemand Methods for Search Processing Using Clustering of Units”的临时申请第60/510,220号。所有这些申请的披露均结合于此作为参考。
技术介绍
随着互联网和用户通过万维网(网络)可用的大量网页及媒体内容的出现,需要向用户提供用于从网络过滤和获取期望信息的改进的方法。已开发了搜索系统和程序以满足用户对获取期望信息的需要。这些技术,例如,可以通过Yahoo!、Google和其它站点来访问。典型地,用户输入查询并且搜索程序返回一个或多个关于查询的链接(在搜索网络的情况下)、文件和/或参考资料(在不同搜索资料库的情况下)。返回的链接可能与用户实际上寻找的内容紧密相关,或者它们可能与其完全不相关。查询结果的“相关度(relatedness)”可能部分地为所输入的实际查询和所使用的搜索系统(下层收集系统)的鲁棒性(robustness)的函数。相关度可以由用户主观地确定或者由用户可能一直寻找的内容客观地确定。用户输入的查询典型地由一个或多个单词(word)构成。例如,“hawaii”是一个查询,“new york city”也是如此,并且“new yorkcity law enforcement”也是如此。同样地,查询作为整体对于人的大脑不是完整的。换句话说,人们不按照查询自然地进行思考。它们是通过搜索引擎或查寻库目录的需要部分强加的人工构造。人们也不根据单个单词自然地进行思考。人们根据自然概念进行思考。例如,就由单词数目衡量的长度而言,“hawaii”和“new york city”是很不同的查询,但是它们共享一个重要的特征它们各由一个概念构成。然而,查询“new york city law enforcement”是不同的,因为它由两个截然不同的概念“new york city”和“law enforcement”构成。人们还按照概念之间的逻辑关系进行思考。例如,“lawenforcement”和“police”是相关概念,因为警察局是法律实施的重要机构;键入这些概念之一的用户可能对与其它概念相关的站点感兴趣,即使那些站点不包括用户正巧键入的特定单词或者短语。作为这种思考模式的结果,人们生来通过输入一个或多个自然概念建立查询,不单单是单个单词的可变长度序列,并且通常查询不包括用户可能知道的全部相关概念。同样,用户意图未必反映在查询的单个单词中。例如,“law enforcement”是一个概念,而分开的单词“law”和“enforcement”不单独地传达与单词组合时相同的用户意图。任何主要搜索提供方的当前技术,例如,MSN、Google或任何其它主要搜索引擎站点,均不以创建它们的人们的相同方式理解查询。例如,通常现存的搜索引擎搜索用户所输入的确切单词或短语,不是搜索潜在的自然概念或实际上在用户头脑中的相关概念。这可能是阻止搜索提供方识别用户的意图并且提供最佳的搜索结果和内容的最重要的原因。正如所看到的,需要改进搜索和接口技术来帮助提供更符合用户可能感兴趣的实际概念的结果并且增强用户的体验。
技术实现思路
本专利技术的实施例提供了一种用于处理搜索请求的系统和方法,包括分析所接收到的查询以提供所搜索的信息的更完善的理解。查询被解析成单元,其可能包括例如,查询的一个或多个单词或标记(token)。对查询的单元表示执行进一步分析以检测模式,例如在不同查询中使用的单元的类似组合。在查询中出现的单元连同第二(secondary)单元的类似组被分组成群集(cluster),并且可以根据与每个单元有关的第二单元的相似程度来对两个群集成员之间的关系分配权重。根据本专利技术的一个方面,对于查询的不同子集进行重复群集,其中,查询按照一个或多个维度被分类为子集。在一个实施例中,维度包括时间、个人特征或者用户的人口统计状况(demographics)(例如,年龄、性别、已知的兴趣、或用户简介)、地理维度(例如,物理位置或IP地址)、或表示查询之前的用户活动或内容的垂直维度(例如,当输入查询时用户在网站的何处)。这为查询的每个子集生成子集专用群集(或概念网络)。通过将相应子集专用概念网络与至少两个子集进行比较,生成关于单元或群集的倾向信息。下面的详细描述与附图一起,将为本专利技术的性质和优点提供更好的理解。附图说明图1是根据本专利技术的实施例的信息检索和通信系统的简化高层框图。图2是根据本专利技术的实施例的用于传输媒体内容的信息检索和通信网络的简化框图。图3是根据本专利技术的实施例的查询处理引擎的简化框图。图4是根据本专利技术的实施例的用于执行倾向分析的过程的流程图。图5是根据本专利技术的实施例的包括单元词典和相关处理信息的系统(包括某些方面的查询处理引擎)的简化框图。图6是示出作为一天中时间的函数的查询频率的倾向数据的图表。具体实施例方式图1示出了根据本专利技术的实施例的包括客户机系统20的信息检索和通信网络10的总体图。在计算机网络10中,客户机系统20通过互联网40或其它通信网络(例如,通过任何LAN或WAN连接)连接到任意数目的服务器系统501至50N。将在此描述,根据本专利技术,将客户机系统20配置成与任意的服务器系统501至50N进行通信,例如,访问、接收、检索和显示媒体内容和其它信息(例如网页)。在图1所示的系统中的若干组件包括在此不必详细解释的常规的、众所周知的组件。例如,客户机系统20可以包括桌面个人计算机、工作站、便携式计算机、个人数字助理(PDA)、移动电话、或任何无线应用协议(WAP)装置或任何能够直接或间接连接到互联网的其他计算装置。客户机系统20典型地运行浏览程序,例如微软的Internet ExplorerTM浏览器、Netscape NavigatorTM浏览器、MozillaTM浏览器、OperaTM浏览器、或在移动电话、PDA或其它无线装置的情况下的WAP浏览器等,允许客户机系统20的用户通过互联网40从服务器系统501至50N访问、处理和观看浏览器可用的信息和网页。客户机系统20典型地还包括一个或多个用户接口装置22,例如键盘、鼠标、触摸屏、笔等,用来与图形用户界面(GUI)进行互动,GUI以及由服务器系统501至50N或其它服务器提供的页面、表格和其它信息,由浏览器提供在显示器(例如,监控器屏幕、LCD显示器,等)上。本专利技术适于用在互联网上,互联网指网络的特定全球互联网络。然而,应当理解,可以使用其它网络或互联网(例如内联网、外联网、虚拟个人网络(VPN)、基于非TCP/IP的网络、任何LAN或WAN等)代替。根据一个实施例,客户机系统20和其所有的组件是能够使用中央处理器单元(例如Intel PentiumTM处理器、AMD AthlonTM处理器等)或多个处理器进行运行以及使包括计算机代码的应用程序运行的操作器。在此描述的用于操作和配置客户机系统20以进行通信、处理和显示数据和媒体内容的计算机代码被优选地下载并存储到硬盘上本文档来自技高网...
【技术保护点】
一种用于处理查询的方法,所述方法包括: 接收一组先前查询,其中,每个所述先前查询均包括一个或多个单元; 沿着维度将所述查询分类成子集; 为所述查询的每个子集产生一个或多个子集专用概念网络;以及 比较来自至少两个所述子集的相应子集专用概念网络,从而产生用于单元的倾向信息。
【技术特征摘要】
【国外来华专利技术】US 2003-11-12 10/712,3071.一种用于处理查询的方法,所述方法包括接收一组先前查询,其中,每个所述先前查询均包括一个或多个单元;沿着维度将所述查询分类成子集;为所述查询的每个子集产生一个或多个子集专用概念网络;以及比较来自至少两个所述子集的相应子集专用概念网络,从而产生用于单元的倾向信息。2.根据权利要求1所述的方法,其中,所述维度是时间维度。3.根据权利要求1所述的方法,其中,通过对用户的一个或多个人口统计学特征的引用来限定所述维度。4.根据权利要求1所述的方法,其中,所述维度是地理维度。5.根据权利要求1所述的方法,其中,所述维度是表示所述查询的用户上下文的垂直维度。6.根据权利要求1所述的方法,进一步包括接收后续查询;将所述后续查询解析成一个或多个组成单元;以及在形成对所述后续查询的响应时使用所述倾向信息。7.根据权利要求6所述的方法,其中,所述倾向信息用于解析所述查询的模糊术语。8.根据权利要求6所述的方法,其中,所述倾向信息用于建议相关搜索。9.根据权利要求6所述的方法,其中,所述倾向信息用于将响应数据分组。10.根据权利要求6所述的方法,其中,所述倾向信息用于选择用于显示的广告。1...
【专利技术属性】
技术研发人员:希亚姆卡普尔,
申请(专利权)人:雅虎公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。