当前位置: 首页 > 专利查询>微软公司专利>正文

用于搜索术语建议的多种类型数据的加强群集制造技术

技术编号:2921006 阅读:217 留言:0更新日期:2012-04-11 18:40
用于相关的术语建议的系统和方法被描述。一方面,在两个或多个多种类型数据对象的单个个体中的关系被鉴别。多种类型数据对象的单个个体包括至少一个第一种类型的一个对象和一个与该第一种类型不同的一个第二种类型的一个对象。该多种类型数据对象由于这些关系的单个个体而反复地被群集化以生成加强群集体。

【技术实现步骤摘要】

本公开文献涉及一种数据采集,更特别地,涉及不同对象的群集以改善用于搜索术语建议的系统和方法。一个关键词或短语是当网络冲浪者在万维网(WWW)上搜索一相关网页/网站通过搜索引擎时提交的一个词语或术语集。搜索引擎基于出现在网页/网站上的关键字和关键字短语决定一个网站的依赖性。由于使用搜索引擎导致的网站流量的重要百分比,网站发起者知道选择合适的关键词/短语对于提高网站流量以获得所需要的公开是至关重要的。用于搜索引擎结果最优化的用来鉴别依赖于一网站的关键词的技术包括,例如,利用对一个人网站的内容和目的的评估以鉴别相关关键词。该评估可以包括一关键词通用工具的使用。该工具决定多少人提交了一特定的关键词或者包括该关键词的短语给一搜索引擎。依赖于网站的和被决定要被经常用在生成搜索查询的关键词一般被选为与该网站相关的搜索引擎结果最优化。在鉴别一组用于该网站的搜索引擎结果最优化的关键词之后,一发起者可能期望在搜索引擎的结果中提高一网站至一个更高位置(与所显示的其他网站搜索引擎结果的位置相比)。为此目的,发起者查询关键词以指示发起者每次一网上冲浪者点击与该关键词相关的发起者的列表将花费多少时间。换句话说,关键词查询是对每次点击付费。对于相同的关键词与其他查询相比,该关键词查询的量越大,利用搜索引擎基于该关键词的搜索结果显示的相关网站就越高(在相关重要性上更显著)。用来鉴别查询术语与网站内容相关的传统的系统和技术典型地使用群集算法以将一个对象集合分成一些组或簇,通过这样一种方式,来自相同的簇中的对象是相似的而来自不同簇中的对象是不相似的。这种群集方式假设要被群集的数据对象是独立的并且是鉴别级的,并且经常被特征和属性值的固定长度的矢量所塑造。从数据采集搜索的最近的急剧上升来看,这个古典的问题被在大型数据库的上下文中重新检测了一遍。然而,所提议的挑战对于这种假设,即使一些应用出现,例如网络采集和合作过滤,要被群集的同种的数据对象看起来仍然是基本的假设。在这样的应用中,数据对象是不同类型的并且相互之间是高度联系的。不幸的是,即使分布在不同对象类型上的对象相互间可以高度联系,典型地传统的群集操作独立地分别群集对象类型,并且不用考虑任何不同对象类型的相互联系的方面。它的其中一个原因就是因为不同类型的数据对象之间是经常很稀疏的并且难以鉴别。另一个原因是因为任何这种具有一个静态的固定长度值矢量的关系的代表分别附于各自的对象,其中该矢量代表对象属性和相联系的不同类型的对象的属性,会创建具有很高维数的(特征空间)对象属性/特征矢量。这种高维数不是所需要的,因为该数据在特征空间里会彼此远离,并且有效的模型不能利用小范围的少量数据而被有效地训练。因此,用来鉴别和组成在通过不同数据对象的关系的相关对象(例如,术语)的更好的群集技术将会很有用。这些群集技术将会被使用,例如,来提供鉴别用于搜索引擎最优化和术语查询的系统和方法,以及还提供具有持续高可能性的相关术语的鉴别。概述用于相关术语建议的方法和系统已经描述了。在一个方面,在两个或多个多类型数据对象中的每一个的内层和/或中间层的关系被鉴别。多类型数据对象中的每一个包括至少一个第一类型的对象和与该第一类型不同的至少一个第二类型的对象。多类型数据对象在单个的关系来看被重述为群集以生成加强群集。附图的简要描述在这些图形中,元件参考编号的最左边的数字表示在该图形中该元件第一次出现。附图说明图1示出了一多层框架图形100,其中的图形包括不同数据对象/节点的多个层102和相关中间层和中间层数据对象连接/关系。图2说明了一用于搜索术语建议的多种类型数据对象的加强群集的典型系统。图3说明了一用于搜索术语建议的多种类型数据对象的加强群集的典型过程。图4是图3中一用于搜索术语建议的多种类型数据对象的加强群集的典型过程300的后续部分。图5是图3和4中一用于搜索术语建议的多种类型数据对象的加强群集的典型过程300的后续部分。图6说明了图3中块312的加强群集操作的典型细节。图7说明了图3和6的块312的加强群集操作的典型的后续部分。图8示出了在其中后续的用于搜索术语建议的多种类型数据的加强群集的描述系统,设备和方法可以被全部或部分执行的典型的合适的计算环境。详细描述概况图1示出了一其中包括相关的不同对象数据类型的典型的多层框架100。框架100包括不同数据对象/节点的多个层102和相关中间层和中间层数据对象连接/关系。每层从102-1到102-N分别包括一个相同类型(不同)数据对象或节点的集合。也就是节点集P包括每个都是相同数据类型的一个或多个数据对象p1到pj,节点集U包括每个都是相同数据类型的一个或多个数据对象u1到uk,等等。因此,在不同的每个层102中的数据对象的类型与相关的另一个是不同的。在这个执行过程中,例如●层102-1是一包括搜索查询数据对象/节点p1到pj的已采集的搜索查询。搜索查询对象包括查询术语和单个的采集来自一查询日记的历史查询的代表。●层102-2是一包括网页对象/节点u1到uk的已采集的网页层。●层102-3是一已采集的用户层并且包括用户信息对象/节点w1到wm。●层102-N被示出用来说明其可以表示为分别组成不同数据对象x1到xo的任何编号。在一对数据对象之间延伸的线/连接分别代表决定在每个单个数据对象之间的已采集的关系。在群集的某些实施例中,线/连接被称为“边缘”。广义化的术语线或连接被用在本公开文献中来描述连接,边缘,或一个对象与另一个对象的描述这两个对象之间一种关系的任何连接。连接方向(如由指示的在数据对象之间的关系箭头提供的)可以作为参与对象属性的功能而指向任何一个方向。这些连接被认为仅仅是示例性的而并不是在范围上的限定。在网站环境中的某些连接例如由框架100所代表的可以更适当地指向一个方向,并且箭头的方向典型地不会影响下面将要描述的加强群集操作。在对象对之间的连接可以被分类为内部层或中间层连接。一内部层连接是在相同类型的不同对象之间的一种鉴别关系的说明。因此内部层连接104与其中具有一相同层102的对象相连。例如,在一单独的数据对象对之间的实线104代表一内部层连接。在这个例子中,一内部层连接自一网页对象u2延伸至另一网页对象u3,并且代表了不同网页之间的关系。一中间层连接描述了不同类型数据对象之间的关系。由于中间层连接在一对不同对象的各自之间延伸,每个参与的数据对象对被展示在一不同的单个数据对象/节点集层102上。如图1所示,任何与一对象对相连的线不是一实线的线就是一中间层连接。例如,连接106是自一个第一个对象对到一第二个对象对的一个索引的指示(例如,一超级连接),连接/线108是一自一个第一个对象对到一第二个对象对的问题共享/参考(例如,主题)的指示,连接/线110是自一个第一个对象对到一第二个对象对的浏览器连接的指示。在另一个例子中,一个连接可以自一用户对象w4延伸至一搜索查询对象p5以及一网页对象u5,并且代表用户提交一返回一由该用户选定的相关的网页的查询。在图1的例子中,以及如单个的内部和中间层连接所示,不同的对象类型(p,u,w,...)是相关的。例如,一个用户(由一对象w表示)进行一个查询(对象p);该用户浏览通过一响应于所进行的查询的接收而返本文档来自技高网...

【技术保护点】
一种方法包括:鉴别在两个或多个多种类型数据对象中各个对象之间的关系,其中所述各个对象包括至少一个第一类型的对象和至少一个与该第一类型不同的第二类型的对象;以及考虑到这些关系中的各种关系,反复地群集所述多种类型数据对象以生成加 强的群集体。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:B张HJ曾L李T纳吉姆马维英Y李陈正
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1