当前位置: 首页 > 专利查询>GOOGLE公司专利>正文

用于确定文档的含义以使文档与内容匹配的方法和系统技术方案

技术编号:3768155 阅读:258 留言:0更新日期:2012-04-11 18:40
本发明专利技术描述了用于确定文档的含义,以使文档与内容相匹配的系统和方法。在一个方面中,访问源文章;识别源文章中的多个区;确定至少一个与每个区相关联的局部概念;分析每个区的局部概念以识别任何不相关区;删除与任何不相关区相关联的局部概念,以确定相关概念;分析相关概念以确定源文章的源含义;以及使源含义和与来自一组条目的条目相关联的条目含义相匹配。

【技术实现步骤摘要】

本专利技术一般地涉及文档。更具体地,本专利技术涉及用于确定文档 的含义以4吏文档(document)与内容(content)相匹配的系纟克禾口方法。
技术介绍
例3口,文档(例3o网页)可以与互联网上的其它内容相匹配。 文档包4舌,例如,i者如HTML、 XML、 XHTML的各种格式的网页; 可移植文档才各式(PDF)文件;以及文字处理器和应用程序文档文件。使文档与内容相匹配的一个实例是在互联网广告中。例如,网 站的发行人可以允许在其网页上发布广告以收费。当发4亍人希望在 网页上向用户显示广告时,服务商能够向发行人冲是供在网页上显示 的广告。月l务商可以依据诸如关于用户的人口统计信息、网页类别 (例如,体育或是娱乐)、或网页内容的多种因素来选择广告。月良 务商也可以使网页内容与诸如来自关键字列表的关键字的知识条 目(knowledge item)相匹配。之后可以在网页上显示与匹配的关4建字相关联的广告。用户可以操作鼠标或另外的输入设备并"点击,,广告,以^L看^是供^寺售商品或月良务的广告商网站上的网页。在互联网广告的另 一 实例中,在发行人网页上在相关链接或类 似部分(section)中显示实际的匹配关键字。与上述实例类似,网 页的内容与一个或多个关4建字相匹配,之后该关4建字净皮显示在例如 相关链接部分中。当用户点击特定的关键字时,可以将用户引导至 可能包括广告和常规搜索结果的混合的搜索结果页面。广告商投标 关键字,以使他们的广告出现在这样的该关键字搜索结果页面上。 用户可以才喿作鼠标或另外的输入设备并"点击"广告,以观看才是供 ;降售商品和月良务的广告商网站上的网页。广告商希望网页的内容与广告密切相关,因为如果该广告与用 户在网页上所阅读的内容高度相关,则阅读该网页的用户更有可能 点击该广告并购买所提供的商品或服务。网页的发行人也希望广告 的内容与网页的内容相匹配,因为如果用户点击了广告,发行人通 常会获得才艮酬;而就每文感内容而言,不匹配是广告商或是发行人都 不希望的。文档(例如网页)可以包括多个区,诸如,就网页而言的框架 (frame)。 一些区可以与文档的主要内容不相关。因此,不相关区的内容可能用不相关的主题淡化整个文档的内容。因此,为了使文 档与内容相匹配,在确定源文档的含义时,需要分片斤最相关区的源文档。
技术实现思路
本专利技术的实施例包括确定文档的含义以使文档与内容相匹配 的系统和方法。本专利技术实施例的一个方面包括访问源文章(source article,源物、源文件);识别源文章中的多个区;确定与每个区相7关耳关的至少一个局部和X念(local concept);分析每个区的局部相无念, 以识別任何不相关区;删除与不相关区相关联的局部概念,以确定 相关概念;分析相关概念,以确定源文章的源含义;以及使源含义 和与来自一组条目的条目相关耳关的条目含义相匹配。该条目可以本 身是内容,或可以与内容相关联。在一个实施例中,本专利技术进一步 包括在源文章上显示匹配的条目。在另一实施例中,本专利技术进一步 包括在源文章上显示与该条目相关联的内容。本专利技术的其它方面是 指具有与前述的方面相关的特征的计算才几系统和计算才几可读介质。附图说明参照附图阅读以下具体实施方式,可以更好地理解本专利技术的这 些和其它特4正、方面、以及伊0点,附图中图l示出了根据本专利技术的一个实施例的系统的框图2示出了才艮据本专利技术的一个实施例的方法的流程图;以及图3示出了图2所示的方法的子程序的流程图。具体实施例方式本专利技术包括用于确定文档的含义以-使文档与内容相匹配的方 法和系统。下面将详细参照文中和附图中所示的本专利技术的典型实施 例。将在所有附图和以下i兌明中4吏用相同的附图标号表示相同或类 似的部分。可以根据本专利技术构建各种系统。图l是示出了本专利技术的典型实 施例可以在其中操作的典型系统的示意图。本专利技术还可以操作其它系统并在其它系统中实^L。图1中示出的系统100包括多客户机装置102a-n,服务器装置 104、 140和网络106。示出的网络106包括互耳关网。在其他的实施 例中,可以使用其他的网络,例如内联网。而且,根据本专利技术的方 法可在单个计算机上运行。示出的客户机装置102a-n每个均包括计 算机可读介质,例如在示出的实施例中被耦合到处理器110的随机 存储器(RAM) 108。处理器IIO执行存储在存储器108中的计算 机可执行的程序指令集。这种处理器可包括樣i处理器、ASIC、和状 态机。这种处理器包括或可以与介质(例如计算机可读介质)进行 通信,该介质存储指令,当指令被计算机执行时,使处理器执行本 文所描述的步骤。计算机可读介质的实施例包括,但是不限于此, 电子的、光的、磁的、或其他存储器或能够将计算机可读指令提供 给处理器(例如与触摸敏感的输入装置联系的处理器)的传输装置。 其他合适的介质包括,但是不限于此,软盘,CD-ROM,》兹盘,存 储器片,ROM, RAM, ASIC,配置的处理器(configured processor ), 所有光介质,所有^兹带、或其他^兹介质,或计算一几处理器能从其读 耳又指令的任何其他的介质。并且,各种其他形式的计算才几可读介质 可传输或运送指令到计算机,包括路由器,专用或公共网络,或其 他传输装置或通道,既有有线的又有无线的。这些指令可包括由任 《可计算才几编考呈i吾言(例如,包4舌C、 C++、 C#、 Visual Basic、 Java、 和JavaScript)编写的4气码。客户才几装置102a-n也可以包括许多外部或内部装置,例如鼠 标、CD-ROM、键盘、显示器、或其他输入或输出装置。客户机装 置102a-n的实例是个人计算机、数字助理、个人数字助理、便携式 电话、移动电话、智能电话、寻呼机、数字化板、便携式计算机、 基于处理器的装置、和类似类型的系统和装置。 一般而言,客户机 装置102a-n可以是任何类型的连接到网络106的基于处理器的平 台,并且其和一个或多个应用程序交互。示出的客户机装置102a-n 包括执行浏览器应用程序(例如,微软公司6.0版本的InternetExplorerTM,网景通ifU^司的7.1版本的Netscape NavigatorTM,以及 苹果公司1.0版本的Safari )的个人计算机。通过客户机装置 102a-n,用户112a-n能够通过网络106 ;f皮此通信以及与耦合到网络 106的其j也系统和装置ii/f言。如图l所示,月良务器装置104、 140也^皮耦合到网络106。示出 的文档服务器装置104包括执行文档引擎应用程序的服务器。示出 的内容服务器装置140包括执行内容引擎应用程序的服务器。系统 100也可以包括多个其他的月良务器装置。类似于客户才几装置102a-n, 每个示出的服务器装置104、 140包括耦合到计算机可读存储器118、 144的处理器116、 142。每个月良务器装置104、 140 ^皮描述为单一 的计算机系统,但是其可以被实现为计算机处理器的网络。服务器 装置104、 140的实例是服务器、大型计算机、网络计算机、基于 处理器的装置、和类似类型的系统和装置。客户机处理器110和服 务器处理器116、 142可本文档来自技高网
...

【技术保护点】
一种系统,包括: 客户设备;以及 一个或多个服务器计算机,被编程用于与所述客户设备相互作用并执行下列操作: 接收包含条目的源文档; 将所述源文档中的所述条目分配给概念集合中的概念; 确定所述源文档的最典型的全局 概念的集合; 基于所述源文档的格式化来识别所述源文档的区; 确定表示在每个所述区中的典型的局部概念; 将表示在所述每个区中的所述典型的局部概念与所述源文档的所述最典型的全局概念相比较,以识别第一区,在所述第一区中,所述典型 的局部概念不在所述最典型的全局概念中;以及 确定所述源文档的源含义,其中,从所述的确定中去除所述第一区的典型的局部概念。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:阿达姆J韦斯曼吉拉德伊斯雷尔埃勒巴兹
申请(专利权)人:GOOGLE公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1