当前位置: 首页 > 专利查询>谷歌公司专利>正文

命名实体的消歧制造技术

技术编号:6835982 阅读:228 留言:1更新日期:2012-04-11 18:40
使用消歧评分模型来在搜索查询和其它上下文中对命名实体消歧。使用包括关于命名实体的文章的文章知识库来开发评分模型。使用包括文章标题、重定向页面、消歧页面、超链接以及类别的知识库的各个方面来开发该评分模型。

【技术实现步骤摘要】

本专利技术一般涉及信息检索系统,更具体地涉及在文档和查询内的命名实体(named entity)的消歧(disambiguation)。
技术介绍
对命名实体的搜索是Web上最常见的搜索之一。这些类型的搜索包括对人、地点 (包括地理位置以及城市、州、国家等)、企业和其它组织、产品、书籍、电影等等的搜索。通常,命名实体是具有与其相关联的专有名词(或名词短语)或专有名称的任何事物。对命名实体的搜索典型地返回具有关于拥有与查询相同的名称(或甚至其一部分)的任何实体的相关信息的搜索结果集。因此,对“Long Beach(长滩)”的查询很可能返回关于在纽约州长岛的沿海城市的文档、关于在南加州的沿海城市的文档以及与词语“long(长)”和 “beach(海滩)”相关的文档。类似地,对“John Williams (约翰 威廉姆斯)”的查询将返回关于作曲家的文档、关于摔跤运动员的文档以及风险资本家,他们都共享该名称;对 “Python(巨蟒)”的查询将返回与编程语言有关的文档、与蛇有关的文档以及电影。于是潜在的问题是对命名实体的查询典型地有歧义,并且可以指相同种类的不同实例(例如,具有相同名称的不同人)、或指在不同种类中的事物(例如蛇的种类、编程语言或电影)。用于命名实体的搜索结果典型地根据查询词语的频率、页面排名或其它因素来排序,而不考虑查询的不同意义(例如名称所指的不同实体)。与不同实体有关的搜索结果易于被混合在一起。此外,还是因为搜索系统不识别名称的不同意义,所以即使用户正典型地搜索最佳描述命名实体(或相同名称的不同实体)的文档(页面),搜索结果也可能不一定包括这样的文档或不将这样的文档排名非常高。
技术实现思路
在本专利技术的一个方面中,在搜索期间使用命名实体文章的知识库来对实体名称消歧。知识库是根据文档(文章)的数据库构建的。文章包括与具有诸如“John Williams"(人),"Long Beach"(地点)、“Python” (电影、编程语言以及致命的蛇)的专有名称的命名实体、实体有关的文章。知识库包括提供对另外的歧义实体名称消歧的能力的某些特征。文章的文本提供与名称的特定意义相关联的上下文。文章还包含在实体名称的实例和链接到该名称的文章之间的链接。文章还包括将名称的替选或别名关联到特定命名实体文章的重定向文章。文章还包括对歧义名称的不同意义消歧的消歧文章。部分地使用在实体名称的每个实例和名称被链接到的相关联的文章之间的链接信息来获悉在上下文和名称的特定意义之间的关系。在评分模型中维护所获悉的关系。通过识别查询内的实体名称,并且使用评分模型来识别与该实体名称最密切关联的文章,于是可以对包括实体名称和附加关键词的搜索查询消歧。然后使用已消歧的名称和所识别的文章来扩增搜索结果,例如根据所识别的实体分组或组织相关文档。在本专利技术的另一个方面中,将在知识库中的文章(因此也将命名实体)与类别相关联。获悉在命名实体和类别之间的关系的力度并且将其并入评分模型,并且也使用其来对包含实体名称的查询消歧。在本专利技术的又一个方面中,评分模型可以用来识别未包括在知识库中的实体。本专利技术具有各种实施例,其包括作为计算机实现的过程、作为计算机设备、作为集成电路以及作为在通用或专用处理器上执行的计算机程序产品。附图说明图1示出了用于本专利技术的一个实施例的系统架构。图2示出了从命名实体字典选择实体和相关信息。图3示出了在文章的主体中的链接和管道链接(piped link)的示例。图4示出了消歧数据集的一部分。图5示出了在内容词语和类别之间的相互关系的示例。图6示出了用于生成消歧评分模型的概括方法。仅用于说明的目的,附图描述了本专利技术的各种实施例。本领域技术人员从下面的论述中将容易认识到,在不背离在此描述的本专利技术的原理的情况下可以使用在此示出的结构和方法的替代实施例。具体实施例方式现参考图1,示出了根据本专利技术的一个实施例的信息检索系统的系统架构。在该实施例中,系统100包括索引系统110、搜索系统120、展示系统130、前端服务器140、命名实体知识库150、字典模块155、命名实体字典160、消歧模块170以及数据准备模块180。系统100与文章的知识库200接口连接,所述文章包括关于命名实体的文章。系统100耦接到网络,并且通过这样的网络可以被任何类型的客户端装置访问。该系统具有两个基本的操作阶段生成已消歧的命名实体的集合以及表示特征和命名实体之间的关系的消歧排名模型230 ;以及第二,在查询处理期间使用消歧排名模型 230来识别并对包含实体名称的查询消歧。在生成阶段期间的全部操作如下。字典模块155从知识库200提取命名实体的字典(数据集)来形成命名实体字典160。从知识库200提取与包括在命名实体字典160中的命名实体相关联的文章来形成命名实体知识库150。数据准备模块180使用命名实体字典160以及在命名实体知识库150中的文章和命名实体文章的上下文(更普遍的特征)之间的超链接结构来创建消歧数据集220。消歧数据集220也可以包括用于识别与每个命名实体相关联的类别的类别信息。消歧模块170使用消歧数据集220来获悉在来自查询上下文的单词和来自类别分类的类别之间的关系的力度。消歧排名模型230用来对包含名称的 (任何类型的)查询消歧,以便帮助检索与查询相关的文档。第二阶段的全部操作如下。作为处理查询的先驱,通过访问各种网站190和其它文档集合,索引系统110负责根据文档内容(例如单词、词语、媒体)来对文档进行索引;索引系统110创建索引和内容数据库115以供在检索中使用。前端服务器140从客户端175 的用户接收查询,并且将这些查询提供给搜索系统120。查询可以是为了任何类型的信息, 但是在此感兴趣的是包括(或潜在包括)实体的名称的查询,对于所述实体的名称在命名实体知识库150中存在命名实体文章。搜索系统120负责搜索与搜索查询相关的文档(搜索结果),包括识别搜索查询中的任何实体名称,以及从内容数据库115检索与搜索查询相关的文档。搜索系统120还识别搜索结果中的实体名称,并且使用消歧排名模型230来对搜索结果中的命名实体消歧, 并且使用已消歧的名称来扩增搜索结果。扩增搜索结果包括例如根据已消歧的名称的各种意义来组织(或分组)搜索结果,基于已消歧的名称添加进一步(单独地或以组)识别或描述搜索结果的注释、摘录或其它内容,或前述的组合。例如,响应于对“John Williams" 的搜索,对于名称的任何数量的不同意义,搜索系统120可以将搜索结果分组成与作曲家 John Williams有关的一组文档,与摔跤运动员有关的第二组文档,与风险资本家有关的第三组文档等等。搜索系统120也可以选择性地包括(或排除)文档,例如,包括用于实体名称的每一个意义的一个文档(例如关于该实体的来自命名实体知识库150的文档)以及按相关性排名的剩余搜索结果。也可以容易地设计扩增的其它形式。搜索系统120将扩增的搜索结果提供给展示系统130 ;展示系统130将结果返回给客户端175。现进一步详细描述各种实施例的细节。信息检索系统100使用知识库200,其可以是信息检索系统100的一部分或独立于信息检索系统100(例如,由相同或不同的运营商或所有者维护)。知识本文档来自技高网
...

【技术保护点】
1.一种用于对专有名称消歧的方法,包括:接收包括专有名称的查询,所述专有名称在所述查询的上下文中出现;确定与所述专有名称相对应的命名实体;对于每一个相对应的命名实体,识别关于所述命名实体的命名实体文章,其中关于命名实体的每个命名实体文章不同于关于其他命名实体的命名实体文章;对于每个相应的命名实体,确定对在关于所述命名实体的命名实体文章与在包含所述专有名称的所述查询中的上下文之间的相似性进行测量的相似性分值;通过将所述专有名称与具有最高相似性分值的所述命名实体文章相关联来对所述专有名称消歧。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:拉兹万·康斯坦丁·布内斯库亚历山德鲁·马里乌斯·帕斯卡
申请(专利权)人:谷歌公司
类型:发明
国别省市:US

网友询问留言 已有1条评论
  • 来自[美国加利福尼亚州圣克拉拉县山景市谷歌公司] 2014年12月05日 08:46
    名为万物之始万物始于无名道生一一生二二生三三生万物这是来自易经的道家学说曰太极分阴阳为乾坤阴阳分四象四象分八卦衍生出八八六十四卦罗李华大相象无形大音无声大能不显大智若愚可见东方的早期智者在于设法确定事物的本原起因而非在一些生活琐碎事物上急于下定义用文字语言对事物的命名也是慎之又慎精益求精
    0
1