当前位置: 首页 > 专利查询>谷歌公司专利>正文

生成结构化信息制造技术

技术编号:2831587 阅读:189 留言:0更新日期:2012-04-11 18:40
从例如商业数据提供商、企业网站和/或目录网站的一个或多个源来获取关于企业的结构化和/或非结构化数据。从非结构化数据中抽取字符串。该字符串包含描述关于企业的事实的键-值对。解析抽取的字符串以将键和值标准化,并且将它们置入机器可理解的结构化表示。某些键和/或值不能被标准化。将事实与相关于该事实的企业进行集群。比较来自于不同源的标准化事实,并且对该事实赋予置信度和/或权重。使用这些置信度和权重来选择在目录中所述企业的页面上显示的事实。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术通常涉及从网络中抽取信息,并且尤其涉及从网络上的 电子文档构建结构化信息的集合。
技术介绍
很难找到因特网或者其他网络上的信息。搜索引擎允许用户定 位具有特定特征的内容。然而,在某些情况下,因特网上可获得的 极大量信息削弱了搜索引擎的效力。例如,使用例如汤姆的餐馆 的普通名称来搜索餐馆的人将接收到大量匹配的结果,通过这些结 果,这个人肯定对找到正确的餐馆感到费力。对于太多信息,,问题的一个补救方式是在较小的信息集合上 进行搜索。搜索引擎可以允许个人搜索对于特定城市或者其他地理 区域的专用目录。那样,搜索纽约(NY)的汤姆的餐馆,,的个人 可以指定将搜索限制为仅位于纽约市的餐馆。结果,很可能存在较 少的搜索结果,并且对于搜索者来说,更加容易找到正确的结果。 而且,本地目录可以提供附加的特征,例如提供显示餐馆位置的地 图。构建具有强大功能性的目录是复杂的过程。获得特定类型的信 息相对容易,例如一个城市内的餐馆和其他企业的名称、地址和电话号码。电话公司和其他数据提供商经常出售这类信息。然而,为 了有效性,目录应该包括附加信息,不能从标准信息提供商获得例 如营业时间、预定方式,支付选项和是否可以停车的附加信息。理 想地,目录将以结构化格式保存此信息,该结构化格式支持复杂的 查询,例如查找星期二午夜后开门的餐馆以及显示代客泊车 且接受预订的餐馆,,。由于难以收集和表示这种信息,还没有创建 此类目录。经常地,在因特网上可以获得构建这种目录所需的信息。餐馆 可能拥有自己的网页页面,该网页页面提供例如它的营业时间和预 定方式的重要细节。类似地,可能存在包括餐馆条目的一个或多个 现存的网页目录。然而通常地,此信息处于非结构化或结构化的不 合适的方式。例如,餐馆的网页页面可通过使用短语周一关门 来描述它的营业时间,而现存的本地目录将相同的信息表示为开门周二至周日(Open: TWTHFS ),,。这种以多种方式表达相同信 息使得难以构建统一的目录,该统一的目录具有从多个不同的源获 取的结构化信息。因此,在现有技术中需要一种方式来针对目录构建结构化的、 或至少部分结构化的信息集合。
技术实现思路
通过 一 种用于生成结构化数据的系统、方法和计算机程序产品 来满足上述需要。在一个实施例中,该系统包括数据获取模块,用 于接收电子文档,该电子文档包含描述关于企业的事实的非结构化 数据。该系统还包括数据抽取模块,用于从电子文档中抽取描述关 于企业事实的非结构化数据。并且,该系统包括数据解析模块,用 于接收抽取的非结构化数据并且创建由非结构化数据描述的事实的 结构化表示。附图说明 图1是根据本专利技术一个实施例的用于从多个非结构化和/或结构 化源中生成结构化信息的计算环境的高级框图。图2是根据一个实施例的示出用作图1环境中所示一个实体的 计算机的高级框图。图3是示出了根据一个实施例的结构生成引擎内的模块的高级框图。图4是示出了根据一个实施例的由值标准化模块用以标准化营 业时间所执行步骤的流程图。图5是示出了根据一个实施例的由结构生成引擎所执行步骤的流程图。仅出于说明的目的,附图描述了本专利技术的实施例。本领域的^支 术人员将从以下描述中容易地认识到,在不脱离在此所述的本专利技术 的原理的情况下,可以使用在此示出的结构和方法的可替换实施例。具体实施方式 I.概述图1是根据本专利技术一个实施例的计算环境100的高级框图,该 计算环境100用于从多个非结构化和/或结构化源中生成结构化信 息。图1示出了耦合到结构化信息数据库112的结构生成引擎110。 结构生成引擎110连接到网络114,网络114还连接到商业数据提供 商116、企业网站118和目录网站120。在某些实施例中,不存在后 面这三个实体中的一个或多个。在最高级别上,结构生成引擎110从网络114上的多个源收集 数据。该数据是非结构化的或结构化的。结构生成引擎110解析数 据以创建结构化事实。结构化信息数据库112存储结构化事实。作 为搜索查询和/或响应于另 一 针对信息请求的结果,结构化事实经由 网络114呈现为本地目录中的条目。结构化数据是已经组织过的数据,用以允许将数据的键(即, 上下文)与内容进行标识和分离。计算机或其他机器可以理解结构化数据。例如,考虑以结构TN: xxx-xxx-xxxx,,组织的电话号码, 其中x表示数字。遇到以此格式组织的数据(例如TN: 212-864-61 37)的计算机实现的处理可以确定该数据的键是电话 号码,并且该号码的值是212-864-6137。非结构化数据是没有以特 定格式组织的数据,并且其中难以确定上下文和内容。半结构化数 据是部分组织过的数据。结构生成引擎110是从网络114上的多个源收集、并且将数据 结构化的硬件和/或软件设备。引擎110包括用于经由网络114与多 个数据源接口连接的功能性。例如,引擎110包括用于从一个或多 个商业数据提供商116接收数据的接口 。同样地,引擎110可以从 例如企业网站118和目录网站120的网站获取网页页面和/或其他电 子文档。引擎110分析所接收数据以标识由键-值对形成的事实。引 擎110标准化事实的键和值以产生结构化数据。在一个实施例中,结构生成引擎110接收关于对例如城市的特 定地理区域是本地的企业的数据。企业是商业机构、学校、政 府机关、非盈利性组织和/或其他类似实体。在一个实施例中,企业 是餐馆,并且由结构生成引擎110接收的数据涉及餐馆的方面,例 如它的营业时间、预订方式和4妻受的支付方法。然而,本领域4支术 人员应该理解,可以使用结构生成引擎110将餐馆之外的企业的信 息结构化。另外,不需要将结构生成引擎110接收的数据限制于特 定地理区域。结构化事实数据库112存储由结构生成引擎110生成的和/或来 自于其他源的结构化事实。在一个实施例中,结构化信息数据库112 是关系数据库,该关系数据库支持以结构化查询语言(SQL)进行的 查询。其他实施例利用不同类型的数据库。在一个实施例中,利用数据库112中关于企业的结构化事实来 支持用于地理区域的本地目录。使得本地目录中的事实在网络114 上的网站上变得可用。例如使用计算机、蜂窝电话或其他网络连接 设备的个人的终端用户,可以访问目录并且请求关于企业的事实。例如,终端用户可以发布针对特定餐馆的查询。作为响应,本地目 录返回描述关于该餐馆事实的一个或多个网页页面,例如它的名称、 电话号码、地址、营业时间、预订方式、停车可用性、可接受支付 选项等。在某些实施例中,该终端用户可以发布其他类型的查询,例如针对特定地点半径内的所有餐馆、接受预订的所有餐馆和/或10 PM后开门的所有餐馆的查询。这种本地目录的一个例子是乂人加州山 景城的GOOGLE公司可获得的GOOGLE本地(GOOGLE LOCAL)服务。在图1中示出的商业数据提供商116表示一个或多个商业数据 提供商,该一个或多个商业数据提供商在某些实施例中向结构生成 引擎110提供数据。商业数据提供商的例子包括例如电话公司的电 信提供商、例如报纸公司的媒体提供商和例如D&B公司的商业目录 提供商。在某些实施例中,商业数据提供商116提供描述关于一个 区域(例如,企业的名称、地址和电话本文档来自技高网
...

【技术保护点】
一种用于生成结构化数据的系统,包括:数据获取模块,用于接收电子文档,所述电子文档包含描述关于企业的事实的非结构化数据;数据抽取模块,用于从所述电子文档中抽取描述关于所述企业的事实的非结构化数据;以及数据解析模块,用于接收所述抽取的非结构化数据以及创建由所述非结构化数据描述的事实的结构化表示。

【技术特征摘要】
【国外来华专利技术】US 2005-3-2 60/658,214;US 2006-3-1 11/366,1621.一种用于生成结构化数据的系统,包括数据获取模块,用于接收电子文档,所述电子文档包含描述关于企业的事实的非结构化数据;数据抽取模块,用于从所述电子文档中抽取描述关于所述企业的事实的非结构化数据;以及数据解析模块,用于接收所述抽取的非结构化数据以及创建由所述非结构化数据描述的事实的结构化表示。2. 根据权利要求1所述的系统,其中所述数据获取模块包括网页爬行模块,用于从耦合到网络的 一个或多个网站中获取包 含非结构化数据的网页。3. 根据权利要求2所述的系统,其中所述网页爬行模块包括专 用爬行器,所述专用爬行器适合从特定网站中获取具有描述企业的 事实的网页页面。4. 根据权利要求1所述的系统,其中所述数据抽取模块分析所 述电子文档,以识别描述关于所述企业的事实的文档的部分。5. 根据权利要求1所述的系统,其中所述抽取的非结构化数据 包含键-值对,所述键-值对描述关于所迷企业的事实,并且所述数 据解析模块包括键标准化模块,用于将所述抽取的数据中包含的描述关于所述 企业的数据类型的键进行标准化。6. 根据权利要求5所述的系统,其中所述键标准化模块将所述 键标准化为从包含以下内容的集合中选择的键类型名称、地址、电话号码、营业时间、预订方式、可达性、接受 的支付方式、停车、提供的服务和提供的品牌。7. 根据权利要求1所述的系统,其中所述抽取的非结构化数据 包含键-值对,所述键-值对描述关于所迷企业的事实,并且所述数 据解析模块包括值标准化模块,用于将所述抽取的数据中包含的描述所述企业 的值进行标准化。8. 根据权利要求7所述的系统,其中所述值标准化模块使用营 业时间解析器以将描述企业营业时间的非结构化数据标准化。9. 根据权利要求7所述的系统,其中所述值标准化模块将所述 值标准化为从包含以下内容的集合中选择的值类型名称、地址、电话号码、营业时间、预订方式、可达性、接受 的支付方式、停车、提供的服务和提供的品牌。10. 根据权利要求1所述的系统,其中所述数据解析模块创建 描述多个不同企业的多个事实的结构化表示,进一步包括数据集群模块,用于将所述事实的结构化表示与所述事实相关 的企业相关联。11. 根据权利要求1所述的系统,其中所述数据解析模块创建 描述所述企业的多个事实的结构化表示,进一步包括事实比较模块,用于比较描述所述企业的多个事实并且响应于 所述比较来建立针对所述事实的置信度。12. —种具有计算机可读介质的计算机程序产品,所述计算机可 读介质具有确实包含于其中的计算机程序指令,所述计算机程序产 品包括数据获取模块,用于接收电子文档,所述电子文档包含描述关 于企业的事实的非结构化数据;数据抽取模块,用于从所述电子文档中抽取描述关于所述企业的事实的非结构化数据;以及数据解析模块,用于接收所述抽取的非结构化数据以及创建由 所述非结构化数据描述的事实的结构化表示。13. 根据权利要求12所述的计算机程序产品,其中所述数据获 取模块包括网页爬行模块,用于从耦合到网络的 一个或多个网站中获取包 含非结构化数据的网页页面。14. 根据权利要求13所述的计算机程序产品,其中所述网页爬 行模块包括专用爬行器,所述专用爬行器适合从特定网站中获取具 有描述企业的事实的网页页面。15. 根据权利要求12所述的计算机程序产品,其中所述数据抽 取模块分析所述电子文档,以识别描述关于所述企业的事实的文档 的部分。16. 根据权利要求12所述的计算机程序...

【专利技术属性】
技术研发人员:E帕斯托D埃格诺
申请(专利权)人:谷歌公司
类型:发明
国别省市:US[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1