生成结构化信息制造技术

技术编号：2831587 阅读：193 留言：0更新日期：2012-04-11 18:40

从例如商业数据提供商、企业网站和／或目录网站的一个或多个源来获取关于企业的结构化和／或非结构化数据。从非结构化数据中抽取字符串。该字符串包含描述关于企业的事实的键－值对。解析抽取的字符串以将键和值标准化，并且将它们置入机器可理解的结构化表示。某些键和／或值不能被标准化。将事实与相关于该事实的企业进行集群。比较来自于不同源的标准化事实，并且对该事实赋予置信度和／或权重。使用这些置信度和权重来选择在目录中所述企业的页面上显示的事实。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术通常涉及从网络中抽取信息，并且尤其涉及从网络上的电子文档构建结构化信息的集合。
技术介绍
很难找到因特网或者其他网络上的信息。搜索引擎允许用户定位具有特定特征的内容。然而，在某些情况下，因特网上可获得的极大量信息削弱了搜索引擎的效力。例如，使用例如汤姆的餐馆的普通名称来搜索餐馆的人将接收到大量匹配的结果，通过这些结果，这个人肯定对找到正确的餐馆感到费力。对于太多信息，，问题的一个补救方式是在较小的信息集合上进行搜索。搜索引擎可以允许个人搜索对于特定城市或者其他地理区域的专用目录。那样，搜索纽约(NY)的汤姆的餐馆，，的个人可以指定将搜索限制为仅位于纽约市的餐馆。结果，很可能存在较少的搜索结果，并且对于搜索者来说，更加容易找到正确的结果。而且，本地目录可以提供附加的特征，例如提供显示餐馆位置的地图。构建具有强大功能性的目录是复杂的过程。获得特定类型的信息相对容易，例如一个城市内的餐馆和其他企业的名称、地址和电话号码。电话公司和其他数据提供商经常出售这类信息。然而，为了有效性，目录应该包括附加信息，不能从标准信息提供商获得例如营业时间、预定方式，支付选项和是否可以停车的附加信息。理想地，目录将以结构化格式保存此信息，该结构化格式支持复杂的查询，例如查找星期二午夜后开门的餐馆以及显示代客泊车且接受预订的餐馆，，。由于难以收集和表示这种信息，还没有创建此类目录。经常地，在因特网上可以获得构建这种目录所需的信息。餐馆可能拥有自己的网页页面，该网页页面提供例如它的营业时间和预定方式的重要细节。类似地，可能存在包括餐馆...

【技术保护点】
一种用于生成结构化数据的系统，包括：数据获取模块，用于接收电子文档，所述电子文档包含描述关于企业的事实的非结构化数据；数据抽取模块，用于从所述电子文档中抽取描述关于所述企业的事实的非结构化数据；以及数据解析模块，用于接收所述抽取的非结构化数据以及创建由所述非结构化数据描述的事实的结构化表示。

【技术特征摘要】
【国外来华专利技术】US 2005-3-2 60/658,214;US 2006-3-1 11/366,1621.一种用于生成结构化数据的系统，包括数据获取模块，用于接收电子文档，所述电子文档包含描述关于企业的事实的非结构化数据；数据抽取模块，用于从所述电子文档中抽取描述关于所述企业的事实的非结构化数据；以及数据解析模块，用于接收所述抽取的非结构化数据以及创建由所述非结构化数据描述的事实的结构化表示。2. 根据权利要求1所述的系统，其中所述数据获取模块包括网页爬行模块，用于从耦合到网络的一个或多个网站中获取包含非结构化数据的网页。3. 根据权利要求2所述的系统，其中所述网页爬行模块包括专用爬行器，所述专用爬行器适合从特定网站中获取具有描述企业的事实的网页页面。4. 根据权利要求1所述的系统，其中所述数据抽取模块分析所述电子文档，以识别描述关于所述企业的事实的文档的部分。5. 根据权利要求1所述的系统，其中所述抽取的非结构化数据包含键-值对，所述键-值对描述关于所迷企业的事实，并且所述数据解析模块包括键标准化模块，用于将所述抽取的数据中包含的描述关于所述企业的数据类型的键进行标准化。6. 根据权利要求5所述的系统，其中所述键标准化模块将所述键标准化为从包含以下内容的集合中选择的键类型名称、地址、电话号码、营业时间、预订方式、可达性、接受的支付方式、停车、提供的服务和提供的品牌。7. 根据权利要求1所述的系统，其中所述抽取的非结构化数据包含键-值对，所述键-值对描述关于所迷企业的事实，并且所述数据解析模块包括值标准化模块，用于将所述抽取的数据中包含的描述所述企业的值进行标准化。8. 根据权利要求7所述的系统，其中所述值标准化模块使用营业时间解析器以将描述企业营业时间的非结构化数据标准化。9. 根据权利要求7所述的系统，其中所述值标准化模块将所述值标准化为从包含以下内容的集合中选择的值类型名称、地址、电话号码、营业时间、预订方式、可达性、接受的支付方式、停车、提供的服务和提供的品牌。10. 根据权利要求1所述的系统，其中所述数据解析模块创建描述多个不同企业的多个事实的结构化表示，进一步包括数据集群模块，用于将所述事实的结构化表示与所述事实相关的企业相关联。11. 根据权利要求1所述的系统，其中所述数据解析模块创建描述所述企业的多个事实的结构化表示，进一步包括事实比较模块，用于比较描述所述企业的多个事实并且响应于所述比较来建立针对所述事实的置信度。12. —种具有计算机可读介质的计算机程序产品，所述计算机可读介质具有确实包含于其中的计算机程序指令，所述计算机程序产品包括数据获取模块，用于接收电子文档，所述电子文档包含描述关于企业的事实的非结构化数据；数据抽取模块，用于从所述电子文档中抽取描述关于所述企业的事实的非结构化数据；以及数据解析模块，用于接收所述抽取的非结构化数据以及创建由所述非结构化数据描述的事实的结构化表示。13. 根据权利要求12所述的计算机程序产品，其中所述数据获取模块包括网页爬行模块，用于从耦合到网络的一个或多个网站中获取包含非结构化数据的网页页面。14. 根据权利要求13所述的计算机程序产品，其中所述网页爬行模块包括专用爬行器，所述专用爬行器适合从特定网站中获取具有描述企业的事实的网页页面。15. 根据权利要求12所述的计算机程序产品，其中所述数据抽取模块分析所述电子文档，以识别描述关于所述企业的事实的文档的部分。16. 根据权利要求12所述的计算机程序...

【专利技术属性】
技术研发人员：E帕斯托，D埃格诺，
申请(专利权)人：谷歌公司，
类型：发明
国别省市：US[]

全部详细技术资料下载我是这个专利的主人