【技术实现步骤摘要】
【国外来华专利技术】
本专利技术通常涉及从网络中抽取信息,并且尤其涉及从网络上的 电子文档构建结构化信息的集合。
技术介绍
很难找到因特网或者其他网络上的信息。搜索引擎允许用户定 位具有特定特征的内容。然而,在某些情况下,因特网上可获得的 极大量信息削弱了搜索引擎的效力。例如,使用例如汤姆的餐馆 的普通名称来搜索餐馆的人将接收到大量匹配的结果,通过这些结 果,这个人肯定对找到正确的餐馆感到费力。对于太多信息,,问题的一个补救方式是在较小的信息集合上 进行搜索。搜索引擎可以允许个人搜索对于特定城市或者其他地理 区域的专用目录。那样,搜索纽约(NY)的汤姆的餐馆,,的个人 可以指定将搜索限制为仅位于纽约市的餐馆。结果,很可能存在较 少的搜索结果,并且对于搜索者来说,更加容易找到正确的结果。 而且,本地目录可以提供附加的特征,例如提供显示餐馆位置的地 图。构建具有强大功能性的目录是复杂的过程。获得特定类型的信 息相对容易,例如一个城市内的餐馆和其他企业的名称、地址和电话号码。电话公司和其他数据提供商经常出售这类信息。然而,为 了有效性,目录应该包括附加信息,不能从标准信息提供商获得例 如营业时间、预定方式,支付选项和是否可以停车的附加信息。理 想地,目录将以结构化格式保存此信息,该结构化格式支持复杂的 查询,例如查找星期二午夜后开门的餐馆以及显示代客泊车 且接受预订的餐馆,,。由于难以收集和表示这种信息,还没有创建 此类目录。经常地,在因特网上可以获得构建这种目录所需的信息。餐馆 可能拥有自己的网页页面,该网页页面提供例如它的营业时间和预 定方式的重要细节。类似地,可能存在包括餐馆 ...
【技术保护点】
一种用于生成结构化数据的系统,包括:数据获取模块,用于接收电子文档,所述电子文档包含描述关于企业的事实的非结构化数据;数据抽取模块,用于从所述电子文档中抽取描述关于所述企业的事实的非结构化数据;以及数据解析模块,用于接收所述抽取的非结构化数据以及创建由所述非结构化数据描述的事实的结构化表示。
【技术特征摘要】
【国外来华专利技术】US 2005-3-2 60/658,214;US 2006-3-1 11/366,1621.一种用于生成结构化数据的系统,包括数据获取模块,用于接收电子文档,所述电子文档包含描述关于企业的事实的非结构化数据;数据抽取模块,用于从所述电子文档中抽取描述关于所述企业的事实的非结构化数据;以及数据解析模块,用于接收所述抽取的非结构化数据以及创建由所述非结构化数据描述的事实的结构化表示。2. 根据权利要求1所述的系统,其中所述数据获取模块包括网页爬行模块,用于从耦合到网络的 一个或多个网站中获取包 含非结构化数据的网页。3. 根据权利要求2所述的系统,其中所述网页爬行模块包括专 用爬行器,所述专用爬行器适合从特定网站中获取具有描述企业的 事实的网页页面。4. 根据权利要求1所述的系统,其中所述数据抽取模块分析所 述电子文档,以识别描述关于所述企业的事实的文档的部分。5. 根据权利要求1所述的系统,其中所述抽取的非结构化数据 包含键-值对,所述键-值对描述关于所迷企业的事实,并且所述数 据解析模块包括键标准化模块,用于将所述抽取的数据中包含的描述关于所述 企业的数据类型的键进行标准化。6. 根据权利要求5所述的系统,其中所述键标准化模块将所述 键标准化为从包含以下内容的集合中选择的键类型名称、地址、电话号码、营业时间、预订方式、可达性、接受 的支付方式、停车、提供的服务和提供的品牌。7. 根据权利要求1所述的系统,其中所述抽取的非结构化数据 包含键-值对,所述键-值对描述关于所迷企业的事实,并且所述数 据解析模块包括值标准化模块,用于将所述抽取的数据中包含的描述所述企业 的值进行标准化。8. 根据权利要求7所述的系统,其中所述值标准化模块使用营 业时间解析器以将描述企业营业时间的非结构化数据标准化。9. 根据权利要求7所述的系统,其中所述值标准化模块将所述 值标准化为从包含以下内容的集合中选择的值类型名称、地址、电话号码、营业时间、预订方式、可达性、接受 的支付方式、停车、提供的服务和提供的品牌。10. 根据权利要求1所述的系统,其中所述数据解析模块创建 描述多个不同企业的多个事实的结构化表示,进一步包括数据集群模块,用于将所述事实的结构化表示与所述事实相关 的企业相关联。11. 根据权利要求1所述的系统,其中所述数据解析模块创建 描述所述企业的多个事实的结构化表示,进一步包括事实比较模块,用于比较描述所述企业的多个事实并且响应于 所述比较来建立针对所述事实的置信度。12. —种具有计算机可读介质的计算机程序产品,所述计算机可 读介质具有确实包含于其中的计算机程序指令,所述计算机程序产 品包括数据获取模块,用于接收电子文档,所述电子文档包含描述关 于企业的事实的非结构化数据;数据抽取模块,用于从所述电子文档中抽取描述关于所述企业的事实的非结构化数据;以及数据解析模块,用于接收所述抽取的非结构化数据以及创建由 所述非结构化数据描述的事实的结构化表示。13. 根据权利要求12所述的计算机程序产品,其中所述数据获 取模块包括网页爬行模块,用于从耦合到网络的 一个或多个网站中获取包 含非结构化数据的网页页面。14. 根据权利要求13所述的计算机程序产品,其中所述网页爬 行模块包括专用爬行器,所述专用爬行器适合从特定网站中获取具 有描述企业的事实的网页页面。15. 根据权利要求12所述的计算机程序产品,其中所述数据抽 取模块分析所述电子文档,以识别描述关于所述企业的事实的文档 的部分。16. 根据权利要求12所述的计算机程序...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。