一种网页信息抽取的方法和系统技术方案

技术编号：8105712 阅读：189 留言：0更新日期：2012-12-21 04:26

本申请公开了一种网页信息抽取方法，包括：分析样本页面的DOM结构，获取抽取信息在所述DOM结构中的位置；将抽取信息在样本页面中的位置对应的节点作为目标节点，从目标节点出发，遍历预先获取的相对位置信息，判断其是否为根节点，如果否，继续递归寻找下一个节点直至找到根节点，形成候选路径，将由此获取的从目标节点到根节点的路径作为路径集合；分析待抽取页面的DOM结构，利用路径集合中的路径从根节点出发，定位待抽取页面的信息，获取待抽取页面信息对应的节点作为候选抽取节点集合；从候选抽取节点集合中选出鲁棒性最高的节点作为最终的抽取节点，利用抽取节点获取抽取信息。本申请采用多路径定位技术，鲁棒性好、准确度高。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及网络
，特别是涉及ー种网页信息抽取的方法和系统。
技术介绍
随着互联网的快速发展，互联网已经成为最重要的信息发布平台。然而，面对互联网信息爆炸式的增长，如何快速、有效的获取用户需要的信息，成为ー个亟待解决的问题。传统的搜索引擎可以帮助人们通过捜索关键字来获取网页页面，但是它只给出了相关页面的链接，用户仍需要人工浏览网页去寻找感兴趣的信息。另ー方面，由于无法定制精确的查询，大量的搜索结果都不是用户想要的，无法提供精确、专业化的捜索結果。ー种理想的做法是互联网作为ー个信息源能够像数据库一祥被查询。于是，网页信息抽取应运而生。网页信息抽取可以从不同的信息源中获取感兴趣的网页信息，并将用户感兴趣的信息抽取出来存放到数据库中，使得用户可以利用数据库的信息进行信息查询、捜索、数据挖掘或者数据分析。网页信息抽取的目标是将网页文本化呈现的信息抽取出来，并将其表示为结构化的数据。这样做的目的是将难以处理的文本信息转换为容易处理、分析的结构化数据。网页是由文档对象模型规范(DOM, Document Object Model)和超文本标记语言(HTML, Hyper Text Mark-up Language)定义的一类文档,是ー种半结构化的文档,有价值的信息通常存储在后台的数据库中，通过固定的页面模板呈现给用户。网页实际是ー个文件，展现在用户面前的通常是通过浏览器解释后的网页内容。如果我们通过选择菜单中的“查看源文件”，就可以通过记事本看到网页的实际内容。可以看到，网页实际上是一个文本文件，它通过各式各样的标记对页面上的文字、图片、表格、声音等元素进行描...

【技术保护点】
一种网页信息抽取方法，其特征在于，所述方法包括：分析样本页面的DOM结构，获取待抽取信息在所述DOM结构中的位置；将与所述待抽取信息在所述DOM结构中的位置对应的节点作为目标节点，从所述目标节点出发，遍历预先获取的相对位置信息，获取一个节点并判断其是否为根节点，如果否，继续递归寻找下一个节点，直至找到根节点，形成候选路径，将由此获取的从目标节点到根节点的候选路径作为路径集合；分析待抽取页面的DOM结构，利用所述路径集合中的路径从根节点出发，定位所述待抽取信息在所述待抽取页面的DOM结构中的位置，获取与所述待抽取信息在所述待抽取页面的DOM结构中的位置对应的节点作为候选抽取节点集合；从所述候选抽取节点集合中，选出鲁棒性最高的节点作为最终的抽取节点，利用所述抽取节点获取抽取信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：蔡波洋，强琦，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人