一种网页信息抽取的方法和系统技术方案

技术编号:8105712 阅读:177 留言:0更新日期:2012-12-21 04:26
本申请公开了一种网页信息抽取方法,包括:分析样本页面的DOM结构,获取抽取信息在所述DOM结构中的位置;将抽取信息在样本页面中的位置对应的节点作为目标节点,从目标节点出发,遍历预先获取的相对位置信息,判断其是否为根节点,如果否,继续递归寻找下一个节点直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的路径作为路径集合;分析待抽取页面的DOM结构,利用路径集合中的路径从根节点出发,定位待抽取页面的信息,获取待抽取页面信息对应的节点作为候选抽取节点集合;从候选抽取节点集合中选出鲁棒性最高的节点作为最终的抽取节点,利用抽取节点获取抽取信息。本申请采用多路径定位技术,鲁棒性好、准确度高。

【技术实现步骤摘要】

本申请涉及网络
,特别是涉及ー种网页信息抽取的方法和系统
技术介绍
随着互联网的快速发展,互联网已经成为最重要的信息发布平台。然而,面对互联网信息爆炸式的增长,如何快速、有效的获取用户需要的信息,成为ー个亟待解决的问题。传统的搜索引擎可以帮助人们通过捜索关键字来获取网页页面,但是它只给出了相关页面的链接,用户仍需要人工浏览网页去寻找感兴趣的信息。另ー方面,由于无法定制精确的查询,大量的搜索结果都不是用户想要的,无法提供精确、专业化的捜索結果。ー种理想的做法是互联网作为ー个信息源能够像数据库一祥被查询。于是,网页信息抽取应运而生。网页信息抽取可以从不同的信息源中获取感兴趣的网页信息,并将用户感兴趣的信息抽取出来存放到数据库中,使得用户可以利用数据库的信息进行信息查询、捜索、数据挖掘或者数 据分析。网页信息抽取的目标是将网页文本化呈现的信息抽取出来,并将其表示为结构化的数据。这样做的目的是将难以处理的文本信息转换为容易处理、分析的结构化数据。网页是由文档对象模型规范(DOM, Document Object Model)和超文本标记语言(HTML, Hyper Text Mark-up Language)定义的一类文档,是ー种半结构化的文档,有价值的信息通常存储在后台的数据库中,通过固定的页面模板呈现给用户。网页实际是ー个文件,展现在用户面前的通常是通过浏览器解释后的网页内容。如果我们通过选择菜单中的“查看源文件”,就可以通过记事本看到网页的实际内容。可以看到,网页实际上是一个文本文件,它通过各式各样的标记对页面上的文字、图片、表格、声音等元素进行描述(例如标题、字体、顔色、大小等)。这些标记将网页要显示的文本内容分隔开来。标记为文档引入了结构信息,根据标记可以将ー个文档表示为ー棵树的结构,称为DOM结构。通过定位待抽取内容在DOM结构的位置,即可实现对网页信息的抽取。网页信息抽取的一般流程是从样本页面上获取待抽取内容的位置信息,之后利用位置信息,针对采用相同页面模板的网页数据集合,实现内容抽取。定位信息的准确与否,直接决定了网页信息抽取的质量。由于网页更新频率快,DOM结构复杂多变,很容易引起位置信息的变化,导致定位失败,或者导致抽取出错误的信息。网页信息抽取系统一直致カ于寻找准确、鲁棒(鲁棒是Robust的音译,有健壮、強壮、坚定等意思)的页面内容定位解决方案。现有技术中,存在一种自动生成XPATH(XPATH是ー门在XML文档中查找信息的语言,XPath使用路径表达式来选取XML文档中的节点或者节点集)方法进行网页信息抽取。自动生成XPATH方法为用户在页面中选取抽取的内容,程序记录抽取内容在DOM结构中的位置,后台自动生成一条从DOM的根节点层层向下直至目标节点的、只包含标签名称信息与偏移信息的XPATH路径,此后应用该XPATH获取待抽取页面集合中的信息。自动生成的XPATH通常仅仅记录标签名称与偏移的信息,定位信息过于简单,无法应对网页结构的不停变换。而网页内容更新,XPATH路径上的元素发生变化之后,就会引发定位不到内容或者定位到非抽取内容的问题。同吋,由于XPATH记录的信息过于简单,不能利用XPATH来解决重复结构识别的问题,需要添加额外的算法来实现重复结构的识别与抽取。在实现本申请的过程中,专利技术人发现现有技术中至少存在如下问题网页信息抽取通常使用半自动化的信息抽取方法,通过分析页面结构定位抽取的信息,由于网页信息是一类动态变化、实时更新的数据,在页面内容更新、网页结构变化后,容易出现定位信息失效导致的抽取失败或者抽取结果不准确的问题。另一方面,现有技术不能很好地解决重复结构识别的问题。自动生成XPATH方法不能利用XPATH来解决重复结构识别的问题,需要添加额外的算法来实现重复结构的识别与抽取。
技术实现思路
为解决上述技术问题,本申请实施例提供一种网页信息抽取的方法和系统,在页面内容更新、网页结构变化后仍能够准确的定位信息,获得准确的抽取结果,鲁棒性好。技术方案如下 本申请实施例提供一种网页信息抽取的方法,该方法包括分析样本页面的DOM结构,获取待抽取信息在所述DOM结构中的位置;将与所述待抽取信息在所述DOM结构中的位置对应的节点作为目标节点,从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合;分析待抽取页面的DOM结构,利用所述路径集合中的路径从根节点出发,定位所述待抽取信息在所述待抽取页面的DOM结构中的位置,获取与所述待抽取信息在所述待抽取页面的DOM结构中的位置对应的节点作为候选抽取节点集合;从所述候选抽取节点集合中,选出鲁棒性最高的节点作为最终的抽取节点,利用所述抽取节点获取抽取信息。优选的,上述从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合具体包括从目标节点出发,将目标节点设置为当前节点;遍历预先获取的当前节点最邻近的的相对位置信息,从中选取一个相对位置i对应的节点Bi,判断Bi是否为根节点;如果经过判断,Bi为根节点,则将此路径添加至路径列表;如果否,将Bi作为当前节点,继续递归寻找下一个节点,直至找到根节点,并将此路径添加到路径列表;将路径列表中的路径作为路径集合。优选的,从所述候选抽取节点集合中,选出鲁棒性最高的节点作为最终的抽取节点为依照可靠性判断规则,计算候选抽取节点集合中候选抽取节点对应的路径的得分,选出得分最高的路径对应的节点作为最终的抽取节点。优选的,所述从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合具体包括从目标节点出发,将目标节点设置为当前节点;遍历预先获取的当前节点的最邻近的相对位置信息,从中选取一个相对位置i对应的节点Bi,判断Bi是否为根节点;如果经过判断,Bi为根节点,则将此路径添加至路径列表;如果经过判断,Bi不是根节点,则根据可靠性判断规则计算并判断扣分情况,如果扣分没有超过设定阈值,则将Bi节点作为当前节点,继续递归寻找下一个节点,直至下一个节点是根节点,并将此路径添加至路径列表;如果扣分超过阈值,则停止对当前路径的寻找;把路径列表中的扣分最少的前N条路径保存作为路径集合。 优选的,所述从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合具体包括从目标节点出发,将目标节点设置为当前节点;遍历预先获取的当前节点的最邻近的相对位置信息,从中选取一个相对位置i对应的节点Bi,判断Bi是否为根节点;如果经过判断,Bi为根节点,则将此路径添加至路径列表;如果否,将Bi作为当前节点,继续递归寻找下一个节点,直至找到根节点,并将此路径添加到路径列表;依本文档来自技高网
...

【技术保护点】
一种网页信息抽取方法,其特征在于,所述方法包括:分析样本页面的DOM结构,获取待抽取信息在所述DOM结构中的位置;将与所述待抽取信息在所述DOM结构中的位置对应的节点作为目标节点,从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合;分析待抽取页面的DOM结构,利用所述路径集合中的路径从根节点出发,定位所述待抽取信息在所述待抽取页面的DOM结构中的位置,获取与所述待抽取信息在所述待抽取页面的DOM结构中的位置对应的节点作为候选抽取节点集合;从所述候选抽取节点集合中,选出鲁棒性最高的节点作为最终的抽取节点,利用所述抽取节点获取抽取信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡波洋强琦
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1