【技术实现步骤摘要】
本专利技术涉及正文抽取
,特别涉及。
技术介绍
正文抽取在搜索引擎、移动阅读等领域有着越来越重要的作用。正文抽取常用的技术有基于规则、基于DOM (Document Object Model,文档对象模型)树、基于标记窗、基于最大文本块等。这些方法都需要对网站中的非正文文本,比如广告、网站声明等,进行排除。如图Ia所示是一段网站声明的代码段示意图,图Ib是图Ia中代码段在网页中的实际展示效果图,这种网站声明在网页中非常常见,对于用户阅读价值不大,都需要在正文抽取时进行排除。然而,如何有效地识别这些非正文文本,是一个难题。现有技术中主要采用垃圾关键词密度的方法进行非正文文本识别。在基于垃圾关键词识别非正文文本时,需要有垃圾关键词构成的词典,并且不断对词典进行更新。对于词典的更新,只有在发现问题后才能加入新的垃圾关键词。因此,这种方法对于问题的解决具有严重的滞后性,而且当面对全互联网的海量数据时,这种滞后性显的更加突出。
技术实现思路
本专利技术要解决的技术问题是如何提供,以克服现有方法对于非正文文本识别的滞后问题。为解决上述技术问题,本专利技术提供一种网页中非正文文本的识别系统,所述系统包括网页抓取器、DOM树构建单元、DOM树分析单元、文本统计单元和文本识别单元;所述网页抓取器适于抓取目标网站的所有网页的数据;所述DOM树构建单元,适于构建目标网站的每个网页对应的DOM树;所述DOM树分析单元,适于根据所述DOM树找出所述网页中的单元文本段;所述文本统计单元,适于统计所述单元文本段在所述目标网站的所有网页中的出现次数;所述文本识别单元,适于在所述出现 ...
【技术保护点】
一种网页中非正文文本的识别系统,其特征在于,所述系统包括:网页抓取器、DOM树构建单元、DOM树分析单元、文本统计单元和文本识别单元;所述网页抓取器适于抓取目标网站的所有网页的数据;所述DOM树构建单元,适于构建目标网站的每个网页对应的DOM树;所述DOM树分析单元,适于根据所述DOM树找出所述网页中的单元文本段;所述文本统计单元,适于统计所述单元文本段在所述目标网站的所有网页中的出现次数;所述文本识别单元,适于在所述出现次数大于预定阈值时,将所述单元文本段识别为非正文文本。
【技术特征摘要】
1.一种网页中非正文文本的识别系统,其特征在于,所述系统包括网页抓取器、DOM树构建单元、DOM树分析单元、文本统计单元和文本识别单元; 所述网页抓取器适于抓取目标网站的所有网页的数据; 所述DOM树构建单元,适于构建目标网站的每个网页对应的DOM树; 所述DOM树分析单元,适于根据所述DOM树找出所述网页中的单元文本段; 所述文本统计单元,适于统计所述单元文本段在所述目标网站的所有网页中的出现次数; 所述文本识别单元,适于在所述出现次数大于预定阈值时,将所述单元文本段识别为非正文文本。2.如权利要求I所述的系统,其特征在于,所述DOM树构建单元采用网页语言对应的解析器。3.如权利要求I所述的系统,其特征在于,所述DOM树分析单元包括节点访问模块和文本段划分模块; 所述节点访问模块,适于从所述DOM树的根节点开始,依次访问所述DOM树中的节点,并将访问到的当前节点发送给所述文本段划分模块;以及适于判断所述DOM树中是否还有需要访问的节点,如果是,将相应的节点作为新的当前节点发送给所述文本段划分模块; 所述文本段划分模块,适于判断当前节点对应的文本段是否满足单元文本段的条件,并且在满足条件时,将所述当前节点对应的文本段作为单元文本段,并且通知所述节点访问模块停止对所述当前节点的后代节点的访问。4.如权利要求3所述的系统,其特征在于,所述节点访问模块,适于从所述DOM树的根节点开始,按照广度优先算法依次访问所述DOM树中的节点,并将访问到的当前节点发送给所述文本段划分模块;以及适于判断所述DOM树中是否还有需要访问的当前节点的同层节点或者下层节点,如果是,将相应的同层节点或者下层节点作为新的当前节点发送给所述文本段划分模块。5.如权利要求3所述的系统,其特征在于,当所述当前节点到其后代节点的最长路径小于等于预定长度,并且所述当前节点的后代节点中不包含复杂节点时,认为所述当前节点对应的文本段满足单元文本段的条件。6.如权利要求5所述的系统,其特征在于,所述复杂节点包括标签table、tr、td、ul、ol、frame> select、input、marquee 和 / 或 map 对应的节点。7.如权利要求I所述的系统,其特征在于,所述文本统计单元包括哈希运算模块和统计丰吴块; 所述哈希运算模块,适于对所述单元文本段进行哈希运算,得到结果键值; 所述统计模块,适于根据所述结果键值统计所述单元文本段在所述目标网站的所有网页中的出现次数。8.如权利要求I所述的系统,其特征在于,所述文本识别单元,还适于在所述出现次数小于等于所述预定阈值时,将所述单元文本段识别为正文文本。9.一种网页中非正文文本的识别方...
【专利技术属性】
技术研发人员:王志刚,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。