The invention relates to an Internet data collection technology, aiming at providing an intelligent method for extracting information of news web pages. The intelligent information extraction method of news web pages includes the steps of automatically generating the initial extraction template, and updating the template automatically in the course of using. The invention makes full use of the web page structure, and automatically with the aid of basic data extraction template generation, to solve the traditional template extraction method in the template to the problem of high cost of handmade, but in the end will also solve the template extraction general extraction method of short text accuracy is low; the method of self based on the learning process in the use of automatic template template update, through such a resolution to the template extraction method that can not update the template due to the delayed update template and a large number of the large amount of work. Moreover, the self-learning method can reduce the problem of large amount of garbage data extraction in the transition time.
【技术实现步骤摘要】
本专利技术是关于互联网数据收集
,特别涉及一种智能化的新闻网页信息抽取方法。
技术介绍
当前的新闻网页信息抽取技术,主要是基于模板的抽取方式、基于网站文本分布特征的抽取技术和基于网页标签结构的信息抽取,而这三个技术都存在明显缺陷。随着互联网的发展,现在网页的结构更替周期非常的短,有的时候可能几个星期就会更换,所以基于模板的抽取方式在使用的过程中会需要大量的模板更新和制作导致大量的投入,而且很难保证时效性。基于文本分布特征而进行的信息抽取的方法对于长文本的新闻有很高的精确度,但是也同样存在着他的一大弊端。因为其是基于文本密度进行的识别,第一个要求就是文本密度要足够高,对于一些短的简要新闻就很难识别准确。特别是现在的网页附带过多的推荐信息,所以这种误识别的可能性会更高。基于网页标签结构的信息抽取在非常初期的网页结构相对简单的时候是非常有用的一个方式。但是随着web前端开发技术的不断演化,网页标签已经没有了原来那么有代表性,自然的这样的方法也就很难在现在乱用标签结构的网页中使用。
技术实现思路
本专利技术的主要目的在于克服现有技术中的不足,提供一种智能化的新闻网页抽取技术。为解决上述技术问题,本专利技术的解决方案是:提供一种智能化的新闻网页信息抽取方法,具体包括下述步骤:步骤(1):自动生成初始抽取模板;步骤(2):在使用的过程中自学习地进行模板更新;所述步骤(1)具体包括下述子步骤:步骤A:首先获取需要进行网页信息抽取的网站的至少50个近期(两周以内)新闻网页链接,作为样本;步骤B:对步骤A获取的新闻网页,(根据标准的html标签集合)抽取页面标签框架;所 ...
【技术保护点】
一种智能化的新闻网页信息抽取方法,其特征在于,具体包括下述步骤:步骤(1):自动生成初始抽取模板;步骤(2):在使用的过程中自学习地进行模板更新;所述步骤(1)具体包括下述子步骤:步骤A:首先获取需要进行网页信息抽取的网站的至少50个近期新闻网页链接,作为样本;步骤B:对步骤A获取的新闻网页,抽取页面标签框架;所述页面标签框架是指由html标签构成的一个树型标签层次框架;步骤C:对步骤B中抽取的所有网页的标签框架,进行标签框架结构比对,识别出共有网页标签框架;所述共有网页标签框架是指所有网页标签框架中均包含的标签框架;步骤D:对步骤A中获取的新闻网页,使用基于文本密度的通用抽取算法,抽取正文信息;步骤E:对步骤A中获取的新闻网页,根据步骤C和步骤D的处理结果,识别出同一个网页在步骤D中的得到的正文信息,其在步骤C获取的共有网页标签框架中的标签位置;所述标签位置是指包含该正文信息的最内层标签;步骤F:根据步骤E获取的所有标签位置和步骤C的处理结果,识别出标签位置在共有网页标签框架中的网页标签路径;所述网页标签路径是指html标签框架树中的一个分支路径;步骤G:对步骤F的处理结果进行统计, ...
【技术特征摘要】
1.一种智能化的新闻网页信息抽取方法,其特征在于,具体包括下述步骤:步骤(1):自动生成初始抽取模板;步骤(2):在使用的过程中自学习地进行模板更新;所述步骤(1)具体包括下述子步骤:步骤A:首先获取需要进行网页信息抽取的网站的至少50个近期新闻网页链接,作为样本;步骤B:对步骤A获取的新闻网页,抽取页面标签框架;所述页面标签框架是指由html标签构成的一个树型标签层次框架;步骤C:对步骤B中抽取的所有网页的标签框架,进行标签框架结构比对,识别出共有网页标签框架;所述共有网页标签框架是指所有网页标签框架中均包含的标签框架;步骤D:对步骤A中获取的新闻网页,使用基于文本密度的通用抽取算法,抽取正文信息;步骤E:对步骤A中获取的新闻网页,根据步骤C和步骤D的处理结果,识别出同一个网页在步骤D中的得到的正文信息,其在步骤C获取的共有网页标签框架中的标签位置;所述标签位置是指包含该正文信息的最内层标签;步骤F:根据步骤E获取的所有标签位置和步骤C的处理结果,识别出标签位置在共有网页标签框架中的网页标签路径;所述网页标签路径是指html标签框架树中的一个分支路径;步骤G:对步骤F的处理结果进行统计,统计出各标签路径的出现次数;这里的出现是指一个路径自己出现或是被另外一个路径包含;然后根据统计出来的各标签路径的出现次数进行排序,获取出现次数最多的路径,并从出现次数最多的路径中选取路径深度最深的路径作为模板路径,并生成抽取模板;所述路径深度是指路径的层次数,层次数越多深度越深;所述抽取模板是指由标签路径保存成的信息,并以标签树的形式保存为模板,用于新闻网页的正文内容抽取;所述步骤(2)具体包括下述子步骤:步骤H:周期性地从历史链接库中抽取至少200个的新闻链接,再次使用步骤G中生成的抽取模板进行新闻正文抽取;所述历史链接库中保存有已经被成功抽取出正文的新闻链接;步骤I:将步骤H得到的抽取结果,与历史的抽取结果进行对比,用于识别抽取模板是否依然有效:若新的抽取结果与历史抽取结果不符,则说明该抽取模板已经失效,执行步骤J;若新的抽取结果与历史抽取结果相同,则认为该抽取模板仍然有效,则跳到步骤K执行;步骤J:重复执行步骤(1),获取近期的新闻页面,重新...
【专利技术属性】
技术研发人员:叶章龙,范渊,黄进,
申请(专利权)人:杭州安恒信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。