一种WEB信息抽取方法技术

技术编号:8533001 阅读:183 留言:0更新日期:2013-04-04 16:08
本发明专利技术公开了一种WEB信息抽取方法,该方法基于语义标记,包括正文抽取方法和评论抽取方法,通过将语义标记与页面的布局特征相结合,构造了页面的线性序列表示模型,根据多条评论和其语义标记之间存在明显的重复性原理获得评论回复区间,获得回复区间后即可抽取出网页的多条评论。该方法可以实现网站信息的准确抽取,并有效提高抽取效率。

【技术实现步骤摘要】

本专利技术属于计算机网络
,尤其涉及一种网络中WEB信息抽取方法
技术介绍
伴随着Internet和计算机的普及和广泛使用,现实生活中的纸质存档信息都以电子文档的形式存储在计算机和网络上,同时Internet中产生的数据呈井喷式的增长,各大领域信息均出现在不同站点的Web页面上和数据库中。但存储在不同网点上的网页信息主要以半结构化或者非结构化的HTML语义的形式出现,因此不能用于直接分析处理。将Web页面上有用的数据提取出来,是如今网络舆情分析系统方面的研究热点。随着网络购物的发展,对Web页面信息的抽取技术提出的更高的要求。Web信息抽取技术(Informat ion Extract ion)就是把网页里包含的某些特定信息如用户名、发表时间、IP地址、正文、评论、商品价格等信息抽取出来,进行结构化处理,组织成表格一样的形式存入数据库中。信息抽取系统的主要功能是从文本中抽取出符合特定目标的事实信息。通常,被抽取出来的信息的描述形式为结构化的数据结构,可以直接存入数据库中,供用户查询以及进一步的分析利用。信息抽取技术的初始研究开始于20世纪60年代,这个时期主要的研究是提取自然语言文本。随着Web技术的快速发展,网络用户可以自由的针对特定的事件或对象在网页中发表自己的观点和看法,这使得网络用户评论以惊人的速度增长并且覆盖了现实世界的各个领域,如经济、政治、娱乐、网络购物等。网络用户发表的评论信息是许多应用的重要信息来源,如网络舆情的检测与分析,这些应用需要一种准确高效的方法从大量不同的网站中收集舆情信息。随着国家对互联网安全的重视,涌现出了网络攻击、舆情、邮件等各层面的监控分析系统,为网络有害事件的发现、处理和评估提供了有力支持。但因这些信息具有海量性、定向性和复杂性等特点,除发现能力外,这些系统对有害事件的调查、取证等能力有限,目前仍然是依赖人工进行用户行为重建,办案效率低、周期长,只能采取重点突破的方式。现有的技术中对网络组织的研究很少,缺乏相应的技术监控手段支持,人工分析更无法满足网络组织这种大范围、有组织、长程关联的行为分析,现有的网络组织发现技术零散的分布在舆情分析产品和文献中。为此需要对这些监控数据进行综合分析。Web信息抽取技术的研究是对这些数据进行综合分析的一个基础性工作。只有将Web网页中的相关信息很好的抽取出来,才能在舆情分析、搜索引擎等方面得到更好的应用。通过利用IP地址、采集信息、账户资料、页面分析、使用时间、发布周期、地理分布、信息倾向性等多元数据进行信息抽取和特征分析,从而可以为决策人员提供更丰富的、多视角的、综合的调查材料。
技术实现思路
为了克服上述
技术介绍
中的不足之处,本专利技术提出了 ,该方法基于语义标记,包括正文抽取方法和评论抽取方法,其特征在于包括所述正文提取方法分成以下步骤实现 第一步,设从线性序列的头开始顺序遍历,遇到第一个F2评论属性的语义标记停止,则最后一个F2正文属性的语义标记节点的位置为POSlast,第一个具有F3评论属性的语义标记节点的位置为POSfirst ; 第二步,将页面线性序列中0. . POSfirst-1的子序列设为初始正文区,在该区域内选择一个信息量最大的文本块作为正文内容,设该正文内容节点对应的位置为POSartide ; 第三步,将调整后的正文区序列区间的终止位置设置为POSlast=Hiax (POSlast,P0SartiCie); 第四步,评论区序列区间的起始位置设置为P0SfirSt=max (POSlast, POSarticle) +1,从而完成正文区和评论区的切分; 其中,F2是表示正文结束特征的语义标记,F3是表示评论开始特征的语义标记。根据本专利技术的技术方案,还包括所述评论抽取方法具体包括步骤 (1)多条评论的抽取模型,确定评论区后,评论区内线性序列的语法模型就简化为F3*(F3*CKF3*) *F4,该模式反映评论区的多条评论具有周期性重复的特征; (2)评论抽取方法,依据上面OneReview的初始区间确定和起始位置计算的思想,已经可以确定一条评论回复序列的完整区间模式,进而就可以利用这个模式序列去识别评论区的所有其他评论; 其中Fl是说明正文开始特征的语义标记,F3是表示评论开始特征的语义标记,F4是表示评论结束特征的语义标记,Ct为正文内容,Ce为每个评论回复的内容。根据本专利技术的技术方案,还包括还包括所述多条评论的抽取模型的提取过程分为两个步骤; 首先,在评论区序列ReviewLiSt中选择出现次数最多的语义标记对应的位置序列,则相邻两个位置Posi和Posi+1之间就确定了一个完整评论回复包含的所有节点信息,只是评论信息的起点不一定是所选的语义标记,将Pos1. . Posi+1-l序列区间称为OneReview,即单条评论区间; 其次,选定OneReview后,需要沿ReviewList从OneReview的起始位置向前逐一回溯语义标记,如果回溯的语义标记与OneReview区间内的最后一个语义标记相同,则将OneReView区间的起点和终点均前移一个位置,如此循环,直到到达评论区起始点或者回溯的语义标记与OneReview区间内的最后一个语义标记不同为止,此时的OneReview就是起点正确的评论回复区间。具体实施例方式下面对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。通常,人在理解网页时,会利用页面上诸如“标题、正文”等具有特殊含义的短语来定位标题、正文、评论等信息的位置。语义标记就是指网页中有特定含义的、具有明确功能语义指示作用的短语,如“上一篇、下一篇、评论”等,语义标记的含义和布局往往是人们理解网页的基本出发点。本申请提出一种基于语义标记的正文提取方法,构造如下的切分过程 第一步,设从线性序列的头开始顺序遍历,遇到第一个F2评论属性的语义标记停止,则最后一个F2正文属性的语义标记节点的位置为POSlast,第一个具有F3评论属性的语义标记节点的位置为POSfiret ; 第二步,将页面线性序列中0.. POSfirst-1的子序列设为初始正文区,在该区域内选择一个信息量最大的文本块作为正文内容,设该正文内容节点对应的位置为POSartide ; 第三步,将调整后的正文区序列区间的终止位置设置为POSlast=Hiax (POSlast,P0SartiCie); 第四步,评论区序列区间的起始位置设置为P0SfirSt=max (POSlast, POSarticle) +1,从而完成正文区和评论区的切分。该方法可以切分一般情况的正文和评论,还可以将正文内容和第一条评论内容直接相联,既Ct和Ck直接相邻而没有语义标记分割的特殊情况一起处理。评论作为一种能够表达人们想法的正文回复方式,已经得到了广泛的应用。大部分网页无论是作为主题类的新闻,还是博客类型、论坛类型的网页都有着评论回复。本申请中基于语义标记的评论抽取方法有着一个基本的原则评论数量最好在3条或3条以上,因为在基于信息本文档来自技高网
...

【技术保护点】
一种WEB信息抽取方法,该方法基于语义标记,包括正文抽取方法和评论抽取方法,其特征在于:所述正文提取方法分成以下步骤实现:第一步,设从线性序列的头开始顺序遍历,遇到第一个F2评论属性的语义标记停止,则最后一个F2正文属性的语义标记节点的位置为POSlast,第一个具有F3评论属性的语义标记节点的位置为POSfirst;第二步,将页面线性序列中0..POSfirst?1的子序列设为初始正文区,在该区域内选择一个信息量最大的文本块作为正文内容,设该正文内容节点对应的位置为POSarticle;第三步,将调整后的正文区序列区间的终止位置设置为POSlast=max(POSlast,POSarticle);第四步,评论区序列区间的起始位置设置为POSfirst=max(POSlast,POSarticle)+1,从而完成正文区和评论区的切分;其中,F2是表示正文结束特征的语义标记,F3是表示评论开始特征的语义标记。

【技术特征摘要】
1.一种WEB信息抽取方法,该方法基于语义标记,包括正文抽取方法和评论抽取方法, 其特征在于所述正文提取方法分成以下步骤实现第一步,设从线性序列的头开始顺序遍历,遇到第一个F2评论属性的语义标记停止, 则最后一个F2正文属性的语义标记节点的位置为POSlast,第一个具有F3评论属性的语义标记节点的位置为POSfiret ;第二步,将页面线性序列中O.. POSfirst-1的子序列设为初始正文区,在该区域内选择一个信息量最大的文本块作为正文内容,设该正文内容节点对应的位置为POSartide ;第三步,将调整后的正文区序列区间的终止位置设置为POSlast=Hiax (POSlast, P0SartiCie);第四步,评论区序列区间的起始位置设置为P0SfirSt=max (POSlast, POSarticle) +1,从而完成正文区和评论区的切分;其中,F2是表示正文结束特征的语义标记,F3是表示评论开始特征的语义标记。2.根据权利要求1所述的方法,其特征在于还包括所述评论抽取方法具体包括步骤(1)多条评论的抽取模型,确定评论区后,评论区内线性序列的语法模型就简化为F3* (F3*CKF3*) *F4,该模式反映评论区的多条评论具有周期性重复的...

【专利技术属性】
技术研发人员:宗竞
申请(专利权)人:江苏乐买到网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1