一种WEB信息抽取方法技术

技术编号：8533001 阅读：207 留言：0更新日期：2013-04-04 16:08

本发明专利技术公开了一种WEB信息抽取方法，该方法基于语义标记，包括正文抽取方法和评论抽取方法，通过将语义标记与页面的布局特征相结合，构造了页面的线性序列表示模型，根据多条评论和其语义标记之间存在明显的重复性原理获得评论回复区间，获得回复区间后即可抽取出网页的多条评论。该方法可以实现网站信息的准确抽取，并有效提高抽取效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机网络
，尤其涉及一种网络中WEB信息抽取方法。
技术介绍
伴随着Internet和计算机的普及和广泛使用，现实生活中的纸质存档信息都以电子文档的形式存储在计算机和网络上，同时Internet中产生的数据呈井喷式的增长，各大领域信息均出现在不同站点的Web页面上和数据库中。但存储在不同网点上的网页信息主要以半结构化或者非结构化的HTML语义的形式出现，因此不能用于直接分析处理。将Web页面上有用的数据提取出来，是如今网络舆情分析系统方面的研究热点。随着网络购物的发展，对Web页面信息的抽取技术提出的更高的要求。Web信息抽取技术(Informat ion Extract ion)就是把网页里包含的某些特定信息如用户名、发表时间、IP地址、正文、评论、商品价格等信息抽取出来，进行结构化处理，组织成表格一样的形式存入数据库中。信息抽取系统的主要功能是从文本中抽取出符合特定目标的事实信息。通常，被抽取出来的信息的描述形式为结构化的数据结构，可以直接存入数据库中，供用户查询以及进一步的分析利用。信息抽取技术的初始研究开始于20世纪60年代，这个时期主要的研究是提取自然语言文本。随着Web技术的快速发展，网络用户可以自由的针对特定的事件或对象在网页中发表自己的观点和看法，这使得网络用户评论以惊人的速度增长并且覆盖了现实世界的各个领域，如经济、政治、娱乐、网络购物等。网络用户发表的评论信息是许多应用的重要信息来源，如网络舆情的检测与分析，这些应用需要一种准确高效的方法从大量不同的网站中收集舆情信息。随着国家对互联网安全的重视，涌现出了网络攻击...

【技术保护点】
一种WEB信息抽取方法，该方法基于语义标记，包括正文抽取方法和评论抽取方法，其特征在于：所述正文提取方法分成以下步骤实现：第一步，设从线性序列的头开始顺序遍历，遇到第一个F2评论属性的语义标记停止，则最后一个F2正文属性的语义标记节点的位置为POSlast，第一个具有F3评论属性的语义标记节点的位置为POSfirst；第二步，将页面线性序列中0..POSfirst?1的子序列设为初始正文区，在该区域内选择一个信息量最大的文本块作为正文内容，设该正文内容节点对应的位置为POSarticle；第三步，将调整后的正文区序列区间的终止位置设置为POSlast=max(POSlast，POSarticle)；第四步，评论区序列区间的起始位置设置为POSfirst=max(POSlast，POSarticle)+1，从而完成正文区和评论区的切分；其中，F2是表示正文结束特征的语义标记,F3是表示评论开始特征的语义标记。

【技术特征摘要】
1.一种WEB信息抽取方法,该方法基于语义标记，包括正文抽取方法和评论抽取方法，其特征在于所述正文提取方法分成以下步骤实现第一步，设从线性序列的头开始顺序遍历，遇到第一个F2评论属性的语义标记停止，则最后一个F2正文属性的语义标记节点的位置为POSlast，第一个具有F3评论属性的语义标记节点的位置为POSfiret ；第二步，将页面线性序列中O.. POSfirst-1的子序列设为初始正文区，在该区域内选择一个信息量最大的文本块作为正文内容，设该正文内容节点对应的位置为POSartide ；第三步，将调整后的正文区序列区间的终止位置设置为POSlast=Hiax (POSlast, P0SartiCie);第四步，评论区序列区间的起始位置设置为P0SfirSt=max (POSlast, POSarticle) +1,从而完成正文区和评论区的切分；其中，F2是表示正文结束特征的语义标记，F3是表示评论开始特征的语义标记。2.根据权利要求1所述的方法，其特征在于还包括所述评论抽取方法具体包括步骤(1)多条评论的抽取模型，确定评论区后，评论区内线性序列的语法模型就简化为F3* (F3*CKF3*) *F4，该模式反映评论区的多条评论具有周期性重复的...

【专利技术属性】
技术研发人员：宗竞，
申请(专利权)人：江苏乐买到网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人