The invention relates to a new type of \data filtering method based on noise area, belongs to the\ topic extraction technology, which comprises the following steps, the Internet access to the target web page, the web page extraction in all regions; judge whether the page contains the web page extraction area; area classification and score: judging main area is above a certain threshold according to the main line; in a step out of the judgment and non main area; area according to the current re line area extraction; judging whether the main area exceeds a certain threshold. The present invention by extracting the web content in the region to region as the dimension according to a certain algorithm to determine whether a web page is the noise data to optimize the web content in the area of this dimension selection, provides efficient new solutions for regional large-scale data retrieval; the invention of the outer region classification algorithm, can be run \in denoising, alone can also be a component area classified as.
【技术实现步骤摘要】
本专利技术涉及一种互联网网页处理方法,具体涉及一种新型的网页数据基于地区噪音过滤方法,属于网页主题提取
技术介绍
随着互联网的迅猛发展,互联网信息进入一个爆炸式、多元式的时代,互联网成为一个巨大的信息库,网络的“信息过载”包含了大量的噪音数据,这也成为推动信息过滤发展的动力。互联网信息过滤将改善网络信息的质量,使得信息的推送与检索变得更加精准,有意义,从而提高信息服务的质量。传统的互联网噪音过滤根据网页的DOM树结构,提取网页文档不同元素的文本内容,基于一些算法,去除网页文档中的噪音标签,如script,style等。现有的互联网噪音过滤主要是过滤掉网页中的广告,插件等垃圾标签,但是对于根据网页中地区为维度来判断是否为噪音的技术还比较欠缺。互联网的网页内容很多都包含地区属性,对网页的地区进行必要的分析,从而判断网页是否为区域性噪音网页。这也是本专利技术需要解决的技术问题
技术实现思路
本专利技术针对现有常规网页噪音判断,缺少了对网页内容中地区维度的分析,不能够判断网页是否为区域性噪音网页,因此提出一种新型的网页数据基于地区噪音过滤方法。为达到上述目的,本专利技术采用的技术方案是:一种新型的网页数据基于地区噪音过滤方法,所述网页数据基于地区噪音过滤方法,包括以下步骤,(1)、互联网访问目标网页页面,提取网页页面所有地区;(2)、判断网页是否含有地区,如果不包含直接为非噪音,否则进入下一步;(3)、将网页页面提取的地区归类并计算得分:其中“0”定义为“根节点”,“1”定义为“国家”,“2”定义为“省”,“3”定义为“市”,“4”定义为“区县”.如上面的 ...
【技术保护点】
一种新型的网页数据基于地区噪音过滤方法,其特征在于:包括以下处理步骤,(1)、互联网访问目标网页页面,提取网页页面所有地区;(2)、判断网页是否含有地区,如果不包含直接为非噪音,否则进入下一步;(3)、将网页页面提取的地区归类并计算得分:其中“0”定义为“根节点”,“1”定义为“国家”,“2”定义为“省”,“3”定义为“市”,“4”定义为“区县”.如上面的地区层级结构,按照省级别将地区进行归类;所述计算得分算法:命中省关键词*3、市关键词*2、区县关键词*1;计算每个省份获取的得分比率,超过一定阀值为主线地区,否则为非主线地区;(4)、判断主线地区是否超过步骤(3)中所述的阀值,超过进入下一步,否则为非噪音数据;(5)、根据第(3)步骤判断出来的主线地区与非主线地区,如果非主线地区与主线地区命中同一地区词,非主线地区为误命中,删除误命中地区;(6)、根据当前地区重新进行主线地区提取,算法如同步骤(3);(7)、判断主线地区是否超过步骤(3)中的阀值,超过则为噪音数据,否则为非噪音数据。
【技术特征摘要】
1.一种新型的网页数据基于地区噪音过滤方法,其特征在于:包括以下处理步骤,(1)、互联网访问目标网页页面,提取网页页面所有地区;(2)、判断网页是否含有地区,如果不包含直接为非噪音,否则进入下一步;(3)、将网页页面提取的地区归类并计算得分:其中“0”定义为“根节点”,“1”定义为“国家”,“2”定义为“省”,“3”定义为“市”,“4”定义为“区县”.如上面的地区层级结构,按照省级别将地区进行归类;所述计算得分算法:命中省关键词*3、市关键词*2...
【专利技术属性】
技术研发人员:顾成华,瞿伟,熊俭,李广兵,王峥,
申请(专利权)人:烽火通信科技股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。