一种新型的网页数据基于地区噪音过滤方法技术

技术编号:15272978 阅读:64 留言:0更新日期:2017-05-04 13:03
本发明专利技术一种新型的网页数据基于地区噪音过滤方法,属于网页主题提取技术领域,包括以下步骤,互联网访问目标网页页面,提取网页页面所有地区;判断网页是否含有地区;将网页页面提取的地区归类并计算得分:判断主线地区是否超过一定阀值;根据上一步判断出来的主线地区与非主线地区;根据当前地区重新进行主线地区提取;判断主线地区是否超过一定阀值。本发明专利技术通过提取网页内容中的地区,以地区作为维度根据一定的算法判断网页是否为噪音数据,优化了网页内容在地区这一维度的筛选,为大规模的区域化数据检索提供了新的高效解决方案;此外本发明专利技术中的地区归类算法,可运行于网页去噪,也可独立一个组件作为地区归类。

A new method of web page data based on region noise filtering

The invention relates to a new type of \data filtering method based on noise area, belongs to the\ topic extraction technology, which comprises the following steps, the Internet access to the target web page, the web page extraction in all regions; judge whether the page contains the web page extraction area; area classification and score: judging main area is above a certain threshold according to the main line; in a step out of the judgment and non main area; area according to the current re line area extraction; judging whether the main area exceeds a certain threshold. The present invention by extracting the web content in the region to region as the dimension according to a certain algorithm to determine whether a web page is the noise data to optimize the web content in the area of this dimension selection, provides efficient new solutions for regional large-scale data retrieval; the invention of the outer region classification algorithm, can be run \in denoising, alone can also be a component area classified as.

【技术实现步骤摘要】

本专利技术涉及一种互联网网页处理方法,具体涉及一种新型的网页数据基于地区噪音过滤方法,属于网页主题提取

技术介绍
随着互联网的迅猛发展,互联网信息进入一个爆炸式、多元式的时代,互联网成为一个巨大的信息库,网络的“信息过载”包含了大量的噪音数据,这也成为推动信息过滤发展的动力。互联网信息过滤将改善网络信息的质量,使得信息的推送与检索变得更加精准,有意义,从而提高信息服务的质量。传统的互联网噪音过滤根据网页的DOM树结构,提取网页文档不同元素的文本内容,基于一些算法,去除网页文档中的噪音标签,如script,style等。现有的互联网噪音过滤主要是过滤掉网页中的广告,插件等垃圾标签,但是对于根据网页中地区为维度来判断是否为噪音的技术还比较欠缺。互联网的网页内容很多都包含地区属性,对网页的地区进行必要的分析,从而判断网页是否为区域性噪音网页。这也是本专利技术需要解决的技术问题
技术实现思路
本专利技术针对现有常规网页噪音判断,缺少了对网页内容中地区维度的分析,不能够判断网页是否为区域性噪音网页,因此提出一种新型的网页数据基于地区噪音过滤方法。为达到上述目的,本专利技术采用的技术方案是:一种新型的网页数据基于地区噪音过滤方法,所述网页数据基于地区噪音过滤方法,包括以下步骤,(1)、互联网访问目标网页页面,提取网页页面所有地区;(2)、判断网页是否含有地区,如果不包含直接为非噪音,否则进入下一步;(3)、将网页页面提取的地区归类并计算得分:其中“0”定义为“根节点”,“1”定义为“国家”,“2”定义为“省”,“3”定义为“市”,“4”定义为“区县”.如上面的地区层级结构,按照省级别将地区进行归类;所述计算得分算法:命中省关键词*3、市关键词*2、区县关键词*1;计算每个省份获取的得分比率,超过一定阀值为主线地区,否则为非主线地区;(4)、判断主线地区是否超过步骤(3)中所述的阀值,超过进入下一步,否则为非噪音数据;(5)、根据步骤(3)判断出来的主线地区与非主线地区,如果非主线地区与主线地区命中同一地区词,非主线地区为误命中,删除误命中地区;(6)、根据当前地区重新进行主线地区提取,算法如同步骤(3);(7)、判断主线地区是否超过步骤(3)中的阀,超过则为噪音数据,否则为非噪音数据。由于上述技术方案的运用,本专利技术与现有技术相比具有下列优点:本专利技术新型的网页数据基于地区噪音过滤方法,通过提取网页内容中的地区,以地区作为维度根据一定的算法判断网页是否为噪音数据,优化了网页内容在地区这一维度的筛选,为大规模的区域化数据检索提供了新的高效解决方案;此外本专利技术中的地区归类算法,可运行于网页去噪,也可独立一个组件作为地区归类。附图说明下面结合附图对本专利技术技术方案作进一步说明:附图1为本专利技术的网页数据基于地区噪音过滤方法系统流程图;附图2为本专利技术的网页数据基于地区噪音过滤方法中主线地区判断流程图。具体实施方式下面结合具体实施例对本专利技术作更详细的描述:本专利技术针对现有常规网页噪音判断,缺少了对网页内容中地区这一维度的分析,然而地区这一维度对于网页是否为噪音有着重要的判断依据,对于网页数据去噪,尤其是对于区域性的数据搜集,而提出的本专利技术的网页数据基于地区噪音过滤技术,来分析网页,通过提取网页内容中的地区,以地区作为维度根据一定的算法判断网页是否为噪音数据,从而去除噪音。如附图1所示的,本专利技术网页数据基于地区噪音过滤方法,包括以下步骤,(1)、互联网访问目标网页页面,提取网页页面所有地区;(2)、判断网页是否含有地区,如果不包含直接为非噪音,否则进入下一步;(3)、将网页页面提取的地区归类并计算得分:其中“0”定义为“根节点”,“1”定义为“国家”,“2”定义为“省”,“3”定义为“市”,“4”定义为“区县”.如上面的地区层级结构,按照省级别将地区进行归类;所述计算得分算法:命中省关键词*3、市关键词*2、区县关键词*1;计算每个省份获取的得分比率,超过一定阀值为主线地区,否则为非主线地区;(4)、判断主线地区是否超过步骤(3)中所述的阀值,超过进入下一步,否则为非噪音数据;(5)、根据第(3)步骤判断出来的主线地区与非主线地区,如果非主线地区与主线地区命中同一地区词,非主线地区为误命中,删除误命中地区;(6)、根据当前地区重新进行主线地区提取,算法如同步骤(3);(7)、判断主线地区是否超过步骤(3)中的阀值,超过则为噪音数据,否则为非噪音数据。其中需要说明的:主线地区:文章主题内容所说明的地区;非主线地区:非文章主题内容所说明的地区;误命中地区:非主线地区中与主线地区命中同一地区词,非主线地区为误命中。本专利技术中的网页去噪算法:基于网页地区噪音判断,优化了网页内容在地区这一维度的筛选,为大规模的区域化数据检索提供了新的高效解决方案;此外本专利技术中的地区归类算法,可运行于网页去噪,也可独立一个组件作为地区归类。以上仅是本专利技术的具体应用范例,对本专利技术的保护范围不构成任何限制;凡采用等同变换或者等效替换而形成的技术方案,均落在本专利技术权利保护范围之内。本文档来自技高网...
一种新型的网页数据基于地区噪音过滤方法

【技术保护点】
一种新型的网页数据基于地区噪音过滤方法,其特征在于:包括以下处理步骤,(1)、互联网访问目标网页页面,提取网页页面所有地区;(2)、判断网页是否含有地区,如果不包含直接为非噪音,否则进入下一步;(3)、将网页页面提取的地区归类并计算得分:其中“0”定义为“根节点”,“1”定义为“国家”,“2”定义为“省”,“3”定义为“市”,“4”定义为“区县”.如上面的地区层级结构,按照省级别将地区进行归类;所述计算得分算法:命中省关键词*3、市关键词*2、区县关键词*1;计算每个省份获取的得分比率,超过一定阀值为主线地区,否则为非主线地区;(4)、判断主线地区是否超过步骤(3)中所述的阀值,超过进入下一步,否则为非噪音数据;(5)、根据第(3)步骤判断出来的主线地区与非主线地区,如果非主线地区与主线地区命中同一地区词,非主线地区为误命中,删除误命中地区;(6)、根据当前地区重新进行主线地区提取,算法如同步骤(3);(7)、判断主线地区是否超过步骤(3)中的阀值,超过则为噪音数据,否则为非噪音数据。

【技术特征摘要】
1.一种新型的网页数据基于地区噪音过滤方法,其特征在于:包括以下处理步骤,(1)、互联网访问目标网页页面,提取网页页面所有地区;(2)、判断网页是否含有地区,如果不包含直接为非噪音,否则进入下一步;(3)、将网页页面提取的地区归类并计算得分:其中“0”定义为“根节点”,“1”定义为“国家”,“2”定义为“省”,“3”定义为“市”,“4”定义为“区县”.如上面的地区层级结构,按照省级别将地区进行归类;所述计算得分算法:命中省关键词*3、市关键词*2...

【专利技术属性】
技术研发人员:顾成华瞿伟熊俭李广兵王峥
申请(专利权)人:烽火通信科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1