CBL特征提取与去噪的网页精准分类方法技术

技术编号:30412164 阅读:37 留言:0更新日期:2021-10-20 11:46
本发明专利技术的CBL特征提取与去噪的网页精准分类方法,对数据集进行特征提取并去除数据集中的噪声数据,一是基于CBL模型的特征提取方法进行特征提取,将原始高维空间特征映射或者变换为新的低维空间特征,将无用的噪声数据映射到较弱的维度上,大幅降低原始空间中的特征项,并根据特征项的关联性选取具有代表性的特征项,达到降维的目的;二是基于CBL模型的噪声处理方法去除噪声数据,将数据集按所属类别划分成若干子集,构建每个子集对应的概率特征主题模型,并计算数据集中的网页与子集概率特征主题模型的信息熵值,如果网页的信息熵值大于给定的临界值,则该网页属于噪声数据,清理该垃圾信息,大幅提高网页分类的准确度和精度。大幅提高网页分类的准确度和精度。大幅提高网页分类的准确度和精度。

【技术实现步骤摘要】
CBL特征提取与去噪的网页精准分类方法


[0001]本专利技术涉及一种网页精准分类方法,特别涉及一种CBL特征提取与去噪的网页精准分类方法,属于网页分类


技术介绍

[0002]互联网作为一个可扩展性的、分布式的平台飞速发展,互联网上的信息资源以指数级的速度不断增长,网页是互联网信息传播和发展最主要的载体,海量网络资源遍布于我们生产生活中的各个领域,由于互联网上的内容在不断的更新变化,网页结构也可以随意设置,导致网页呈现方式多种多样,它们没有固定的结构模板,且网页内容和布局风格各不一致。如果单纯依靠纯手工方式为网页分类,其效率很低,已经无法满足日益膨胀的移动互联网用户的需求。为了能够快速高效的解析这些海量级别的网页信息,自动化的网页分类技术是当前的发展方向,它在这个网络信息量以指数速度增长的时代彰显了巨大的潜力与价值。
[0003]自动化网页分类对于提高整个互联网特别是移动互联网的服务质量及用户体验有至关重要的作用:第一,能够帮助分析用户行为,用户行为即用户在互联网上某一网站上点击鼠标浏览网页的行为,一些购物网站的个性化推荐之所以能够如此成功就是因为在用户允许的前提下对这些用户行为信息的分析和理解。第二,能够提高广告投放的精准性,采用搜索引擎所固有的大型用户行为数据库,互联网广告定向投放技术对用户的上网行为进行分析和理解,按照广告的受众对象进行一对一投放,然后按照投放效果付费,而推送结果的准确性完全取决于推荐系统对网页和广告是否进行了有效的分类,如果系统对网页和广告进行了有效的分类,当用户搜索电子产品时,系统就推送关联的电子产品的广告给该用户,提高定向投放广告的精确性,从而提高网络上广告的点击率,还能增加关联互联网企业的收入,提高关联产品的销量,同时让用户在最短的时间内找到自己需要的和心仪的商品。第三,能够提高用户体验,搜索引擎的搜索结果的质量直接决定用户体验的高低,如果搜索引擎仅仅根据用户给出的关键词来匹配网页,而不考虑用户的搜索意图和理解用户的关键词所对应的主题,是无法满足用户需求的。如果在系统中对网页按主题进行分类,能有效避免这种情况,搜索引擎可以从语义的角度匹配网页,从而可大幅提高用户体验。
[0004]中文网页分类以文本分类为基石,虽然文本分类的技术已经成熟应用到生活中的各个领域,但因为网页数据结构的不规则化导致网页分类比文本分类复杂的多。比如,文本分类的数据集来自文本专利技术件或数据库中的数据项,具有非常规范的数据结构,获取数据集的特征项非常容易,但网页在大多数情况下都是HTML文件,HTML是半结构化或无结构化的标签语言,网页的主题信息都存在于HTML的标签中,噪声数据以及垃圾信息也可以存在于HTML的标签中的任何位置,这种不规范无规则的网页导致从网页中提取网页主题信息变得越来越不容易,这为网页分类迎来了巨大的困难。
[0005]第一,所提取的网页主题内容不够精确,网页没有固定的模块,也没有固定的结构,所以如何提取网页主题内容难度较大,另外,网页上不仅包含网页主题内容信息,同时
也掺杂着各种广告、导航条、无用链接等无关信息,因为网页的无结构化,这些垃圾信息、噪声数据可以填充在网页的任何位置,它们严重影响网页分类的准确率。
[0006]第二,网页数据量过于庞大,不能满足网页分类系统实时性的要求,网络数据信息无时无刻不在更新,数据量每时每刻都在增加,网页分类系统实时性的要求已非常严峻,只有不断改进分类方法的计算速度,或提出新的分类方法,才能使得网页分类系统的准确度和精确度得以提升,才能实现高效的用户体验,满足用户日益增长的需求。
[0007]现有技术基于向量空间模型的网页分类算法将网页文档的特征项表示成一个多维向量,向量的维度和特征项数目一致,且每一维代表一个特征项,如果一个特征项出现在网页文档中,则它在该维度上的权重是非零的,向量空间模型将半结构化或非结构化的网页文档数据转换成对应的网页文档特征向量后,采用分类或聚类算法实现网页分类,经典的算法包括k

means算法、支持向量机算法、朴素贝叶斯算法、k近邻算法等,但这些分类算法主要通用计算网页文档特征向量的相似性来判断网页文档类别,当网页文档数量达到万亿数量级时,计算文档之间相似性的时间复杂度太高,此外,分类结果或聚类结果基于关键词信息匹配,没有考虑语义上的信息,即不能解决一词多义和多词一义的情况,这会导致用户体验度低。
[0008]现有技术基于线性代数的网页主题分类算法使语义空间中语义相近的词构成主题来解决传统方法中采用关键词匹配不足的问题,其缺点在于采用SVD矩阵分解,矩阵分解求解过程复杂,且SVD分解的结果在特征向量的很多维度上非正导致LSI的语义概念空间不理想,另外,LSI使某些类别判别能力较强的特征项在映射到概念空间后被删除掉,导致网页分类精度受到较大影响。
[0009]现有技术基于概率特征主题模型的网页主题分类算法中,文档服从主题的多项分布,即每个主题都以一定的概率选择文档,主题服从词条的多项分布,即每个词条以一定的概率属于该主题,当知道网页文档中词条分布的情况后,采用概率方法可推导出文档关于主题分布及主题关于词条分布的情况,PLSI最具代表性的主题模型,但PLSI算法存在当网页数据量大量增加时,会出现过度拟合问题,且PLSI模型中的参数会随着网页数据量的增加而增长,导致计算复杂度会大幅提高。
[0010]综合来看,现有技术的网页分类技术存在不足,本专利技术的难点和待解决的问题主要集中在以下方面:
[0011]第一,由于互联网上的内容在不断的更新变化,网页结构也可以随意设置,导致网页呈现方式多种多样,它们没有固定的结构模板,且网页内容和布局风格各不一致,如果单纯依靠纯手工方式为网页分类,其低效很低,已经无法满足日益膨胀的移动互联网用户的需求,虽然文本分类技术已经成熟应用,但因为网页数据结构的不规则化导致网页分类比文本分类复杂的多,网页在大多数情况下都是HTML文件,网页的主题信息都存在于HTML的标签中,噪声数据以及垃圾信息也可以存在于HTML的标签中的任何位置,这种不规范无规则的网页导致从网页中提取网页主题信息变得越来越不容易,这为网页分类迎来了巨大的困难;
[0012]第二,现有技术所提取的网页主题内容不够精确,网页没有固定的模块,也没有固定的结构,提取网页主题内容难度较大,另外,网页上不仅包含网页主题内容信息,同时也掺杂着各种广告、导航条、无用链接等无关信息,因为网页的无结构化,这些垃圾信息、噪声
数据可以填充在网页的任何位置,它们严重影响网页分类的准确率;另外,网页数据量过于庞大,现有技术不能满足网页分类系统实时性的要求,网络数据信息无时无刻不在更新,网页分类系统实时性的要求已非常严峻,只有不断改进分类方法的计算速度,或提出新的分类方法,才能使得网页分类系统的准确度和精确度得以提升,才能实现高效的用户体验;
[0013]第三,现有技术的网页分类技术大多采用已有语料库作数据集,而这些语料库提取的网页基本上都已过时,不能反映当前的热点问题,并且已有的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.CBL特征提取与去噪的网页精准分类方法,其特征在于,提出CBL概率特征主题模型,对数据集进行特征提取并去除数据集中的噪声数据,一是采用基于CBL模型的特征提取方法进行特征提取,采用映射或变换的方法将原始高维空间特征映射或者变换为新的低维空间特征,从而将无用的噪声数据映射到较弱的维度上,大幅降低原始空间中的特征项,并根据特征项的关联性选取具有代表性的特征项,以达到降维的目的;二是采用基于CBL模型的噪声处理方法去除噪声数据,将数据集按所属类别划分成若干子集,构建每个子集对应的概率特征主题模型,并计算数据集中的网页与子集概率特征主题模型的信息熵值,对这些信息熵值进行排序,如果网页的信息熵值大于给定的临界值,则认为该网页属于噪声数据,并将其删除,CBL噪声处理模型清理原始数据集中的垃圾信息,提高数据集的质量,大幅提高网页分类模型的准确度和精度;CBL概率特征主题模型对网页文本集进行特征降维,同时去除网页文本集中的噪声数据,在CBL特征提取模型中,采用概率特征主题模型进行特征提取,采用Gibbs抽样算法来估算概率特征主题模型中的主题

词条分布α和文本

主题分布β,在CBL噪声处理模型中,将网页数据集按类别划分,构建子集对应的概率特征主题模型,计算网页与子集概率特征主题模型的信息熵值,对这些信息熵值进行排序,如果网页的信息熵值大于给定临界值,则认为该网页属于噪声数据,最终净化网页数据集。2.根据权利要求1所述的CBL特征提取与去噪的网页精准分类方法,其特征在于,CBL模型的网页特征提取:首先过滤特征不明显的词条,保留那些能够很好的代表网页主题信息的词条项,降低特征维度,经过对词条初步降维后,再采用基于CBL模型的特征提取方法将高维特征转换到低维空间上,进一步降低词条维度;CBL概率特征主题模型用映射的方法将原始高维空间特征映射为新的低维空间特征,与过滤方式不同的是该方法采用映射的方式将无用的噪声数据映射到较弱的维度上,而不是采用过滤方式直接通过特征评价函数对每一个词条评价其重要性来决定是否保留,特征提取过程为:过程一,网页数据集A;过程二,采用Gibbs抽样算法对概率特征主题模型中的待估算参数进行估算,训练概率特征主题模型的隐含变量,抽取概率特征主题模型;过程三,输出概率特征主题模型中的文本

主题矩阵和主题

词条矩阵;过程四,选取每个主题下词条概率大于等于给定临界值的词条;过程五,合并过程四中相同的词条,作为最终的特征项。3.根据权利要求2所述的CBL特征提取与去噪的网页精准分类方法,其特征在于,采样抽取概率特征主题模型算法:概率特征主题模型中的关键变量是主题

词条分布α和文本

主题分布β,且属于隐含变量,概率特征主题模型根据观察变量来学习并估算,采用近似推理来学习估算概率特征主题模型中的隐含变量,Gibbs抽样基于MCMC算法,在每次迭代时选择向量中的一个维度,采用向量中的其它维度的值来估算当前维度的值,即当前维度的值和其它所有维度的值关联,不断迭代上述步骤,直到待估算的参数收敛为止,在抽取概率特征主题模型的参数时,根据可观察变量即词条

文本矩阵,计算主题v的后验概率分布,间接计算出文本关于主题的概率分布β和主题关于词条的概率分布α,后验概率特征主题v估算式为:
其中,词条p为观察变量,φ、θ、β、v为隐含变量,超参数φ表示w(β)分布需要一个向量参数,w(β)是主题向量β的分布,用于生成一个主题β向量,超参数θ表示词条

主题概率分布矩阵w(p|v),v
i
=u表示把主题u赋给词条p
i
作为主题,v

i
表示不包含当前词条p
i
后其它所有词条的主题分配,即当前词条属于各个主题的概率由不包含当前词条的其它所有词条的主题分布来估算;是除主题v
i
=u外后主题u包含的所有词条数;是词条p
i
在主题u中的个数;是除v
i
=u外后文本a包含的所有词语个数;是文本a包含主题u中的词语个数,主题

词条分布α和文本

主题分布β计算式为:主题分布β计算式为:采样抽取概率特征主题模型的抽样流程为:流程一,初始时,对于文本数据集A中的每一个文本a,随机给文本a中的每个词语p
i
(i=1,2,

,M
a
)分配主题v
(0)
,v
(0)
表示U个主题中的某一个主题,即词语p
i
对应主题向量中的某一个主题;流程二,统计每个主题v下出现词p
i
(i=1,2,

,M
a
)的数量,即主题

词条分布;流程三,统计每个文本a下出现主题v中的词的数量,即文本

主题分布;流程四,计算W(v
i
=u|v

i
,p
i
);流程五,得到当前词p
i
所有主题v的概率分布后,根据概率分布为当前词p
i
抽取一个新的主题v
(1)
;流程六,重复上述步骤,更新所有词的主题,直到主题

词条分布α和文本

主题分布β收敛,算法停止,输出待估算参数α和β,同时每个词p
i
(i=1,2,

,M
a
)所属的主题v也能够得到。4.根据权利要求1所述的CBL特征提取与去噪的网页精准分类方法,其特征在于,网页噪声处理方法:CBL噪声处理模型在概率特征主题模型的结构上加入了文本

类别层,网页数据集中的所有网页文本均按类别划分,S=(s1,s2,

s
|s|
),|S|表示网页所属类别的总数,每一个类别下的每一个网页文本均服从网页主题的多项分布,CBL模型给隐含主题增加类别标签,它将网页文本的类别信息嵌入到模型中;对于网页文本集中的某些文本,分类模型无法判别其类别,去除该类文本,引入文本

类别层后,采用Gibbs抽样算法训练每个类别下的概率特征主题模型,然后比较训练集中的每个文本属于每个类别对应的概率特征主题模型的概...

【专利技术属性】
技术研发人员:刘秀萍陈军
申请(专利权)人:荆门汇易佳信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1