【技术实现步骤摘要】
CBL特征提取与去噪的网页精准分类方法
[0001]本专利技术涉及一种网页精准分类方法,特别涉及一种CBL特征提取与去噪的网页精准分类方法,属于网页分类
技术介绍
[0002]互联网作为一个可扩展性的、分布式的平台飞速发展,互联网上的信息资源以指数级的速度不断增长,网页是互联网信息传播和发展最主要的载体,海量网络资源遍布于我们生产生活中的各个领域,由于互联网上的内容在不断的更新变化,网页结构也可以随意设置,导致网页呈现方式多种多样,它们没有固定的结构模板,且网页内容和布局风格各不一致。如果单纯依靠纯手工方式为网页分类,其效率很低,已经无法满足日益膨胀的移动互联网用户的需求。为了能够快速高效的解析这些海量级别的网页信息,自动化的网页分类技术是当前的发展方向,它在这个网络信息量以指数速度增长的时代彰显了巨大的潜力与价值。
[0003]自动化网页分类对于提高整个互联网特别是移动互联网的服务质量及用户体验有至关重要的作用:第一,能够帮助分析用户行为,用户行为即用户在互联网上某一网站上点击鼠标浏览网页的行为,一些购物网站的个性化推荐之所以能够如此成功就是因为在用户允许的前提下对这些用户行为信息的分析和理解。第二,能够提高广告投放的精准性,采用搜索引擎所固有的大型用户行为数据库,互联网广告定向投放技术对用户的上网行为进行分析和理解,按照广告的受众对象进行一对一投放,然后按照投放效果付费,而推送结果的准确性完全取决于推荐系统对网页和广告是否进行了有效的分类,如果系统对网页和广告进行了有效的分类,当用户搜索电子产品 ...
【技术保护点】
【技术特征摘要】
1.CBL特征提取与去噪的网页精准分类方法,其特征在于,提出CBL概率特征主题模型,对数据集进行特征提取并去除数据集中的噪声数据,一是采用基于CBL模型的特征提取方法进行特征提取,采用映射或变换的方法将原始高维空间特征映射或者变换为新的低维空间特征,从而将无用的噪声数据映射到较弱的维度上,大幅降低原始空间中的特征项,并根据特征项的关联性选取具有代表性的特征项,以达到降维的目的;二是采用基于CBL模型的噪声处理方法去除噪声数据,将数据集按所属类别划分成若干子集,构建每个子集对应的概率特征主题模型,并计算数据集中的网页与子集概率特征主题模型的信息熵值,对这些信息熵值进行排序,如果网页的信息熵值大于给定的临界值,则认为该网页属于噪声数据,并将其删除,CBL噪声处理模型清理原始数据集中的垃圾信息,提高数据集的质量,大幅提高网页分类模型的准确度和精度;CBL概率特征主题模型对网页文本集进行特征降维,同时去除网页文本集中的噪声数据,在CBL特征提取模型中,采用概率特征主题模型进行特征提取,采用Gibbs抽样算法来估算概率特征主题模型中的主题
‑
词条分布α和文本
‑
主题分布β,在CBL噪声处理模型中,将网页数据集按类别划分,构建子集对应的概率特征主题模型,计算网页与子集概率特征主题模型的信息熵值,对这些信息熵值进行排序,如果网页的信息熵值大于给定临界值,则认为该网页属于噪声数据,最终净化网页数据集。2.根据权利要求1所述的CBL特征提取与去噪的网页精准分类方法,其特征在于,CBL模型的网页特征提取:首先过滤特征不明显的词条,保留那些能够很好的代表网页主题信息的词条项,降低特征维度,经过对词条初步降维后,再采用基于CBL模型的特征提取方法将高维特征转换到低维空间上,进一步降低词条维度;CBL概率特征主题模型用映射的方法将原始高维空间特征映射为新的低维空间特征,与过滤方式不同的是该方法采用映射的方式将无用的噪声数据映射到较弱的维度上,而不是采用过滤方式直接通过特征评价函数对每一个词条评价其重要性来决定是否保留,特征提取过程为:过程一,网页数据集A;过程二,采用Gibbs抽样算法对概率特征主题模型中的待估算参数进行估算,训练概率特征主题模型的隐含变量,抽取概率特征主题模型;过程三,输出概率特征主题模型中的文本
‑
主题矩阵和主题
‑
词条矩阵;过程四,选取每个主题下词条概率大于等于给定临界值的词条;过程五,合并过程四中相同的词条,作为最终的特征项。3.根据权利要求2所述的CBL特征提取与去噪的网页精准分类方法,其特征在于,采样抽取概率特征主题模型算法:概率特征主题模型中的关键变量是主题
‑
词条分布α和文本
‑
主题分布β,且属于隐含变量,概率特征主题模型根据观察变量来学习并估算,采用近似推理来学习估算概率特征主题模型中的隐含变量,Gibbs抽样基于MCMC算法,在每次迭代时选择向量中的一个维度,采用向量中的其它维度的值来估算当前维度的值,即当前维度的值和其它所有维度的值关联,不断迭代上述步骤,直到待估算的参数收敛为止,在抽取概率特征主题模型的参数时,根据可观察变量即词条
‑
文本矩阵,计算主题v的后验概率分布,间接计算出文本关于主题的概率分布β和主题关于词条的概率分布α,后验概率特征主题v估算式为:
其中,词条p为观察变量,φ、θ、β、v为隐含变量,超参数φ表示w(β)分布需要一个向量参数,w(β)是主题向量β的分布,用于生成一个主题β向量,超参数θ表示词条
‑
主题概率分布矩阵w(p|v),v
i
=u表示把主题u赋给词条p
i
作为主题,v
‑
i
表示不包含当前词条p
i
后其它所有词条的主题分配,即当前词条属于各个主题的概率由不包含当前词条的其它所有词条的主题分布来估算;是除主题v
i
=u外后主题u包含的所有词条数;是词条p
i
在主题u中的个数;是除v
i
=u外后文本a包含的所有词语个数;是文本a包含主题u中的词语个数,主题
‑
词条分布α和文本
‑
主题分布β计算式为:主题分布β计算式为:采样抽取概率特征主题模型的抽样流程为:流程一,初始时,对于文本数据集A中的每一个文本a,随机给文本a中的每个词语p
i
(i=1,2,
…
,M
a
)分配主题v
(0)
,v
(0)
表示U个主题中的某一个主题,即词语p
i
对应主题向量中的某一个主题;流程二,统计每个主题v下出现词p
i
(i=1,2,
…
,M
a
)的数量,即主题
‑
词条分布;流程三,统计每个文本a下出现主题v中的词的数量,即文本
‑
主题分布;流程四,计算W(v
i
=u|v
‑
i
,p
i
);流程五,得到当前词p
i
所有主题v的概率分布后,根据概率分布为当前词p
i
抽取一个新的主题v
(1)
;流程六,重复上述步骤,更新所有词的主题,直到主题
‑
词条分布α和文本
‑
主题分布β收敛,算法停止,输出待估算参数α和β,同时每个词p
i
(i=1,2,
…
,M
a
)所属的主题v也能够得到。4.根据权利要求1所述的CBL特征提取与去噪的网页精准分类方法,其特征在于,网页噪声处理方法:CBL噪声处理模型在概率特征主题模型的结构上加入了文本
‑
类别层,网页数据集中的所有网页文本均按类别划分,S=(s1,s2,
…
s
|s|
),|S|表示网页所属类别的总数,每一个类别下的每一个网页文本均服从网页主题的多项分布,CBL模型给隐含主题增加类别标签,它将网页文本的类别信息嵌入到模型中;对于网页文本集中的某些文本,分类模型无法判别其类别,去除该类文本,引入文本
‑
类别层后,采用Gibbs抽样算法训练每个类别下的概率特征主题模型,然后比较训练集中的每个文本属于每个类别对应的概率特征主题模型的概...
【专利技术属性】
技术研发人员:刘秀萍,陈军,
申请(专利权)人:荆门汇易佳信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。