网页分类方法、装置、计算机装置及计算机可读存储介质制造方法及图纸

技术编号:22689554 阅读:37 留言:0更新日期:2019-11-30 03:56
本发明专利技术适用于互联网技术领域,提供了网页分类方法、装置、计算机装置及计算机可读存储介质,该方法包括:将获取的主题型网页的URL链接和HTML源码、及获取的列表型网页的URL链接和HTML源码作为训练集;根据训练集的URL链接提取网页URL特征,根据训练集的HTML源码提取标签特征,将训练集的HTML源码中与关联的URL链接相似度大于预设阈值的URL链接的数量、及HTML源码的大小作为页面特征;将训练集的网页URL特征、标签特征、及页面特征向量化,并输入随机森林算法模型进行训练,得到分类器;获取测试集的网页URL特征、标签特征及页面特征,将测试集的网页URL特征、标签特征及页面特征输入分类器,得到网页分类结果。本发明专利技术提供的网页分类方法,可提高网页分类的准确率。

Web page classification method, device, computer device and computer readable storage medium

The invention is applicable to the field of Internet technology, and provides a web page classification method, a device, a computer device and a computer readable storage medium. The method includes: Taking the URL link and the HTML source code of the obtained subject web page, and the URL link and the HTML source code of the obtained list web page as a training set; extracting the web page URL feature according to the URL link of the training set, and taking the HTML source of the training set as a training set The number of URL links in the training set's HTML source code that are more similar to the associated URL links than the preset threshold, and the size of the HTML source code are taken as page features; the URL features, tag features, and page features of the training set are vectorized and input into the on-board forest algorithm model for training to get the classifier; the URL features and tags of the test set are obtained Signature feature and page feature, the URL feature, tag feature and page feature of the test set are input into the classifier to get the page classification results. The web page classification method provided by the invention can improve the accuracy rate of web page classification.

【技术实现步骤摘要】
网页分类方法、装置、计算机装置及计算机可读存储介质
本专利技术属于互联网
,尤其涉及一种网页分类方法、装置、计算机装置及计算机可读存储介质。
技术介绍
随着互联网的飞速发展,网页的数量和种类迅速增长,使得人们从网页中获取有价值的信息的难度变大。为充分利用网页内容,需要对网页进行分类。目前的网页分类技术主要是通过一种半自动化的方式对网页进行分类,通过分类算法和人工审核协调完成。在算法阶段,一般采用如朴素贝叶斯、决策树和支持向量机等传统的分类算法对网页类型进行初步判断,然后在人工审核阶段,通过人工来进行审查。在算法阶段使用经典的决策树等分类算法,通过分析不同网页的html结构特征来实现分类技术,存在的不足主要有:(1)决策树算法无法在线学习、趋向于过拟合、在进行分类时容易陷入局部最优解;(2)选取的html结构特征数量较少,考虑的html结构特征不全面,容易影响最终的分类效果,分类准确性较差。在面对大量需要分类的网页数据时,半自动化的方式无法满足要求,且通过人工进行审查,这样导致分类技术可扩展性较差,同时时间成本也很高。由此可见,现有的网页分类技术存在准确性较低、可扩展性差及时间成本高的问题。
技术实现思路
本专利技术实施例提供一种网页分类方法,旨在解决现有网页分类技术存在的准确性较低、可扩展性差及时间成本高的问题。本专利技术是这样实现的,一种网页分类方法,包括:将获取的N个主题型网页的URL链接和HTML源码、及获取的N个列表型网页的URL链接和HTML源码作为训练集;根据所述训练集的URL链接提取所述训练集的网页URL特征,根据所述训练集的HTML源码提取所述训练集的标签特征,将所述训练集的HTML源码中与关联的URL链接相似度大于预设阈值的URL链接的数量、及HTML源码的大小作为所述训练集的页面特征;将所述训练集的所述网页URL特征、所述标签特征、及所述页面特征向量化,并将向量化网页URL特征、向量化标签特征、及向量化页面特征输入随机森林算法模型进行训练,得到分类器;将获取的M个主题型网页的URL链接和HTML源码、及获取的M个列表型网页的URL链接和HTML源码作为测试集;获取所述测试集的网页URL特征、标签特征及页面特征,将所述测试集的网页URL特征、标签特征及页面特征输入所述分类器,得到网页分类结果。可选的,所述根据所述训练集的URL链接提取所述训练集的网页URL特征包括以下过程:判断所述训练集的URL链接是否包含时间特征、域名特征及消极特征,将判断结果作为所述训练集的网页URL特征。可选的,所述根据所述训练集的HTML源码提取所述训练集的标签特征包括以下过程:将所述训练集的HTML源码的噪声标签及所述噪声标签对应的内容进行删除处理,得到有效标签;获取所述有效标签的标签特征,所述标签特征包括:标签序号、标签文本长度、左标签长度、右标签长度、标签文本标点符号数量、标签层次、叶子标签合并个数、非叶子标签合并个数和总标签合并个数;采用递归消除算法对所述有效标签进行排序,选取排序最高的R个标签作为保留标签;在所述保留标签中不存在相同类型的标签的情况下,将所述保留标签的标签特征作为所述训练集的标签特征;在所述保留标签中存在相同类型的标签的情况下,将所述保留标签中的相同类型的标签合并,确定所述相同类型的标签的标签特征,将所述保留标签中除所述相同类型的标签之外的标签的标签特征及所述确定的标签特征作为所述训练集的标签特征。可选的,所述获取所述测试集的网页URL特征、标签特征及页面特征包括以下过程:根据所述测试集的URL链接提取所述测试集的网页URL特征,根据所述测试集的HTML源码提取所述测试集的标签特征,将所述测试集的HTML源码中与关联的URL链接相似度大于预设阈值的URL链接的数量、及HTML源码的大小作为所述测试集的页面特征。可选的,所述获取所述测试集的网页URL特征、标签特征及页面特征,将所述测试集的网页URL特征、标签特征及页面特征输入所述分类器,得到网页分类结果之后,所述网页分类方法还包括以下过程:判断所述网页分类结果的分类精度及召回率是否大于预设阈值;在所述网页分类结果的分类精度及召回率大于预设阈值的情况下,则将所述网页分类结果作为最终结果;在所述网页分类结果的分类精度及召回率小于或等于预设阈值的情况下,则调整所述分类器的配置参数,直至得到分类精度及召回率大于预设阈值的网页分类结果。本专利技术还提供一种网页分类装置,包括:第一获取模块,用于将获取的N个主题型网页的URL链接和HTML源码、及获取的N个列表型网页的URL链接和HTML源码作为训练集;处理模块,用于根据所述训练集的URL链接提取所述训练集的网页URL特征,根据所述训练集的HTML源码提取所述训练集的标签特征,将所述训练集的HTML源码中与关联的URL链接相似度大于预设阈值的URL链接的数量、及HTML源码的大小作为所述训练集的页面特征;训练模块,用于将所述训练集的所述网页URL特征、所述标签特征、及所述页面特征向量化,并将向量化网页URL特征、向量化标签特征、及向量化页面特征输入随机森林算法模型进行训练,得到分类器;第二获取模块,用于将获取的M个主题型网页的URL链接和HTML源码、及获取的M个列表型网页的URL链接和HTML源码作为测试集;分类模块,用于获取所述测试集的网页URL特征、标签特征及页面特征,将所述测试集的网页URL特征、标签特征及页面特征输入所述分类器,得到网页分类结果。可选的,所述处理模块,还用于判断所述训练集的URL链接是否包含时间特征、域名特征及消极特征,将判断结果作为所述训练集的网页URL特征。可选的,所述处理模块还包括:删除子模块,用于将所述训练集的HTML源码的噪声标签及所述噪声标签对应的内容进行删除处理,得到有效标签;获取子模块,用于获取所述有效标签的标签特征,所述标签特征包括:标签序号、标签文本长度、左标签长度、右标签长度、标签文本标点符号数量、标签层次、叶子标签合并个数、非叶子标签合并个数和总标签合并个数;排序子模块,用于采用递归消除算法对所述有效标签进行排序,选取排序最高的R个标签作为保留标签;第一处理子模块,用于在所述保留标签中不存在相同类型的标签的情况下,将所述保留标签的标签特征作为所述训练集的标签特征;第二处理子模块,用于在所述保留标签中存在相同类型的标签的情况下,将所述保留标签中的相同类型的标签合并,确定所述相同类型的标签的标签特征,将所述保留标签中除所述相同类型的标签之外的标签的标签特征及所述确定的标签特征作为所述训练集的标签特征。可选的,所述网页分类装置还包括:判断模块,用于判断所述网页分类结果的分类精度及召回率是否大于预设阈值;调整模块,用于在所述网页分类结果的分类精度及召回率大于预设阈值的情况下,则将所述网页分类结果作为最终结果;在所述网页本文档来自技高网...

【技术保护点】
1.一种网页分类方法,其特征在于,所述网页分类方法包括:/n将获取的N个主题型网页的URL链接和HTML源码、及获取的N个列表型网页的URL链接和HTML源码作为训练集;/n根据所述训练集的URL链接提取所述训练集的网页URL特征,根据所述训练集的HTML源码提取所述训练集的标签特征,将所述训练集的HTML源码中与关联的URL链接相似度大于预设阈值的URL链接的数量、及HTML源码的大小作为所述训练集的页面特征;/n将所述训练集的所述网页URL特征、所述标签特征、及所述页面特征向量化,并将向量化网页URL特征、向量化标签特征、及向量化页面特征输入随机森林算法模型进行训练,得到分类器;/n将获取的M个主题型网页的URL链接和HTML源码、及获取的M个列表型网页的URL链接和HTML源码作为测试集;/n获取所述测试集的网页URL特征、标签特征及页面特征,将所述测试集的网页URL特征、标签特征及页面特征输入所述分类器,得到网页分类结果。/n

【技术特征摘要】
1.一种网页分类方法,其特征在于,所述网页分类方法包括:
将获取的N个主题型网页的URL链接和HTML源码、及获取的N个列表型网页的URL链接和HTML源码作为训练集;
根据所述训练集的URL链接提取所述训练集的网页URL特征,根据所述训练集的HTML源码提取所述训练集的标签特征,将所述训练集的HTML源码中与关联的URL链接相似度大于预设阈值的URL链接的数量、及HTML源码的大小作为所述训练集的页面特征;
将所述训练集的所述网页URL特征、所述标签特征、及所述页面特征向量化,并将向量化网页URL特征、向量化标签特征、及向量化页面特征输入随机森林算法模型进行训练,得到分类器;
将获取的M个主题型网页的URL链接和HTML源码、及获取的M个列表型网页的URL链接和HTML源码作为测试集;
获取所述测试集的网页URL特征、标签特征及页面特征,将所述测试集的网页URL特征、标签特征及页面特征输入所述分类器,得到网页分类结果。


2.根据权利要求1所述的网页分类方法,其特征在于,所述根据所述训练集的URL链接提取所述训练集的网页URL特征包括以下过程:
判断所述训练集的URL链接是否包含时间特征、域名特征及消极特征,将判断结果作为所述训练集的网页URL特征。


3.根据权利要求1所述的网页分类方法,其特征在于,所述根据所述训练集的HTML源码提取所述训练集的标签特征包括以下过程:
将所述训练集的HTML源码的噪声标签及所述噪声标签对应的内容进行删除处理,得到有效标签;
获取所述有效标签的标签特征,所述标签特征包括:标签序号、标签文本长度、左标签长度、右标签长度、标签文本标点符号数量、标签层次、叶子标签合并个数、非叶子标签合并个数和总标签合并个数;
采用递归消除算法对所述有效标签进行排序,选取排序最高的R个标签作为保留标签;
在所述保留标签中不存在相同类型的标签的情况下,将所述保留标签的标签特征作为所述训练集的标签特征;
在所述保留标签中存在相同类型的标签的情况下,将所述保留标签中的相同类型的标签合并,确定所述相同类型的标签的标签特征,将所述保留标签中除所述相同类型的标签之外的标签的标签特征及所述确定的标签特征作为所述训练集的标签特征。


4.根据权利要求1所述的网页分类方法,其特征在于,所述获取所述测试集的网页URL特征、标签特征及页面特征包括以下过程:
根据所述测试集的URL链接提取所述测试集的网页URL特征,根据所述测试集的HTML源码提取所述测试集的标签特征,将所述测试集的HTML源码中与关联的URL链接相似度大于预设阈值的URL链接的数量、及HTML源码的大小作为所述测试集的页面特征。


5.根据权利要求1-4中任一项所述的网页分类方法,其特征在于,所述得到网页分类结果之后,所述网页分类方法还包括以下过程:
判断所述网页分类结果的分类精度及召回率是否大于预设阈值;
在所述网页分类结果的分类精度及召回率大于预设阈值的情况下,则将所述网页分类结果作为最终结果;在所述网页分类结果的分类精度及召回率小于或等于预设阈值的情况下,则调整所述分类器的配置参数,直至得到分类精度及召回率大于预设阈值的网页分类结果。


6.一种网页分类装置,其特征在于,所述网页分类装置包括:
第一获取模块,用于将获取的N个主题型网页的URL链接和HTML源码、及获取的N个列表型...

【专利技术属性】
技术研发人员:林鹏吴潇黄九鸣张圣栋
申请(专利权)人:湖南星汉数智科技有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1