【技术实现步骤摘要】
本专利技术涉及互联网
,尤其涉及一种验证网页分类模型的方法及装置。
技术介绍
随着互联网的高速发展,互联网上的信息越来越丰富,通过网页分类可以使用户快捷方便的找到所需的信息,因此网页分类得到广泛的应用。目前,网页分类的通用做法是:先标注一批网页,对这些网页进行特征提取,通过机器学习等算法对所提取的特征进行训练得到网页分类模型,最后基于得到的网页分类模型对网页进行分类。随着时间的推移,上述网页分类模型有可能不再适用当前网页,这会导致网页分类发生错误,因此亟需一种有效验证网页分类模型是否仍然有效的方法。
技术实现思路
本专利技术的多个方面提供一种验证网页分类模型的方法及装置,用以验证网页分类模型的有效性。本专利技术的一方面,提供一种验证网页分类模型的方法,包括:对待验证的网页分类模型所适用的种子站点进行抓取处理,并根据所述网页分类模型对抓取处理所抓取的网页进行分类处理,获得抓取处理对应的正例比例,所述抓取处理对应的正例比例是指抓取处理所抓取的网页中被分类为所述网页分类模型所属类型的网页数量与抓取处理所抓取到的网页总数的比值;根据所述抓取处理对应的正例比例,确定所述网页分类模型是否失效。本专利技术的另一方面,提供一种验证网页分类模型的装置,包括:抓取模块,用于对待验证的网页分类模型所适用的种子站点进行抓取处理;获得模块,用于根据所述网页分类模型对抓取处理所抓取的网页 ...
【技术保护点】
一种验证网页分类模型的方法,其特征在于,包括:对待验证的网页分类模型所适用的种子站点进行抓取处理,并根据所述网页分类模型对抓取处理所抓取的网页进行分类处理,获得抓取处理对应的正例比例,所述抓取处理对应的正例比例是指抓取处理所抓取的网页中被分类为所述网页分类模型所属类型的网页数量与抓取处理所抓取的网页总数的比值;根据所述抓取处理对应的正例比例,确定所述网页分类模型是否失效。
【技术特征摘要】
1.一种验证网页分类模型的方法,其特征在于,包括:
对待验证的网页分类模型所适用的种子站点进行抓取处理,并根据所述网
页分类模型对抓取处理所抓取的网页进行分类处理,获得抓取处理对应的正例
比例,所述抓取处理对应的正例比例是指抓取处理所抓取的网页中被分类为所
述网页分类模型所属类型的网页数量与抓取处理所抓取的网页总数的比值;
根据所述抓取处理对应的正例比例,确定所述网页分类模型是否失效。
2.根据权利要求1所述的方法,其特征在于,所述对待验证的网页分类模
型所适用的种子站点进行抓取处理,并根据所述网页分类模型对抓取处理所抓
取的网页进行分类处理,获得抓取处理对应的正例比例,包括:
在第一时间对所述种子站点进行第一次抓取处理,并根据所述网页分类模
型对所述第一次抓取处理所抓取的网页进行分类处理,获得第一正例比例;
在第二时间对所述种子站点进行第二次抓取处理,并根据所述网页分类模
型对所述第二次抓取处理所抓取的网页进行分类处理,获得第二正例比例;
所述根据所述抓取处理对应的正例比例,确定所述网页分类模型是否失效,
包括:
将所述第一正例比例和所述第二正例比例的差值与预设的比例阈值进行比
较;
如果所述差值大于所述比例阈值,确定所述网页分类模型失效;
如果所述差值小于或等于所述比例阈值,确定所述网页分类模型有效。
3.根据权利要求1所述的方法,其特征在于,所述对待验证的网页分类模
型所适用的种子站点进行抓取处理,并根据所述网页分类模型对抓取处理所抓
取的网页进行分类处理,获得抓取处理对应的正例比例,包括:
定期对所述种子站点进行抓取处理,根据所述网页分类模型对当前抓取处
理所抓取的网页进行分类处理,获得当前抓取处理对应的正例比例;
所述根据所述抓取处理对应的正例比例,确定所述网页分类模型是否失效,
\t包括:
将当前抓取处理对应的正例比例和前一次抓取处理对应的正例比例的差值
与预设的比例阈值进行比较;
如果所述差值大于所述比例阈值,确定所述网页分类模型失效;
如果所述差值小于或等于所述比例阈值,确定所述网页分类模型有效。
4.根据权利要求1所述的方法,其特征在于,所述对待验证的网页分类模
型所适用的种子站点进行抓取处理,并根据所述网页分类模型对抓取处理所抓
取的网页进行分类处理,获得抓取处理对应的正例比例,包括:
从所述网页分类模型所适用的种子站点中确定权重值大于预设权重阈值的
种子站点;
对所确定的权重值大于预设权重阈值的种子站点进行抓取处理,并根据所
述网页分类模型对抓取处理所抓取的网页进行分类处理,获得抓取处理对应的
正例比例。
5.根据权利要求1或2或3或4所述的方法,其特征在于,所述对待验证
的网页分类模型所适用的种子站点进行抓取处理之前,还包括:
确定使用所述网页分类模型对输入网页进行分类的程序未发生变化;或者
在确定使用所述网页分类模型对输入网页进行分类的程序发生变化时,确
定所述网页分类模型对已标注类型的网页进行分类处理的分类结果与所述已标
注类型的网页的标注类型一致。
6.根据权利要求1或2或3或4所述的方法,其特征在于,还包括:
在确定所述网页分类模型有效后,确定使用所述网页分类模型对输入网页
进行分类的程序是否发生变化;
在确定使用所述网页分类模型对输入网页进行分类的程序发生变化时,...
【专利技术属性】
技术研发人员:刘晶,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。