验证网页分类模型的方法及装置制造方法及图纸

技术编号:13086217 阅读:51 留言:0更新日期:2016-03-30 17:05
本发明专利技术提供一种验证网页分类模型的方法及装置。方法包括:对待验证的网页分类模型所适用的种子站点进行抓取处理,并根据网页分类模型对抓取处理所抓取的网页进行分类处理,获得抓取处理对应的正例比例,抓取处理对应的正例比例是指抓取处理所抓取的网页中被分类为网页分类模型所属类型的网页数量与抓取处理所抓取到的网页总数的比值;根据抓取处理对应的正例比例,确定网页分类模型是否失效。本发明专利技术技术方案可以实现对网页分类模型有效性的验证。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种验证网页分类模型的方法及装置
技术介绍
随着互联网的高速发展,互联网上的信息越来越丰富,通过网页分类可以使用户快捷方便的找到所需的信息,因此网页分类得到广泛的应用。目前,网页分类的通用做法是:先标注一批网页,对这些网页进行特征提取,通过机器学习等算法对所提取的特征进行训练得到网页分类模型,最后基于得到的网页分类模型对网页进行分类。随着时间的推移,上述网页分类模型有可能不再适用当前网页,这会导致网页分类发生错误,因此亟需一种有效验证网页分类模型是否仍然有效的方法。
技术实现思路
本专利技术的多个方面提供一种验证网页分类模型的方法及装置,用以验证网页分类模型的有效性。本专利技术的一方面,提供一种验证网页分类模型的方法,包括:对待验证的网页分类模型所适用的种子站点进行抓取处理,并根据所述网页分类模型对抓取处理所抓取的网页进行分类处理,获得抓取处理对应的正例比例,所述抓取处理对应的正例比例是指抓取处理所抓取的网页中被分类为所述网页分类模型所属类型的网页数量与抓取处理所抓取到的网页总数的比值;根据所述抓取处理对应的正例比例,确定所述网页分类模型是否失效。本专利技术的另一方面,提供一种验证网页分类模型的装置,包括:抓取模块,用于对待验证的网页分类模型所适用的种子站点进行抓取处理;获得模块,用于根据所述网页分类模型对抓取处理所抓取的网页进行分类处理,获得抓取处理对应的正例比例,所述抓取处理对应的正例比例是指抓取处理所抓取的网页中被分类为所述网页分类模型所属类型的网页数量与抓取处理所抓取的网页总数的比值;第一确定模块,用于根据所述抓取处理对应的正例比例,确定所述网页分类模型是否失效。在本专利技术技术方案中,对待验证的网页分类模型所适用的种子站点进行抓取处理,利用该网页分类模型对抓取处理所抓取的网页进行分类处理,获得抓取处理对应的正例比例,根据抓取处理对应的正例比例,确定网页分类模型是否失效。其中,抓取处理对应的正例比例是指抓取处理所抓取到的网页中被分类为网页分类模型所属类型的网页数量与抓取处理所抓取到的网页总数的比值,该正例比例可以表征网页分类模型对不同网页的分类结果的准确度,通过网页分类模型对种子站点上不同网页的分类结果的准确度可以确定网页分类模型是否失效,实现了对网页分类模型有效性的验证。【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1a为本专利技术一实施例提供的验证网页分类模型的方法的流程示意图;图1b为本专利技术另一实施例提供的验证网页分类模型的方法的流程示意图;图2为本专利技术又一实施例提供的验证网页分类模型的方法的流程示意图;图3为本专利技术又一实施例提供的验证网页分类模型的方法的流程示意图;图4为本专利技术一实施例提供的验证网页分类模型的装置的结构示意图;图5为本专利技术另一实施例提供的验证网页分类模型的装置的结构示意图。【具体实施方式】为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1a为本专利技术一实施例提供的验证网页分类模型的方法的流程示意图。如图1a所示,该方法包括:101、对待验证的网页分类模型所适用的种子站点进行抓取处理,并根据该网页分类模型对抓取处理所抓取的网页进行分类处理,获得抓取处理对应的正例比例;其中,抓取处理对应的正例比例是指抓取处理所抓取的网页中被分类为上述网页分类模型所属类型的网页数量与抓取处理所抓取的网页总数的比值。102、根据上述抓取处理对应的正例比例,确定上述网页分类模型是否失效。本实施例的执行主体可以是各种具有能力执行本实施例提供的方法的设备,可以称为验证网页分类模型的装置,以下简称为验证装置。本实施例提供的方法可用于对任何一个网页分类模型进行有效性验证,对不同网页分类模型来说,验证其有效性的流程均相同。不同分类模型所属类型不同,例如主要用于对新闻类网页进行分类的网页分类模型所属的类型是新闻类,主要用于对论坛类网页进行分类的网页分类模型所属的类型是论坛类,主要用于对音乐类网页进行分类的网页分类模型所属的类型是音乐类,等等。不同网页分类模型所适用的种子站点并不相同,例如新闻类的网页分类模型主要适用于发布新闻网页的种子站点,音乐类的网页分类模型主要适用于发布音乐网页的种子站点,等等。在网页分类模型生成之后,可以使用网页分类模型对所适用于的种子站点上的网页进行分类。但是,随着时间的推移,种子站点上网页的内容或结构可能发生变化,例如网页改版或重新排版,有些变化会导致网页分类模型失效,需要重新训练新的网页分类模型。举例说明:假设原来的网页是一个论坛页,其网址:www.xxblog.com;在训练网页分类模型时,该网页有如下特征:统一资源定位符(UniformResourceLocator,URL)中站点(site)部分包含上述网址中的blog且为中心词,则基于该网页训练出的网页分类模型会将该URL下的网页判定为论坛网页。但是,如果网页改版,或者网页内容全部换成小说,而URL没有发生变化,如果还是按照以前的网页分类模型去分类,则还是会将该URL下的网页判定为论坛页,而实际上该URL下的网页已经是小说页了,说明原有网页分类模型失效,需要重新训练。为了验证网页分类模型是否依然有效,验证装置可以对待验证的网页分类模型所适用于的种子站点进行抓取处理,并利用该网页分类模型对抓取处理所抓取的网页进行分类处理,得到抓取处理对应的正例比例;之后,根据上述抓取处理对应的正例比例,确定网页分类模型是否失效。在此说明,一个网页分类模型可以用于很多个种子站点。本实施例中,上述网页分类模型所适用的种子站点可以是所有可以使用该网页分类模型的种子站点,或者也可以是从中所有可以使用该网页分类模型的种子站点中选取的部分种子站点。对上述网页分类模型所适用的种本文档来自技高网...

【技术保护点】
一种验证网页分类模型的方法,其特征在于,包括:对待验证的网页分类模型所适用的种子站点进行抓取处理,并根据所述网页分类模型对抓取处理所抓取的网页进行分类处理,获得抓取处理对应的正例比例,所述抓取处理对应的正例比例是指抓取处理所抓取的网页中被分类为所述网页分类模型所属类型的网页数量与抓取处理所抓取的网页总数的比值;根据所述抓取处理对应的正例比例,确定所述网页分类模型是否失效。

【技术特征摘要】
1.一种验证网页分类模型的方法,其特征在于,包括:
对待验证的网页分类模型所适用的种子站点进行抓取处理,并根据所述网
页分类模型对抓取处理所抓取的网页进行分类处理,获得抓取处理对应的正例
比例,所述抓取处理对应的正例比例是指抓取处理所抓取的网页中被分类为所
述网页分类模型所属类型的网页数量与抓取处理所抓取的网页总数的比值;
根据所述抓取处理对应的正例比例,确定所述网页分类模型是否失效。
2.根据权利要求1所述的方法,其特征在于,所述对待验证的网页分类模
型所适用的种子站点进行抓取处理,并根据所述网页分类模型对抓取处理所抓
取的网页进行分类处理,获得抓取处理对应的正例比例,包括:
在第一时间对所述种子站点进行第一次抓取处理,并根据所述网页分类模
型对所述第一次抓取处理所抓取的网页进行分类处理,获得第一正例比例;
在第二时间对所述种子站点进行第二次抓取处理,并根据所述网页分类模
型对所述第二次抓取处理所抓取的网页进行分类处理,获得第二正例比例;
所述根据所述抓取处理对应的正例比例,确定所述网页分类模型是否失效,
包括:
将所述第一正例比例和所述第二正例比例的差值与预设的比例阈值进行比
较;
如果所述差值大于所述比例阈值,确定所述网页分类模型失效;
如果所述差值小于或等于所述比例阈值,确定所述网页分类模型有效。
3.根据权利要求1所述的方法,其特征在于,所述对待验证的网页分类模
型所适用的种子站点进行抓取处理,并根据所述网页分类模型对抓取处理所抓
取的网页进行分类处理,获得抓取处理对应的正例比例,包括:
定期对所述种子站点进行抓取处理,根据所述网页分类模型对当前抓取处
理所抓取的网页进行分类处理,获得当前抓取处理对应的正例比例;
所述根据所述抓取处理对应的正例比例,确定所述网页分类模型是否失效,

\t包括:
将当前抓取处理对应的正例比例和前一次抓取处理对应的正例比例的差值
与预设的比例阈值进行比较;
如果所述差值大于所述比例阈值,确定所述网页分类模型失效;
如果所述差值小于或等于所述比例阈值,确定所述网页分类模型有效。
4.根据权利要求1所述的方法,其特征在于,所述对待验证的网页分类模
型所适用的种子站点进行抓取处理,并根据所述网页分类模型对抓取处理所抓
取的网页进行分类处理,获得抓取处理对应的正例比例,包括:
从所述网页分类模型所适用的种子站点中确定权重值大于预设权重阈值的
种子站点;
对所确定的权重值大于预设权重阈值的种子站点进行抓取处理,并根据所
述网页分类模型对抓取处理所抓取的网页进行分类处理,获得抓取处理对应的
正例比例。
5.根据权利要求1或2或3或4所述的方法,其特征在于,所述对待验证
的网页分类模型所适用的种子站点进行抓取处理之前,还包括:
确定使用所述网页分类模型对输入网页进行分类的程序未发生变化;或者
在确定使用所述网页分类模型对输入网页进行分类的程序发生变化时,确
定所述网页分类模型对已标注类型的网页进行分类处理的分类结果与所述已标
注类型的网页的标注类型一致。
6.根据权利要求1或2或3或4所述的方法,其特征在于,还包括:
在确定所述网页分类模型有效后,确定使用所述网页分类模型对输入网页
进行分类的程序是否发生变化;
在确定使用所述网页分类模型对输入网页进行分类的程序发生变化时,...

【专利技术属性】
技术研发人员:刘晶
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1