基于群体搜索行为的网页分类方法及装置制造方法及图纸

技术编号:9865825 阅读:139 留言:0更新日期:2014-04-03 00:59
本发明专利技术公开了一种基于群体搜索行为的网页分类方法,包括:建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。本发明专利技术还提供一种基于群体搜索行为的网页分类装置。本发明专利技术可以有效的提高网页分类的准确性。

【技术实现步骤摘要】
基于群体搜索行为的网页分类方法及装置
本专利技术涉及计算机
,特别涉及一种基于群体搜索行为的网页分类方法及装置。
技术介绍
随着计算机技术及网络技术的飞速发展,网络信息成爆炸性增长,一方面满足了用户对信息的需求,另一方面也产生了一些问题,如何将网页分类,提高用户的体验,是目前搜索引擎供应商面临解决的一个问题。现有技术中网页分类的方法主要是基于网页本身的信息,利用机器学习的方法对网页进行分类。然而,由于网页是半结构化信息,网页除了含有文本还包括很多的其他信息,例如链接关系、垃圾广告等,单纯利用机器学习的方法很可能会把广告、导航信息等误认为网页正文,从而影响分类的准确率和召回率。
技术实现思路
本专利技术的目的在于,提供一种有效的基于群体搜索行为的网页分类方法及装置。本专利技术的目的及解决其技术问题是采用以下技术方案来实现的。一种基于群体搜索行为的网页分类方法,包括:建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。—种基于群体搜索行为的网页分类装置,包括:词干分类库建立模块,用于建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;记录模块,用于记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;搜索词分类库建立模块,用于根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;网页分类属性确定模块,用于根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。与现有技术相比,本实施例所提供的网页分类方法借助群体用户的搜索行为来对网页进行分类,可以作为单纯依靠网页本身的信息对网页进行分类的一种有效补充,使得准确率能够得到有效的提高。【附图说明】为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例1提供的一种基于群体搜索行为的网页分类方法的流程图。图2是图1中步骤S13的具体流程图。图3是图1中步骤S14的具体流程图。图4是本专利技术实施例2提供的一种基于群体搜索行为的网页分类方法的流程图。图5是本专利技术实施例3提供的一种基于群体搜索行为的网页分类装置的结构图。图6是图5中搜索词分类库建立模块的具体结构图。图7是图5中网页分类属性确定模块的具体结构图。图8是本专利技术实施例4提供的一种基于群体搜索行为的网页分类装置的结构图。【具体实施方式】为更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的基于群体搜索行为的网页分类方法及装置其【具体实施方式】、方法、步骤、结构、特征及其功效,详细说明如下。有关本专利技术的前述及其他
技术实现思路
、特点及功效,在以下配合参考图式的较佳实施例的详细说明中将可清楚呈现。通过【具体实施方式】的说明,当可对本专利技术为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本专利技术加以限制。本专利技术技术方案的主要设计构思是针对现有技术中单纯采用机器学习依靠网页本身的信息对网页进行分类时,分类的准确率较低的问题,而提出一种实现网页分类的技术方案。与现有技术相比,本专利技术所提供的网页分类方法借助群体用户的搜索行为来对网页进行分类,可以作为单纯依靠网页本身的信息对网页进行分类的一种有效补充,使得准确率能够得到有效的提高。实施例1参考图1,图1是本专利技术实施例1提供的一种基于群体搜索行为的网页分类方法的流程图。于本实施例中,基于群体搜索行为的网页分类方法包括:步骤S11,建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性。词是由词根和词缀构成的,也就是一个词除去词尾的部分。词干可能是由词根构成的,也可以是词根加上词缀构成的。例如:workers,其中s是词尾,work是词根,er是词缀,这个词除去词尾,剩下的worker就是词干。词干与词根的区别在于,词根是语素的一种,它是用来组合成词的;而词干是一个词语去掉表示语法意义的词尾剩余的部分。例如,在“老师中,“老师”是词干,“们”是词尾。于此步骤中,例如可以通过机器学习的方式确定一些常用搜索词中包含的词干的分类属性,然后可以利用人工的方式进行核对,保证搜索词的词干分类属性的准确性。搜索词是用户在产生搜索行为时输入的能够表达用户搜索意愿的语意单位,搜素词可以仅有一个词干也可以有多个词干。这里所说的常用搜索词可以是通过历史数据获得的、也可以是根据经验获得的一些在相关领域使用频率较高的搜索词,可以根据实际的使用环境确定相关的领域,然后根据历史数据选取该领域中使用频率较高的搜索词。搜索词词干分类库中带有分类属性的词干的数量也可以根据实际需要进行选择,优选的,控制在人工能够处理的范围内,例如一万以内。一个词干的分类属性,根据其相关的领域可以有很多种,例如,该词干经常会出现在数码领域,那么该词干就具有数码属性,如果该词干即经常出现在数码领域又会经常出现在食物领域,偶尔还会出现在汽车领域,那个该词干就同时具有数码属性、食物属性、以及汽车属性,以此类推。每个词干对应的分类属性包括每个词干具有的一个或多个属性以及每个属性所对应的分值,属性所对应的分值也可以理解为该属性的权重,在建立搜索词词干分类库时,词干分类属性中的分值可以是通过历史数据获得的、也可以是根据经验获得并由人工设定的。步骤S12,记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数。在此步骤中,通过记录群体搜索行为所使用的搜索词,使用这些搜索词时所点击的网页,以及使用不同搜索词时每个被点击的网页对应的被点击次数。由于大多数搜索用户都是理性的,因此群体搜索行为可以认为是一个理性的行为,虽然用户在搜索结果网页中的点击行为可能千差万别,但是能够体现出用户的搜索意愿的。也就是群体搜索行为最终点击的网页的分类属性与群体用户进行搜索词所使用的搜索词的属性是相关的,通过记录群体搜索行为可以根据搜索行为获得网页的分类属性,下面将具体介绍如何实现这个过程。步骤S13,根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性。请参照图2,步骤S13具体可以通过如下步骤来实现:S131:将每个搜索词分成一个或多个词干。将每个搜索词分成一个或多个词干的过程也就本文档来自技高网
...
基于群体搜索行为的网页分类方法及装置

【技术保护点】
一种基于群体搜索行为的网页分类方法,其特征在于,包括:建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。

【技术特征摘要】
1.一种基于群体搜索行为的网页分类方法,其特征在于,包括: 建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性; 记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数; 根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性; 根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。2.根据权利要求1所述的方法,其特征在于,该每个词干对应的分类属性包括每个词干具有的一个或多个属性以及每个属性所对应的分值。3.根据权利要求2所述的方法,其特征在于,该根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性的步骤包括: 将每个搜索词分成一个或多个词干; 根据该搜索词词干分类库获得每个搜索词中的词干所对应的分类属性,并根据每个搜索词中的词干所对应的分类属性获得每个搜索词的分类属性,该搜索词的分类属性包括该搜索词具有的一个或多个属性以及每个属性所对应的分值; 将该些搜索词以及其对应的分类属性存储在该搜索词分类库中。4.根据权利要求3所述的方法,其特征在于,该搜索词具有的每个属性所对应的分值等于 5.根据权利要求1所述的方法,其特征在于,该根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性的步骤包括: 根据搜索词分类库确定中的搜索词的分类属性确定被点击的网页的分类属性,该被点击的网页的分类属性包括该网页具有的一个或多个属性以及每个属性所对应的分值。6.根据权利要求5所述的方法,其特征在于,该网页具有的每个属性所对应的分值等于 7.根据权利要求5所述的方法,其特征在于,该根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性的步骤进一步包括: 将所得的网页的分类属性中每个属性对应的分值进行归一化; 对同一个网页的分类属性中的所有分值进行排序; 将分值最高的属性设定为该网页的分类属性中的默认属性,对应的分值设定为该网页的分类属性中的默认分值。8.根据权利要求1所述的方法,其特征在于,该方法进一步包括: 根据使用同一搜索词时所点击的所有网页的分类属性以及该些网页被点击的次数获得该搜索词的分类属性或重新确定该搜索词的分类属性; 根据所获得的该些搜索词的分类属性补充该搜索词分类库或根据重新确定的该些搜索词的分类属性更新该搜索词分类库; 根据该经补充或更新后的搜索词分类库获得新增的搜索词所包括的词干的分类属性或重新确定的搜索词所包括的词干的分类属性; 根据所获得的该些词干的分类属性补充该搜索词词干分类库或根据重新确定的该些词干的分类属性更新该搜索词词干分类库; 返回所述记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数的步骤。9.根据权利要求8所述的方法,其特征在于,重新确定的...

【专利技术属性】
技术研发人员:程刚潘璇庄子明李鹤芦方周霄骁刘新鸣
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1