【技术实现步骤摘要】
基于群体搜索行为的网页分类方法及装置
本专利技术涉及计算机
,特别涉及一种基于群体搜索行为的网页分类方法及装置。
技术介绍
随着计算机技术及网络技术的飞速发展,网络信息成爆炸性增长,一方面满足了用户对信息的需求,另一方面也产生了一些问题,如何将网页分类,提高用户的体验,是目前搜索引擎供应商面临解决的一个问题。现有技术中网页分类的方法主要是基于网页本身的信息,利用机器学习的方法对网页进行分类。然而,由于网页是半结构化信息,网页除了含有文本还包括很多的其他信息,例如链接关系、垃圾广告等,单纯利用机器学习的方法很可能会把广告、导航信息等误认为网页正文,从而影响分类的准确率和召回率。
技术实现思路
本专利技术的目的在于,提供一种有效的基于群体搜索行为的网页分类方法及装置。本专利技术的目的及解决其技术问题是采用以下技术方案来实现的。一种基于群体搜索行为的网页分类方法,包括:建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。—种基于群体搜索行为的网页分类装置,包括:词干分类库建立模块,用于建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分 ...
【技术保护点】
一种基于群体搜索行为的网页分类方法,其特征在于,包括:建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。
【技术特征摘要】
1.一种基于群体搜索行为的网页分类方法,其特征在于,包括: 建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性; 记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数; 根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性; 根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。2.根据权利要求1所述的方法,其特征在于,该每个词干对应的分类属性包括每个词干具有的一个或多个属性以及每个属性所对应的分值。3.根据权利要求2所述的方法,其特征在于,该根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性的步骤包括: 将每个搜索词分成一个或多个词干; 根据该搜索词词干分类库获得每个搜索词中的词干所对应的分类属性,并根据每个搜索词中的词干所对应的分类属性获得每个搜索词的分类属性,该搜索词的分类属性包括该搜索词具有的一个或多个属性以及每个属性所对应的分值; 将该些搜索词以及其对应的分类属性存储在该搜索词分类库中。4.根据权利要求3所述的方法,其特征在于,该搜索词具有的每个属性所对应的分值等于 5.根据权利要求1所述的方法,其特征在于,该根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性的步骤包括: 根据搜索词分类库确定中的搜索词的分类属性确定被点击的网页的分类属性,该被点击的网页的分类属性包括该网页具有的一个或多个属性以及每个属性所对应的分值。6.根据权利要求5所述的方法,其特征在于,该网页具有的每个属性所对应的分值等于 7.根据权利要求5所述的方法,其特征在于,该根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性的步骤进一步包括: 将所得的网页的分类属性中每个属性对应的分值进行归一化; 对同一个网页的分类属性中的所有分值进行排序; 将分值最高的属性设定为该网页的分类属性中的默认属性,对应的分值设定为该网页的分类属性中的默认分值。8.根据权利要求1所述的方法,其特征在于,该方法进一步包括: 根据使用同一搜索词时所点击的所有网页的分类属性以及该些网页被点击的次数获得该搜索词的分类属性或重新确定该搜索词的分类属性; 根据所获得的该些搜索词的分类属性补充该搜索词分类库或根据重新确定的该些搜索词的分类属性更新该搜索词分类库; 根据该经补充或更新后的搜索词分类库获得新增的搜索词所包括的词干的分类属性或重新确定的搜索词所包括的词干的分类属性; 根据所获得的该些词干的分类属性补充该搜索词词干分类库或根据重新确定的该些词干的分类属性更新该搜索词词干分类库; 返回所述记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数的步骤。9.根据权利要求8所述的方法,其特征在于,重新确定的...
【专利技术属性】
技术研发人员:程刚,潘璇,庄子明,李鹤,芦方,周霄骁,刘新鸣,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。