一种确定网页类型的方法和装置制造方法及图纸

技术编号:8532898 阅读:136 留言:0更新日期:2013-04-04 15:56
本发明专利技术提供了一种确定网页类型的方法和装置,其中方法包括:S1、获取搜索日志中待识别网页被点击时所对应的所有query;S2、确定步骤S1所获取query的各n元词组(n-gram)构成所述待识别网页的特征向量,n为预设的一个或多个正整数;S3、基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定所述待识别网页的类型。本发明专利技术具有提高网页类型确定的效率和速度,抗作弊能力强,适用面更广等优点。

【技术实现步骤摘要】
一种确定网页类型的方法和装置
本专利技术涉及计算机
,特别涉及一种确定网页类型的方法和装置。
技术介绍
随着网络技术的迅猛发展,网络信息的不断丰富,用户已经习惯于通过搜索引擎从网络中获取关心的信息。在搜索引擎技术中,无论是需求分析、搜索结果排序或个性化搜索,均可能涉及到确定网页类型的操作。诸如,在需求分析中,通过分析搜索日志中query 对应的被点击网页的类型即可确定该query的搜索需求;在搜索结果排序中,根据网页类型与query搜索需求之间的一致性确定网页在搜索结果中的排序;在个性化搜索中,通过分析搜索日志中用户所点击、浏览的网页的类型,确定用户的搜索习惯或搜索兴趣,从而为用户提供符合其搜索习惯或搜索兴趣的个性化搜索结果。现有的确定网页类型的方式,主要是抽取网页文本的文本特征向量,利用分类器对各网页进行分类确定网页类型,其中在抽取网页文本的文本特征向量时,需要下载网页内容,对网页内容进行文本分析,提取出核心词及其权重构成文本特征向量。这种方式存在以下缺陷缺陷一需要下载和分析网页内容,对于海量数据而言,效率较低,速度较慢。缺陷二 很多网站为了提高其在搜索引擎中的排序,会人为在网页中加入大量的类别关键词,这种作弊手段很大程度上影响了确定这些网页类型的准确性。缺陷三网络中存在大量不同形式的网页,网页形式的千差万别对于分析网页内容带来难度。
技术实现思路
有鉴于此,本专利技术提供了一种确定网页类型的方法和装置,以便于解决现有方式中存在的上述缺陷。具体技术方案如下一种确定网页类型的方法,该方法包括S1、获取搜索日志中待识别网页被点击时所对应的所有query ;S2、确定步骤SI所获取query的各η元词组n-gram构成所述待识别网页的特征向量,η为预设的一个或多个正整数;S3、基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定所述待识别网页的类型。根据本专利技术一优选实施例,所述步骤SI还包括获取所述待识别网页的标题;所述步骤S2中还包括确定所述待识别网页的标题的各n-gram,将所述待识别网页的标题的各n-gram与所述步骤SI所获取query的各n-gram共同构成所述待识别网页的特征向量。根据本专利技术一优选实施例,所述预设类型的特征向量是预先基于各预设类型的训练语料的n-gram形成的。根据本专利技术一优选实施例,所述预设类型的训练语料的获取方法包括Al、获取所述预设类型的种子query ;A2、获取搜索日志中所述种子query对应的被点击网页,保留被点击次数大于设 定被点击次数阈值的网页;A3、确定所述搜索日志中步骤A2保留的网页被点击时对应的所有query,记录各 query对应的网页被点击次数,得到所述预设类型的训练语料;或者,确定所述搜索日志中 步骤A2保留的网页被点击时对应的所有query和网页标题,记录各query对应的网页被点 击次数和网页标题的出现次数,得到所述预设类型的训练语料。根据本专利技术一优选实施例,所述步骤S3具体包括计算所述待识别网页的特征向量与各预设类型的特征向量之间的重叠率,根据计 算的重叠率确定待识别网页的类型;或者,计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度,根据计 算的相似度确定待识别网页的类型;或者,预先将各预设类型的特征向量作为特征训练出分类器,所述待识别网页的特征向 量作为所述分类器的输入,依据所述分类器的分类结果确定所述待识别网页的类型。根据本专利技术一优选实施例,计算所述待识别网页的特征向量与预设类型的特征向 量之间的重叠率包括计算所述待识别网页的特征向量和预设类型的特征向量之间重叠的n-gram在待 识别网页的特征向量中的出现次数乘以所述重叠的n-gram在预设类型的特征向量中的权 重之和,再除以所述待识别网页的特征向量中所有n-gram的出现次数之和所得到的值;其中,预设类型的特征向量中n-gram的权重为在该预设类型的训练语料中该 n-gram的出现次数与所有n-gram的总出现次数的比值。根据本专利技术一优选实施例,计算所述待识别网页的特征向量与各预设类型的特征 向量之间的相似度包括计算所述待识别网页的特征向量与各预设类型的特征向量之间的余弦相似度;其中,预设类型的特征向量中各n-gram的权重为各n-gram的词频tf*逆向文档 频率idf ;所述待识别网页的特征向量中各n-gram的权重为各n-gram的tf* idf。根据本专利技术一优选实施例,在将各预设类型的特征向量作为特征训练出分类器 时,预设类型的特征向量中n-gram的权重为n_gram的出现次数与所有n-gram的总出现 次数的比值,或者,各n-gram的tf* idf。根据本专利技术一优选实施例,所述分类器为最大熵分类器或者支持向量机SVM分 类器。根据本专利技术一优选实施例,所述根据计算的重叠率确定待识别网页的类型包括 将重叠率大于设定重叠率阈值的预设类型确定为所述待识别网页的类型;或者,将重叠率 排在前NI个的预设类型确定为所述待识别网页的类型,所述NI为预设的正整数;或者,按 照预设的重叠率值与类型等级之间的对应关系,确定所述待识别网页在各类型上的等级;所述根据计算的相似度确定待识别网页的类型包括将相似度大于设定相似度阈 值的预设类型确定为所述待识别网页的类型;或者,将相似度排在前N2个的预设类型确定为所述待识别网页的类型,所述N2为预设的正整数;或者,按照预设的相似度值与类型等级之间的对应关系,确定所述待识别网页在各类型上的等级。一种确定网页类型的装置,该装置包括query获取单元,用于获取搜索日志中待识别网页被点击时所对应的所有query ;第一向量确定单元,用于确定所述query获取单元所获取query的各η元词组 n-gram构成所述待识别网页的特征向量,η为预设的一个或多个正整数;类型确定单元,用于基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定所述待识别网页的类型。根据本专利技术一优选实施例,该装置还包括标题获取单元,用于获取所述待识别网页的标题;所述第一向量确定单元,还用于确定所述待识别网页的标题的各n-gram,将所述待识别网页的标题的各n-gram与所述query获取单元所获取query的各n-gram共同构成所述待识别网页的特征向量。根据本专利技术一优选实施例,该装置还包括第二向量确定单元,用于预先基于各预设类型的训练语料的n-gram形成所述预设类型的特征向量。根据本专利技术一优选实施例,该装置还包括语料获取单元,用于获取所述预设类型的种子query ;获取搜索日志中所述种子query对应的被点击网页,保留被点击次数大于设定被点击次数阈值的网页;确定保留的网页被点击时对应的所有query,记录各query对应的网页被点击次数,得到所述预设类型的训练语料,或者,确定保留的网页被点击时对应的所有query和网页标题,记录各query对应的网页被点击次数和网页标题的出现次数,得到所述预设类型的训练语料。根据本专利技术一优选实施例,所述类型确定单元计算所述待识别网页的特征向量与各预设类型的特征向量 之间的重叠率,根据计算的重叠率确定待识别网页的类型;或者,计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度,根据计算的相似度确定待本文档来自技高网...

【技术保护点】
一种确定网页类型的方法,其特征在于,该方法包括:S1、获取搜索日志中待识别网页被点击时所对应的所有query;S2、确定步骤S1所获取query的各n元词组n?gram构成所述待识别网页的特征向量,n为预设的一个或多个正整数;S3、基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定所述待识别网页的类型。

【技术特征摘要】
1.一种确定网页类型的方法,其特征在于,该方法包括51、获取搜索日志中待识别网页被点击时所对应的所有query;52、确定步骤SI所获取query的各η元词组n-gram构成所述待识别网页的特征向量,η为预设的一个或多个正整数;53、基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性,确定所述待识别网页的类型。2.根据权利要求1所述的方法,其特征在于,所述步骤SI还包括获取所述待识别网页的标题;所述步骤S2中还包括确定所述待识别网页的标题的各n-gram,将所述待识别网页的标题的各n-gram与所述步骤SI所获取query的各n-gram共同构成所述待识别网页的特征向量。3.根据权利要求1所述的方法,其特征在于,所述预设类型的特征向量是预先基于各预设类型的训练语料的n-gram形成的。4.根据权利要求3所述的方法,其特征在于,所述预设类型的训练语料的获取方法包括Al、获取所述预设类型的种子query ;A2、获取搜索日志中所述种子query对应的被点击网页,保留被点击次数大于设定被点击次数阈值的网页;A3、确定所述搜索日志中步骤A2保留的网页被点击时对应的所有query,记录各query对应的网页被点击次数,得到所述预设类型的训练语料;或者,确定所述搜索日志中步骤A2保留的网页被点击时对应的所有query和网页标题,记录各query对应的网页被点击次数和网页标题的出现次数,得到所述预设类型的训练语料。5.根据权利要求1至4任一权项所述的方法,其特征在于,所述步骤S3具体包括计算所述待识别网页的特征向量与各预设类型的特征向量之间的重叠率,根据计算的重叠率确定待识别网页的类型;或者,计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度,根据计算的相似度确定待识别网页的类型;或者,预先将各预设类型的特征向量作为特征训练出分类器,所述待识别网页的特征向量作为所述分类器的输入,依据所述分类器的分类结果确定所述待识别网页的类型。6.根据权利要求5所述的方法,其特征在于,计算所述待识别网页的特征向量与预设类型的特征向量之间的重叠率包括计算所述待识别网页的特征向量和预设类型的特征向量之间重叠的n-gram在待识别网页的特征向量中的出现次数乘以所述重叠的n-gram在预设类型的特征向量中的权重之和,再除以所述待识别网页的特征向量中所有n-gram的出现次数之和所得到的值;其中,预设类型的特征向量中n-gram的权重为在该预设类型的训练语料中该n-gram的出现次数与所有n-gram的总出现次数的比值。7.根据权利要求5所述的方法,其特征在于,计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度包括计算所述待识别网页的特征向量与各预设类型的特征向量之间的余弦相似度;其中,预设类型的特征向量中各n-gram的权重为各n-gram的词频tf*逆向文档频率idf ;所述待识别网页的特征向量中各n-gram的权重为各n-gram的tf* idf。8.根据权利要求5所述的方法,其特征在于,在将各预设类型的特征向量作为特征训练出分类器时,预设类型的特征向量中n-gram的权重为n_gram的出现次数与所有n-gram的总出现次数的比值,或者,各n-gram的tf* idf。9.根据权利要求5所述的方法,其特征在于,所述分类器为最大熵分类器或者支持向量机SVM分类器。10.根据权利要求5所述的方法,其特征在于,所述根据计算的重叠率确定待识别网页的类型包括将重叠率大于设定重叠率阈值的预设类型确定为所述待识别网页的类型;或者,将重叠率排在前NI个的预设类型确定为所述待识别网页的类型,所述NI为预设的正整数;或者,按照预设的重叠率值与类型等级之间的对应关系,确定所述待识别网页在各类型上的等级;所述根据计算的相似度确定待识别网页的类型包括将相似度大于设定相似度阈值的预设类型确定为所述待识别网页的类型;或者,将相似度排在前N2个的预设类型确定为所述待识别网页的类型,所述N2为预设的正整数;或者,按照预设的相似度值与类型等级之间的对应关系,确定所述待识别网页在各类型上的等级。11.一种确定网页类型的装置,其特征在于,该装置包括query获取单元,用于获取搜索日志...

【专利技术属性】
技术研发人员:黄际洲
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1