一种确定网页类型的方法和装置制造方法及图纸

技术编号：8532898 阅读：150 留言：0更新日期：2013-04-04 15:56

本发明专利技术提供了一种确定网页类型的方法和装置，其中方法包括：S1、获取搜索日志中待识别网页被点击时所对应的所有query；S2、确定步骤S1所获取query的各n元词组(n-gram)构成所述待识别网页的特征向量，n为预设的一个或多个正整数；S3、基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性，确定所述待识别网页的类型。本发明专利技术具有提高网页类型确定的效率和速度，抗作弊能力强，适用面更广等优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种确定网页类型的方法和装置
本专利技术涉及计算机
，特别涉及一种确定网页类型的方法和装置。
技术介绍
随着网络技术的迅猛发展，网络信息的不断丰富，用户已经习惯于通过搜索引擎从网络中获取关心的信息。在搜索引擎技术中，无论是需求分析、搜索结果排序或个性化搜索，均可能涉及到确定网页类型的操作。诸如，在需求分析中，通过分析搜索日志中query 对应的被点击网页的类型即可确定该query的搜索需求；在搜索结果排序中，根据网页类型与query搜索需求之间的一致性确定网页在搜索结果中的排序；在个性化搜索中，通过分析搜索日志中用户所点击、浏览的网页的类型，确定用户的搜索习惯或搜索兴趣，从而为用户提供符合其搜索习惯或搜索兴趣的个性化搜索结果。现有的确定网页类型的方式，主要是抽取网页文本的文本特征向量，利用分类器对各网页进行分类确定网页类型，其中在抽取网页文本的文本特征向量时，需要下载网页内容，对网页内容进行文本分析，提取出核心词及其权重构成文本特征向量。这种方式存在以下缺陷缺陷一需要下载和分析网页内容，对于海量数据而言，效率较低，速度较慢。缺陷二很多网站为了提高其在搜索引擎中的排序，会人为在网页中加入大量的类别关键词，这种作弊手段很大程度上影响了确定这些网页类型的准确性。缺陷三网络中存在大量不同形式的网页，网页形式的千差万别对于分析网页内容带来难度。
技术实现思路
有鉴于此，本专利技术提供了一种确定网页类型的方法和装置，以便于解决现有方式中存在的上述缺陷。具体技术方案如下一种确定网页类型的方法，该方法包括S1、获取搜索日志中待识别网页被点击时所对应的所有query ；...

【技术保护点】
一种确定网页类型的方法，其特征在于，该方法包括：S1、获取搜索日志中待识别网页被点击时所对应的所有query；S2、确定步骤S1所获取query的各n元词组n?gram构成所述待识别网页的特征向量，n为预设的一个或多个正整数；S3、基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性，确定所述待识别网页的类型。

【技术特征摘要】
1.一种确定网页类型的方法，其特征在于，该方法包括51、获取搜索日志中待识别网页被点击时所对应的所有query；52、确定步骤SI所获取query的各η元词组n-gram构成所述待识别网页的特征向量,η为预设的一个或多个正整数；53、基于所述待识别网页的特征向量和各预设类型的特征向量之间的相关性，确定所述待识别网页的类型。2.根据权利要求1所述的方法，其特征在于，所述步骤SI还包括获取所述待识别网页的标题；所述步骤S2中还包括确定所述待识别网页的标题的各n-gram，将所述待识别网页的标题的各n-gram与所述步骤SI所获取query的各n-gram共同构成所述待识别网页的特征向量。3.根据权利要求1所述的方法，其特征在于，所述预设类型的特征向量是预先基于各预设类型的训练语料的n-gram形成的。4.根据权利要求3所述的方法，其特征在于，所述预设类型的训练语料的获取方法包括Al、获取所述预设类型的种子query ；A2、获取搜索日志中所述种子query对应的被点击网页，保留被点击次数大于设定被点击次数阈值的网页；A3、确定所述搜索日志中步骤A2保留的网页被点击时对应的所有query,记录各query对应的网页被点击次数，得到所述预设类型的训练语料；或者，确定所述搜索日志中步骤A2保留的网页被点击时对应的所有query和网页标题，记录各query对应的网页被点击次数和网页标题的出现次数，得到所述预设类型的训练语料。5.根据权利要求1至4任一权项所述的方法，其特征在于，所述步骤S3具体包括计算所述待识别网页的特征向量与各预设类型的特征向量之间的重叠率，根据计算的重叠率确定待识别网页的类型；或者，计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度，根据计算的相似度确定待识别网页的类型；或者，预先将各预设类型的特征向量作为特征训练出分类器，所述待识别网页的特征向量作为所述分类器的输入，依据所述分类器的分类结果确定所述待识别网页的类型。6.根据权利要求5所述的方法，其特征在于，计算所述待识别网页的特征向量与预设类型的特征向量之间的重叠率包括计算所述待识别网页的特征向量和预设类型的特征向量之间重叠的n-gram在待识别网页的特征向量中的出现次数乘以所述重叠的n-gram在预设类型的特征向量中的权重之和，再除以所述待识别网页的特征向量中所有n-gram的出现次数之和所得到的值；其中，预设类型的特征向量中n-gram的权重为在该预设类型的训练语料中该n-gram的出现次数与所有n-gram的总出现次数的比值。7.根据权利要求5所述的方法，其特征在于，计算所述待识别网页的特征向量与各预设类型的特征向量之间的相似度包括计算所述待识别网页的特征向量与各预设类型的特征向量之间的余弦相似度；其中，预设类型的特征向量中各n-gram的权重为各n-gram的词频tf*逆向文档频率idf ;所述待识别网页的特征向量中各n-gram的权重为各n-gram的tf* idf。8.根据权利要求5所述的方法，其特征在于，在将各预设类型的特征向量作为特征训练出分类器时，预设类型的特征向量中n-gram的权重为n_gram的出现次数与所有n-gram的总出现次数的比值，或者，各n-gram的tf* idf。9.根据权利要求5所述的方法，其特征在于，所述分类器为最大熵分类器或者支持向量机SVM分类器。10.根据权利要求5所述的方法，其特征在于，所述根据计算的重叠率确定待识别网页的类型包括将重叠率大于设定重叠率阈值的预设类型确定为所述待识别网页的类型；或者，将重叠率排在前NI个的预设类型确定为所述待识别网页的类型，所述NI为预设的正整数；或者，按照预设的重叠率值与类型等级之间的对应关系，确定所述待识别网页在各类型上的等级；所述根据计算的相似度确定待识别网页的类型包括将相似度大于设定相似度阈值的预设类型确定为所述待识别网页的类型；或者，将相似度排在前N2个的预设类型确定为所述待识别网页的类型，所述N2为预设的正整数；或者，按照预设的相似度值与类型等级之间的对应关系，确定所述待识别网页在各类型上的等级。11.一种确定网页类型的装置，其特征在于，该装置包括query获取单元，用于获取搜索日志...

【专利技术属性】
技术研发人员：黄际洲，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人