本发明专利技术提供了一种网页分类的方法和装置。所述方法包括:从待预测网页中解析多个网页元素;根据各个网页元素分别预测所述待预测网页所属的候选网页分类;通过比对各个网页元素分别预测的候选网页分类,确定所述待预测网页的最终网页分类。本发明专利技术实现了完全自动化的分类过程,不需要人工参与,极大地提高了网页分类的效率,尤其是针对全网海量的网页和互联网上新产生的网页,能够实现快速有效地分类,保证网页分类的时效性。
【技术实现步骤摘要】
本专利技术设及互联网
,特别是设及一种网页分类的方法,W及,一种网页分 类的装置。
技术介绍
网页分类在互联网很多产品中都有着至关重要的作用。例如在新闻媒体中,新闻 网页的分类对于合理有效地整理新闻内容,提升用户阅读体验有着非常重要的作用。 目前的网页分类技术主要是一种半自动化的方式对网页进行分类,通过算法和人 工审核共同完成的,在算法阶段,采用一种传统的分类算法(比如朴素贝叶斯)对网页进行 初步分类,但该阶段的主要问题一般是准确率无法保证;在人工审核阶段,为了提升分类准 确率,一般需要人工进行审查。 上述方案由于是半自动化,因而当面对大量需要分类的数据时是无法满足要求 的;并且,由于网页的分类一般是前期人工定义好的,可扩展性较差;整个系统的时效性很 差,由于需要经历两个阶段,且第二阶段人工审核的时间成本很高,导致整个系统的时效性 无法保证。
技术实现思路
鉴于上述问题,提出了本专利技术W便提供一种克服上述问题或者至少部分地解决上 述问题的网页分类的方法和网页分类的装置。 依据本专利技术的一个方面,提供了一种网页分类的方法,其中,包括: 从待预测网页中解析多个网页元素;[000引根据各个网页元素分别预测所述待预测网页所属的候选网页分类; 通过比对各个网页元素分别预测的候选网页分类,确定所述待预测网页的最终网 页分类。 可选地,在所述从待预测网页中解析多个网页元素之前,所述方法还包括: 针对各个网页元素,分别创建基于所述网页元素预测所述网页分类的预测模型; 所述根据各个网页元素分别预测所述待预测网页所属的候选网页分类包括: 根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网页分 类。 可选地,所述针对各个网页元素,分别创建基于所述网页元素预测所述网页分类 的预测模型包括: 基于捜索日志挖掘多个网页分类W及属于所述网页分类的查询词; 针对各个网页元素,分别根据所述捜索日志中相关联的查询词和所述网页元素, 创建根据所述网页元素预测所述网页分类的预测模型。 可选地,所述基于捜索日志挖掘多个网页分类W及属于所述网页分类的查询词包 括: 统计所述捜索日志中各个查询词的查询频度; 提取查询频度高于预设阀值或是预设比例的查询词作为网页分类; 提取与所述网页分类触发同一网页的查询词添加至所述网页分类。 可选地,当所述网页元素包括根域名时,所述预测模型包括根据所述根域名预测 所述网页分类的第一预测模型,所述针对各个网页元素,分别根据所述捜索日志中相关联 的查询词和所述网页元素,创建根据所述网页元素预测所述网页分类的预测模型包括: 提取所述捜索日志对应访问的历史网页的根域名; 根据所述捜索日志访问的多个历史网页W及触发所述历史网页的查询词,统计各 个根域名对应的查询词; 根据所述查询词所属的网页分类,计算所述根域名属于各个网页分类的第一概率 值,并根据所述第一概率值创建包括所述根域名属于各个网页分类的判断条件的第一预测 模型; 所述根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网 页分类包括: 提取所述目标网页的根域名输入所述第一预测模型; 所述第一预测模型判断所述根域名属于所述某个网页分类的第一概率值大于第 一目标概率值,则将所述网页分类作为所述目标网页所属的候选网页分类。[002引可选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题 预测所述网页分类的第二预测模型,所述针对各个网页元素,分别根据所述捜索日志中相 关联的查询词和所述网页元素,创建根据所述网页元素预测所述网页分类的预测模型包 括: 根据所述网页分类W及属于所述网页分类的查询词,生成根据所述查询词检索所 述网页分类的第一倒排索引,创建包括所述第一倒排索引的第二预测模型; 所述根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网 页分类包括: 提取所述目标网页的网页标题中包括的查询词输入所述第二预测模型; 所述第二预测模型按照所述第一倒排索引查找所述查询词对应的网页分类,并将 查找的网页分类作为所述目标网页所属的候选网页分类。 可选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题 预测所述网页分类的第二预测模型时,所述针对各个网页元素,分别根据所述捜索日志中 相关联的查询词和所述网页元素,创建根据所述网页元素预测所述网页分类的预测模型包 括: 依据所述网页分类下的查询词,对各个网页分类添加预先捜集的查询词,生成根 据添加的查询词检索所述网页分类的第二倒排索引,创建包括所述第二倒排索引的第二预 测模型; 所述根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网 页分类包括: 提取所述目标网页的网页标题中包括的查询词输入所述第二预测模型; 所述第二预测模型按照所述第二倒排索引查找提取的查询词对应的网页分类,并 将查找的网页分类作为所述目标网页所属的候选网页分类。[003引可选地,当所述网页元素包括网页标题时,所述预测模型包括根据所述网页标题 的分词预测所述网页分类的第=预测模型,所述针对各个网页元素,分别根据所述捜索日 志中相关联的查询词和所述网页元素,创建根据所述网页元素预测所述网页分类的预测模 型包括: 对所述查询词进行分词,统计各个分词所属的网页分类; 计算各个分词属于各个网页分类的第二概率值,并根据所述第二概率值创建包括 所述分词属于各个网页分类的判断条件的第S预测模型; 所述根据各个网页元素对应的预测模型分别预测所述待预测网页所属的候选网 页分类包括: 对所述目标网页的网页标题进行分词并输入所述第=预测模型; 针对各个分词,所述第=预测模型判断所述分词属于所述某个网页分类的第二概 率值大于第二目标概率值,则将所述网页分类作为所述目标网页所属的候选网页分类。 可选地,所述通过比对各个网页元素分别预测的候选网页分类,确定所述待预测 网页的最终网页分类包括: 提取与所述待预测网页的文本相似度符合预设条件的候选网页分类作为所述待 预测网页所属的最终网页分类。 可选地,在所述提取与所述目标网页的文本相似度符合预设条件的候选网页分类 作为所述目标网页所属的最终网页分类之前,所述方法还包括: 对所述网页分类下的各个查询词进行分词,并按照所述分词的词频W及逆向文件 频率提取部分分词构建所述网页分类的词向量。 可选地,所述提取与所述目标网页的文本相似度符合预设条件的候选网页分类作 为所述目标网页所属的最终网页分类包括: 对所述目标网页的网页标题和正文进行分词,并构建所述目标网页的词向量; 计算所述候选网页分类的词向量与所述目标网页的词向量的余弦相似度,提取所 述余弦相似度符合预设范围的候选网页分类作为所述目标网页所属的最终网页分类。 可选地,在所述根据各个网页元素分别预测所述待预测网页所属的候选网页分类 之前,所述方法还包括: 对所述网页元素进行归一化处理。 根据本专利技术的另一个方面,提供了一种网页分类的装置,其中,包括: 元素解析模块,用于从待预测网页中解析多个网页元素; 候选预测模块,用于根据各个网页元素分别预测所述待预测网页所属的候选网页 分类; 分类确定模块,用于通过比对各个网页元素分别预测的候选网页分类,确定所述 待预测网页的最终网页分类。 可选地,所本文档来自技高网...
【技术保护点】
一种网页分类的方法,其中,包括:从待预测网页中解析多个网页元素;根据各个网页元素分别预测所述待预测网页所属的候选网页分类;通过比对各个网页元素分别预测的候选网页分类,确定所述待预测网页的最终网页分类。
【技术特征摘要】
【专利技术属性】
技术研发人员:王建刚,沈亮,邓本洋,陈培军,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。