一种网页中内容块的提取方法、装置及服务器制造方法及图纸

技术编号:13375788 阅读:46 留言:0更新日期:2016-07-20 23:06
本发明专利技术实施例公开了一种网页中内容块的提取方法、装置及服务器。该方法包括:当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块;从所述标签树中筛选出与搜索主题相关的内容块;根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值;按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。采用本发明专利技术实施例,提高了垂直搜索的搜索结果的精准度。

【技术实现步骤摘要】

本专利技术涉及页面搜索
,尤其涉及一种网页中内容块的提取方法、装置及服务器
技术介绍
随着互联网相关技术的日益成熟,搜索引擎作为检索互联网数据的主要手段,可根据用户的搜索需求分为传统的通用搜索引擎或针对某一领域细化的垂直搜索引擎。通用搜索引擎搜索的数据冗余量大,查询精度低。而面向主题、专业化的垂直搜索引擎逐步被应用到越来越多的领域中。垂直搜索引擎的目的是找到与主题密切相关的资源,当找到与搜索主题相关的网页后,由于网页中包括除与主题相关的内容外,还包括大量与主题无关的内容,如广告内容、版权信息等。由于上述无关内容的存在,降低了搜索出的内容与搜索主题的相关度。其中,可将内容块作为网页中包含信息的单位,当网页中存在多个内容块中的内容与主题相关时,通过目前的方法还无法确定各内容块与主题的相关程度,因此垂直搜索的搜索结果的精准度较低。
技术实现思路
本专利技术实施例提供了一种网页中内容块的提取方法、装置及服务器。解决了垂直搜索的搜索结果的精准度较低的技术问题。本专利技术的实施例第一方面提供了一种网页中内容块的提取方法,该方法可包括:当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块;从所述标签树中筛选出与搜索主题相关的内容块;根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值;按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。作为可选的实施例,所述从所述标签树中筛选出与搜索主题相关的内容块之前还包括:检测所述标签树中所述各节点对应的内容块的内容类型,其中,所述内容类型包括主题类型;其中,所述从所述标签树中筛选出与搜索主题相关的内容块包括:从内容类型为所述主题类型的内容块中筛选出与所述搜索主题相关的内容块。作为可选的实施例,所述从内容类型为所述主题类型的内容块中筛选出与所述搜索主题相关的内容块包括:获取与所述搜索主题相关的预设的搜索关键词;从所述内容类型为主题类型的内容块中筛选出包含所述搜索关键词的内容块。作为可选的实施例,所述根据所述内容块对应的节点所包含的标签获取所述内容块的权重值包括:获取所述内容块所对应的节点所包含的标签,其中,所述标签包括容器标签与重要信息标签集;从预设的容器标签与权重值的对应关系表中获取与所述容器标签对应的第一权重值;根据所述重要信息标签集中重要信息标签的数量确定所述内容块的第二权重值;确定所述内容块的权重值为所述第一权重值,所述第二权重值,或根据所述第一权重值与所述第二权重值计算出的综合权重值。作为可选的实施例,所述提取所述各内容块之后还包括:将所述提取出的各内容块存储至与所述搜索主题相关的内容库中;当获取到客户端的与所述搜索主题相关的搜索请求时,将所述内容库中存储的内容块发送至所述客户端。本专利技术的实施例第二方面提供了一种网页中内容块的提取装置,该装置可包括:构建模块,用于当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块;筛选模块,用于从所述标签树中筛选出与搜索主题相关的内容块;权重值获取模块,用于根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;计算模块,用于将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值;提取模块,用于按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。作为可选的实施例,还包括:检测模块,用于在所述筛选模块从所述标签树中筛选出与搜索主题相关的内容块之前,检测所述标签树中所述各节点对应的内容块的内容类型,其中,所述内容类型包括主题类型;其中,所述筛选模块还用于:从内容类型为所述主题类型的内容块中筛选出与所述搜索主题相关的内容块。作为可选的实施例,所述筛选模块包括:关键词获取单元,用于获取与所述搜索主题相关的预设的搜索关键词;筛选单元,用于从所述内容类型为主题类型的内容块中筛选出包含所述搜索关键词的内容块。作为可选的实施例,所述权重值获取模块包括:标签获取单元,用于获取所述内容块所对应的节点所包含的标签,其中,所述标签包括容器标签与重要信息标签集;权重获取单元,用于从预设的容器标签与权重值的对应关系表中获取与所述容器标签对应的第一权重值;第一确定单元,用于根据所述重要信息标签集中重要信息标签的数量确定所述内容块的第二权重值;第二确定单元,用于确定所述内容块的权重值为所述第一权重值,所述第二权重值,或根据所述第一权重值与所述第二权重值计算出的综合权重值。作为可选的实施例,还包括:存储模块,用于在所述提取模块提取所述各内容块之后,将所述提取出的各内容块存储至与所述搜索主题相关的内容库中;发送模块,用于当获取到客户端的与所述搜索主题相关的搜索请求时,将所述内容库中存储的内容块发送至所述客户端。本专利技术的实施例第三方面提供了一种服务器,该服务器可包括存储器及处理器,其中,所述存储器中存储一组程序代码,且所述处理器调用所述存储器中存储的程序代码,用于执行以下操作:当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块;从所述标签树中筛选出与搜索主题相关的内容块;根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值;按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。本专利技术实施例中,当获取到搜索网页后,可构建该搜索网页的标签树,从而能从构建的标签树中筛选出与搜索主题相关的内容块。并能够根据内容块在标签树中对应的节点确定该内容块的权重值,并且将搜索主题中的关键词在内容块中出现的频率与权重值进行乘积,其乘积结果可赋值于内容块的相关度值,每个与搜索主题相关的内容块可对应一个相关度值,从而可根据对应的相关度值提取与搜索主题相关的内容块集,并且该内容块集中包含的内容块可按照各内容块对应的相关度值的大小进行排序。通过上述方式,可确定网页中各内容...

【技术保护点】
一种网页中内容块的提取方法,其特征在于,包括:当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块;从所述标签树中筛选出与搜索主题相关的内容块;根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值;按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。

【技术特征摘要】
1.一种网页中内容块的提取方法,其特征在于,包括:
当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中
的各节点对应所述搜索网页中的一个内容块;
从所述标签树中筛选出与搜索主题相关的内容块;
根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;
将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘
积结果赋值于所述内容块的相关度值;
按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所
述各内容块。
2.如权利要求1所述方法,其特征在于,所述从所述标签树中筛选出与搜
索主题相关的内容块之前还包括:
检测所述标签树中所述各节点对应的内容块的内容类型,其中,所述内容
类型包括主题类型;
其中,所述从所述标签树中筛选出与搜索主题相关的内容块包括:
从内容类型为所述主题类型的内容块中筛选出与所述搜索主题相关的内容
块。
3.如权利要求2所述方法,其特征在于,所述从内容类型为所述主题类型
的内容块中筛选出与所述搜索主题相关的内容块包括:
获取与所述搜索主题相关的预设的搜索关键词;
从所述内容类型为主题类型的内容块中筛选出包含所述搜索关键词的内容
块。
4.如权利要求1所述方法,其特征在于,所述根据所述内容块对应的节点
所包含的标签获取所述内容块的权重值包括:
获取所述内容块所对应的节点所包含的标签,其中,所述标签包括容器标

\t签与重要信息标签集;
从预设的容器标签与权重值的对应关系表中获取与所述容器标签对应的第
一权重值;
根据所述重要信息标签集中重要信息标签的数量确定所述内容块的第二权
重值;
确定所述内容块的权重值为所述第一权重值,所述第二权重值,或根据所
述第一权重值与所述第二权重值计算出的综合权重值。
5.如权利要求1-4任一所述方法,其特征在于,所述提取所述各内容块之
后还包括:
将所述提取出的各内容块存储至与所述搜索主题相关的内容库中;
当获取到客户端的与所述搜索主题相关的搜索请求时,将所述内容库中存
储的内容块发送至所述客户端。
6.一种网页中内容块的提取装置,其特征在于,包括:
构建模块,用于当获取到搜索网页后,构建所述搜索网页的标签树,其中,
所述标签树中的各节点对应所述搜索网页中的一个内容块;
筛选模块,...

【专利技术属性】
技术研发人员:郑仕腾
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1