【技术实现步骤摘要】
本专利技术涉及页面搜索
,尤其涉及一种网页中内容块的提取方法、装置及服务器。
技术介绍
随着互联网相关技术的日益成熟,搜索引擎作为检索互联网数据的主要手段,可根据用户的搜索需求分为传统的通用搜索引擎或针对某一领域细化的垂直搜索引擎。通用搜索引擎搜索的数据冗余量大,查询精度低。而面向主题、专业化的垂直搜索引擎逐步被应用到越来越多的领域中。垂直搜索引擎的目的是找到与主题密切相关的资源,当找到与搜索主题相关的网页后,由于网页中包括除与主题相关的内容外,还包括大量与主题无关的内容,如广告内容、版权信息等。由于上述无关内容的存在,降低了搜索出的内容与搜索主题的相关度。其中,可将内容块作为网页中包含信息的单位,当网页中存在多个内容块中的内容与主题相关时,通过目前的方法还无法确定各内容块与主题的相关程度,因此垂直搜索的搜索结果的精准度较低。
技术实现思路
本专利技术实施例提供了一种网页中内容块的提取方法、装置及服务器。解决了垂直搜索的搜索结果的精准度较低的技术问题。本专利技术的实施例第一方面提供了一种网页中内容块的提取方法,该方法可包括:当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块;从所述标签树中筛选出与搜索主题相关的内容块;根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;将所述搜索主题中的关键词在所述内容块中出现的
【技术保护点】
一种网页中内容块的提取方法,其特征在于,包括:当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中的各节点对应所述搜索网页中的一个内容块;从所述标签树中筛选出与搜索主题相关的内容块;根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘积结果赋值于所述内容块的相关度值;按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所述各内容块。
【技术特征摘要】
1.一种网页中内容块的提取方法,其特征在于,包括:
当获取到搜索网页后,构建所述搜索网页的标签树,其中,所述标签树中
的各节点对应所述搜索网页中的一个内容块;
从所述标签树中筛选出与搜索主题相关的内容块;
根据所述内容块对应的节点所包含的标签获取所述内容块的权重值;
将所述搜索主题中的关键词在所述内容块中出现的频率与所述权重值的乘
积结果赋值于所述内容块的相关度值;
按照与所述搜索主题相关的各内容块的相关度值大小进行排序后,提取所
述各内容块。
2.如权利要求1所述方法,其特征在于,所述从所述标签树中筛选出与搜
索主题相关的内容块之前还包括:
检测所述标签树中所述各节点对应的内容块的内容类型,其中,所述内容
类型包括主题类型;
其中,所述从所述标签树中筛选出与搜索主题相关的内容块包括:
从内容类型为所述主题类型的内容块中筛选出与所述搜索主题相关的内容
块。
3.如权利要求2所述方法,其特征在于,所述从内容类型为所述主题类型
的内容块中筛选出与所述搜索主题相关的内容块包括:
获取与所述搜索主题相关的预设的搜索关键词;
从所述内容类型为主题类型的内容块中筛选出包含所述搜索关键词的内容
块。
4.如权利要求1所述方法,其特征在于,所述根据所述内容块对应的节点
所包含的标签获取所述内容块的权重值包括:
获取所述内容块所对应的节点所包含的标签,其中,所述标签包括容器标
\t签与重要信息标签集;
从预设的容器标签与权重值的对应关系表中获取与所述容器标签对应的第
一权重值;
根据所述重要信息标签集中重要信息标签的数量确定所述内容块的第二权
重值;
确定所述内容块的权重值为所述第一权重值,所述第二权重值,或根据所
述第一权重值与所述第二权重值计算出的综合权重值。
5.如权利要求1-4任一所述方法,其特征在于,所述提取所述各内容块之
后还包括:
将所述提取出的各内容块存储至与所述搜索主题相关的内容库中;
当获取到客户端的与所述搜索主题相关的搜索请求时,将所述内容库中存
储的内容块发送至所述客户端。
6.一种网页中内容块的提取装置,其特征在于,包括:
构建模块,用于当获取到搜索网页后,构建所述搜索网页的标签树,其中,
所述标签树中的各节点对应所述搜索网页中的一个内容块;
筛选模块,...
【专利技术属性】
技术研发人员:郑仕腾,
申请(专利权)人:北京金山安全软件有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。