本发明专利技术公开了一种网页关键词出现频次检测方法及装置。该网页关键词出现频次检测方法包括:确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二待检测网页关键词发出访问请求,并获取请求结果;分别获取多个链接地址对应的多个网页的网页内容;检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数。通过本发明专利技术,解决了对网页关键词的出现频次进行检测时效率较低的问题,进而通过获取多个链接地址对应的多个网页的网页内容,并检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数,达到了提高网页关键词的出现频次的检测效率的效果。
【技术实现步骤摘要】
网页关键词出现频次检测方法及装置
本专利技术涉及互联网领域,具体而言,涉及一种网页关键词出现频次检测方法及装 置。
技术介绍
在互联网应用中,经常需要对网络关键词的出现频次进行统计,例如,对品牌词曝 光量进行统计。品牌词曝光量的统计是以量化的形式实现定期检测和统计品牌词在互联网 的曝光情况。随着互联网的不断发展和普及,品牌词在互联网中的曝光情况越来越能反映 一个品牌在互联网中的口碑和影响力,并且已经成为品牌广告主优化品牌策划的一个重要 的参考指标。 利用搜索引擎检索品牌广告主所提供的产品或服务,进而可以统计在自然搜索结 果中品牌名称的曝光率,同时可以对比竞争对手的品牌曝光率。品牌名称在自然搜索结果 中的曝光量统计,需要在自然搜索结果中所呈现的前N页的每一个网页中统计该网页包含 的指定的品牌词的个数。 现有技术是人工利用搜索引擎手动检索品牌广告主的产品名称或者服务名称,再 人工地从检索结果中点击进入每一个网页,查看品牌名称是否出现并进行计数,直到前N 个页面都统计完毕,再手动计算曝光率。 由于自然搜索结果是基于海量互联网数据检索的结果,数据量大,变化频率高,因 此,现有的解决方案不能大面积、快速地对自然搜索结果中品牌词的出现频率进行检测,准 确性和及时性都难以保证。同时,在某些情况下需要同时统计竞争对手品牌名称的曝光频 率,这也为统计人员带来了相当大的工作量。 针对相关技术中对网页关键词的出现频次进行检测时效率较低的问题,目前尚未 提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种网页关键词出现频次检测方法及装置,以解决对 网页关键词的出现频次进行检测时效率较低的问题。 为了实现上述目的,根据本专利技术的一个方面,提供了一种网页关键词出现频次检 测方法。 根据本专利技术的网页关键词出现频次检测方法包括:确定第一待检测网页关键词和 第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二 待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关 键词对应的多个链接地址;分别获取多个链接地址对应的多个网页的网页内容;检测在多 个网页的网页内容中出现第一待检测网页关键词的网页的个数。 进一步地,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个 数之后,该方法还包括:分别检测第一待检测网页关键词在多个网页的网页内容中出现时 网页内容的情感倾向特征,其中,情感倾向特征包括正面情感倾向特征和负面情感倾向特 征;分别统计第一待检测网页关键词在多个网页的网页内容中出现时网页内容的情感倾向 特征为正面情感倾向特征和负面情感倾向特征的次数。 进一步地,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个 数之后,该方法还包括:统计第二待检测网页关键词对应的多个链接地址的个数;根据在 多个网页的网页内容中出现第一待检测网页关键词的网页的个数和第二待检测网页关键 词对应的多个链接地址的个数计算第一待检测网页关键词的出现比率。 进一步地,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个 数之后,该方法还包括:确定第三待检测网页关键词,其中,第三待检测网页关键词属于第 二待检测网页关键词,第三待检测网页关键词和第一待检测网页关键词为不同的网页关键 词;检测在多个网页的网页内容中出现第三待检测网页关键词的网页的个数;将在多个网 页的网页内容中出现第一待检测网页关键词的网页的个数和在多个网页的网页内容中出 现第三待检测网页关键词的网页的个数进行比较,并获取比较结果。 进一步地,分别获取多个链接地址对应的多个网页的网页内容包括:利用爬虫爬 取技术分别获取多个链接地址对应的多个网页的网页内容。 进一步地,对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求 结果包括第二待检测网页关键词对应的多个链接地址包括:确定预设参考数量,其中,预设 参考数量为预先设定的获取第二待检测网页关键词对应的链接地址的数量;对第二待检测 网页关键词发出访问请求,获取请求结果,其中,请求结果包括第二待检测网页关键词对应 的多个链接地址;按照搜索热度由强到弱的顺序,从第二待检测网页关键词对应的多个链 接地址中获取数量为预设参考数量的多个链接地址。 为了实现上述目的,根据本专利技术的另一方面,提供了一种网页关键词出现频次检 测装置。 根据本专利技术的网页关键词出现频次检测装置包括:第一确定单元,用于确定第一 待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检 测网页关键词;第一获取单元,用于对第二待检测网页关键词发出访问请求,并获取请求结 果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址;第二获取单元,用于 分别获取多个链接地址对应的多个网页的网页内容;第一检测单元,用于检测在多个网页 的网页内容中出现第一待检测网页关键词的网页的个数。 进一步地,该装置还包括:第二检测单元,用于分别检测第一待检测网页关键词在 多个网页的网页内容中出现时网页内容的情感倾向特征,其中,情感倾向特征包括正面情 感倾向特征和负面情感倾向特征;第一统计单元,用于分别统计第一待检测网页关键词在 多个网页的网页内容中出现时网页内容的情感倾向特征为正面情感倾向特征和负面情感 倾向特征的次数。 进一步地,该装置还包括:第二统计单元,用于统计第二待检测网页关键词对应的 多个链接地址的个数;计算单元,用于根据在多个网页的网页内容中出现第一待检测网页 关键词的网页的个数和第二待检测网页关键词对应的多个链接地址的个数计算第一待检 测网页关键词的出现比率。 进一步地,该装置还包括:第二确定单元,用于确定第三待检测网页关键词,其中, 第三待检测网页关键词属于第二待检测网页关键词,第三待检测网页关键词和第一待检测 网页关键词为不同的网页关键词;第三检测单元,用于检测在多个网页的网页内容中出现 第三待检测网页关键词的网页的个数;第三获取单元,用于将在多个网页的网页内容中出 现第一待检测网页关键词的网页的个数和在多个网页的网页内容中出现第三待检测网页 关键词的网页的个数进行比较,并获取比较结果。 通过本专利技术,采用包括以下步骤的方法:确定第一待检测网页关键词和第二待检 测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二待检测网 页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词对应 的多个链接地址;分别获取多个链接地址对应的多个网页的网页内容;检测在多个网页的 网页内容中出现第一待检测网页关键词的网页的个数,解决了对网页关键词的出现频次进 行检测时效率较低的问题,进而通过获取多个链接地址对应的多个网页的网页内容,并检 测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数,达到了提高网页关 键词的出现频次的检测效率的效果。 【附图说明】 构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实 施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1是根据本专利技术的网页关键词出现频次检测方本文档来自技高网...
【技术保护点】
一种网页关键词出现频次检测方法,其特征在于,包括: 确定第一待检测网页关键词和第二待检测网页关键词,其中,所述第一待检测网页关键词属于第二待检测网页关键词; 对所述第二待检测网页关键词发出访问请求,并获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址; 分别获取所述多个链接地址对应的多个网页的网页内容;以及检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数。
【技术特征摘要】
1. 一种网页关键词出现频次检测方法,其特征在于,包括: 确定第一待检测网页关键词和第二待检测网页关键词,其中,所述第一待检测网页关 键词属于第二待检测网页关键词; 对所述第二待检测网页关键词发出访问请求,并获取请求结果,其中,所述请求结果包 括所述第二待检测网页关键词对应的多个链接地址; 分别获取所述多个链接地址对应的多个网页的网页内容;以及检测在所述多个网页的 网页内容中出现所述第一待检测网页关键词的网页的个数。2. 根据权利要求1所述的方法,其特征在于,检测在所述多个网页的网页内容中出现 所述第一待检测网页关键词的网页的个数之后,所述方法还包括: 分别检测所述第一待检测网页关键词在所述多个网页的网页内容中出现时网页内容 的情感倾向特征,其中,所述情感倾向特征包括正面情感倾向特征和负面情感倾向特征;以 及分别统计所述第一待检测网页关键词在所述多个网页的网页内容中出现时网页内容的 情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。3. 根据权利要求1所述的方法,其特征在于,检测在所述多个网页的网页内容中出现 所述第一待检测网页关键词的网页的个数之后,所述方法还包括: 统计所述第二待检测网页关键词对应的多个链接地址的个数;以及根据在所述多个网 页的网页内容中出现所述第一待检测网页关键词的网页的个数和所述第二待检测网页关 键词对应的多个链接地址的个数计算所述第一待检测网页关键词的出现比率。4. 根据权利要求1所述的方法,其特征在于,检测在所述多个网页的网页内容中出现 所述第一待检测网页关键词的网页的个数之后,所述方法还包括: 确定第三待检测网页关键词,其中,所述第三待检测网页关键词属于所述第二待检测 网页关键词,所述第三待检测网页关键词和所述第一待检测网页关键词为不同的网页关键 词; 检测在所述多个网页的网页内容中出现所述第三待检测网页关键词的网页的个数;以 及将在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数和在所 述多个网页的网页内容中出现所述第三待检测网页关键词的网页的个数进行比较,并获取 比较结果。5. 根据权利要求1所述的方法,其特征在于,分别获取所述多个链接地址对应的多个 网页的网页内容包括:利用爬虫爬取技术分别获取所述多个链接地址对应的多个网页的网 页内容。6. 根据权利要求1所述的方法,其特征在于,对所述第二待检测网页关键词发出访问 请求,并获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链 接...
【专利技术属性】
技术研发人员:谭紫萱,杨韬,王晓群,张松,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。