本发明专利技术提供一种网站关键词提取方法、装置和系统,其中方法包括:定期获取关键词存入数据库;遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;下载所述搜索引擎列表页URL中的页面;根据页面内容解析出所述关键词的评估数据;根据所述评估数据更新所述数据库的关键词信息。本发明专利技术提供的网站关键词提取方法、装置和系统,能够全面、准确、合理地将涉及网站内容的关键词提取出来,并定期更新关键词库,为网站的后续优化工作做出科学的指导,提升网站的优化效果。
【技术实现步骤摘要】
本专利技术涉及网络通信
,尤其涉及一种网站关键词提取方法、装置和系统。
技术介绍
词库是SEO流程中的重要组成部分,它基本上代表了本行业中用户所要搜索的词语,也就是说,词库代表着需求。其实网站首页的三大标签关键词带来的流量在网站后期的发展中贡献的比重并不是最大的。网站发展后期真正带来超级流量的其实是不显眼的几乎没什么指数的长尾词流量。据统计,一般6个字的词是网站流量的主体部分。所以说,提高搜索需求覆盖率十分重要。举个例子:如招聘行业,其行业相关词有“北京招聘”、“北京兼职”、“司机招聘”、“XX公司”等形式及它们的多维组合,如“北京司机 招聘”;如“铁艺大门”这样一个词,既可以细分下去如“北京铁艺大门”这样的词,也可有平级的“铁门”,还有上级的如“大门”等等。只要是有人搜索的词,网站上都有这样的页面,大量这样的页面,会带来很多的流量入口。要提高搜索需求覆盖率,首要的就是建立网站关键词词库,建立关键词词库可以说是SEO的最重心所在。做好关键词词库,并且持续性的优化关键词词库,能够帮运营人员在网站的优化推广方面做更多的辅助指导工作,提高网站排名和访问量。在申请号为201210129565.0的中国专利申请中公开了一种关键词投放方法及系统。其中获取关键词的方法只是从搜索历史数据库中获取搜索关键词,关键词的获取来源只限定在搜索历史数据库中,获取范围狭窄,难以达到覆盖率的需求。现有技术的关键词提取方法通常在获取关键词的途径方面来源都比较单一,不能全面地获取关键词,不能很好地为网站的后续优化工作做出科学的指导,也导致网站的优化效果不尽人意。
技术实现思路
针对背景技术中所出现的问题,本专利技术提供了一种网站关键词提取方法,包括:定期获取关键词存入数据库;遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;下载所述搜索引擎列表页URL中的页面;根据页面内容解析出所述关键词的评估数据;根据所述评估数据更新所述数据库的关键词信息。可选的是,所述定期获取关键词包括:定期抓取相关网站关键词或页面关键词。在上述任一方案中可选的是,所述定期获取关键词还包括:定期从相关页面内容或日志记录中挖掘所述关键词。在上述任一方案中可选的是,所述定期获取关键词还包括:根据所述数据库中的关键词在相关网站抓取与其内容相关的关键词。在上述任一方案中可选的是,所述定期获取关键词还包括:所述关键词由原有关键词与其属性分别搭配而组成。在上述任一方案中可选的是,所述拼接出搜索引擎列表页的URL之后,还包括:创建抓取队列,将所述URL加入到抓取队列;从抓取队列取出所述URL,下载所述搜索引擎列表页URL中的页面。在上述任一方案中可选的是,所述下载所述搜索引擎列表页URL中的页面,还包括:设置代理,发送http请求搜索引擎列表页,下载页面。在上述任一方案中可选的是,所述下载所述搜索引擎列表页URL中的页面,还包括:预设页面排名阈值;下载所述搜索引擎列表页URL中排名在所述页面排名阈值之前的页面。在上述任一方案中可选的是,所述关键词的评估数据包括排名数据、搜索量、相关内容数据、点击量、交易量、客户量、新增数据中的至少一项。在上述任一方案中可选的是,所述根据页面内容解析出所述关键词的评估数据之后,还包括根据所述评估数据得到评估分值。在上述任一方案中可选的是,所述根据所述评估数据更新所述数据库的关键词信息,包括根据所述评估分值在所述数据库中标记关键词的信息状态,所述关键词的信息状态包括存活状态和不存活状态。在上述任一方案中可选的是,所述根据所述评估分值在所述数据库中标记关键词的信息状态,包括:将所述评估分值大于等于预定的评估分值阈值的关键词标记为存活状态;将所述评估分值小于预定的评估分值阈值的关键词标记为不存活状态。在上述任一方案中可选的是,所述根据所述评估分值在所述数据库中标记关键词的信息状态,还包括:预设关键词存活量阈值;根据所述评估分值对关键词进行降序排序;将排序名次小于等于所述键词存活量阈值的关键词的信息状态标记为存活状态;将排序名次大于所述键词存活量阈值以上的关键词的信息状态标记为不存活状态。在上述任一方案中可选的是,根据所述关键词的信息状态确定所述关键词的展示状态,所述关键词的展示状态包括展示有效和展示无效。在上述任一方案中可选的是,将所述信息状态为存活状态的关键词的展示状态设置为展示有效;将所述信息状态为不存活状态的关键词的展示状态设置为展示无效。在上述任一方案中可选的是,所述更新所述数据库的关键词信息还包括:根据关键词的内容信息将关键词分类,将关键词的类别标记记入数据库。本专利技术还提供了一种网站关键词提取装置,包括:获取单元,用于定期获取关键词存入数据库;拼接单元,用于遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;下载单元,用于下载所述搜索引擎列表页URL中的页面;解析单元,用于根据页面内容解析出所述关键词的评估数据;更新单元,用于根据所述评估数据更新所述数据库的关键词信息。可选的是,所述获取单元还配置为:定期抓取相关网站关键词或页面关键词。在上述任一方案中可选的是,所述获取单元还配置为:定期从相关页面内容或日志记录中挖掘所述关键词。在上述任一方案中可选的是,所述获取单元还配置为:根据所述数据库中的关键词在相关网站抓取与其内容相关的关键词。在上述任一方案中可选的是,所述获取单元还配置为:所述关键词由原有关键词与其属性分别搭配而组成。在上述任一方案中可选的是,所述下载单元还配置为:创建抓取队列,将所述URL加入到抓取队列;从抓取队列取出所述URL,下载所述搜索引擎列表页URL中的页面。在上述任一方案中可选的是,所述下载单元还配置为:设置代理,发送http请求搜索引擎列表页,下载页面。在上述任一方案中可选的是,所述下载单元还配置为:预设页面排名阈值;下载所述搜索引擎列表页URL中排名在所述页面排名阈值之前的页面。在上述任一方案中可选的是,所述关键词的评估数据包括排名数据、搜索量、相关内容数据、点击量、交易量、客户量、新增数据中的至少一项。在上述任一方案中可选的是,所述解析单元还配置为根据所述评估数据得到评估分值。在上述任一方案中可选的是,所述更新单元还配置为根据所述评估分值在所述数据库中标记关键词的信息状态,所述关键词的信息状态包括存活状态和不存活状态。在上述任一方案中可选的是,所述更新单元还配置为:将所述评估分值大于等于预定的评估分值阈值的关键词标记为存活状态;将所述评估分值小于预定的评估分值阈值的关键词标记为不存活状态。在上述任一方案中可选的是,所述更新单元还配置为:预设关键词存活量阈值;根据所述评估分值对关键词进行降序排序;将排序名次小于等于所述键词存活量阈值的关键词的信息状态标记为存活状态;将排序名次大于所述键词存活量阈值以上的关键词的信息状态标记为不存活状态。在上述任一方案中可选的是,所述更新单元还配置为:根据所述关键词的信息状态确定所述关键词的展示状态,所述关键词的展示状态包括展示有效和展示无效。在上述任一方案中可选的是,所述更新单元还配置为:将所述信息状态为存活状态的关键词的展示状态设置为展示有效;将所述信息状态为不存活状态的关键词的展示状态设置为展示无效。在上述任一方案中可选的是,所述更新单元还本文档来自技高网...
【技术保护点】
一种网站关键词提取方法,包括:定期获取关键词存入数据库;遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;下载所述搜索引擎列表页URL中的页面;根据页面内容解析出所述关键词的评估数据;根据所述评估数据更新所述数据库的关键词信息。
【技术特征摘要】
1.一种网站关键词提取方法,包括:定期获取关键词存入数据库;遍历所述数据库中的关键词,根据关键词拼接出搜索引擎列表页的URL;下载所述搜索引擎列表页URL中的页面;根据页面内容解析出所述关键词的评估数据;根据所述评估数据更新所述数据库的关键词信息。2.根据权利要求1所述的方法,其特征在于,所述定期获取关键词包括:定期抓取相关网站关键词或页面关键词。3.根据权利要求1或2所述的方法,其特征在于,所述定期获取关键词还包括:定期从相关页面内容或日志记录中挖掘所述关键词。4.根据权利要求1所述的方法,其特征在于,所述定期获取关键词还包括:根据所述数据库中的关键词在相关网站抓取与其内容相关的关键词。5.根据权利要求2-4中任一项所述的方法,其特征在于,所述定期获取关键词还包括:所述关键词由原有关键词与其属性分别搭配而组成。6.根据权利要求1所述的方法,其特征在于,所述拼接出搜索引擎列表页的URL之后,还包括:创建抓取队列,将所述URL加入到抓取队列;从抓取队列取出所述URL,下载所述搜索引擎列表页URL中的页面。7.根据权利要求1或6所述的方法,其特征在于,所述下载所述搜索引擎...
【专利技术属性】
技术研发人员:李冬阳,肖智广,朱勇勇,
申请(专利权)人:世纪禾光科技发展北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。