一种爬取网页招聘信息的方法技术

技术编号:11196806 阅读:131 留言:0更新日期:2015-03-26 03:30
本发明专利技术是一种爬取网页招聘信息的方法,解决了网页招聘信息采集难、入库难的问题。目前互联网上存在一定数目的招聘网站,而如今企业的主要招聘是通过在招聘网站发布招聘信息进行的,同样的,应聘者获取工作的主要途径是企业在招聘网站上发布的招聘信息。这些招聘信息在一定程度上能够反应当今社会经济结构的需求与变化;如果对招聘信息进行科学的处理与分析,可以实现更具针对性的政策调整与人才培养。

【技术实现步骤摘要】
【专利摘要】本专利技术是,解决了网页招聘信息采集难、入库难的问题。目前互联网上存在一定数目的招聘网站,而如今企业的主要招聘是通过在招聘网站发布招聘信息进行的,同样的,应聘者获取工作的主要途径是企业在招聘网站上发布的招聘信息。这些招聘信息在一定程度上能够反应当今社会经济结构的需求与变化;如果对招聘信息进行科学的处理与分析,可以实现更具针对性的政策调整与人才培养。【专利说明】
本专利技术涉及一种计算机应用,具体地说是。
技术介绍
随着互联网的普及,招聘信息的载体逐渐由纸质报刊转向互联网上的各类招聘网站。当今,招聘网站已成为企业与应聘者发布与获取招聘信息的主要途径。企业为了能够招聘到高精尖的人才,都会在不同的招聘网站上发布相应的招聘信息,应聘者为了能够找到满意的工作,也会去不同的网站去寻找相应的招聘信息。随着招聘网站的不断增多,招聘信息也呈现出不断增长的趋势,而且信息内容随着岗位与企业的不同也呈现出不同与多变,这给采集也带了众多难题如下:1.页面不规则,造成规则的多变;2.随着数据量的不断增大,分页地址不断变化;3.网站信息更新速度快。
技术实现思路
本专利技术的目的是提供。 本专利技术的目的是针对招聘网站上的各类招聘信息进行采集,主要是因为招聘网站已成为当今企业与应聘者发布获取招聘信息最主要的途径。根据采集互联网上数据的规贝U,对招聘网站中各类招聘信息进行采集:本专利技术的目的是按以下方式实现的,具体步骤如下:O安装采集软件及抓包工具;2)分析招聘网站地址,寻找各自不同类别招聘信息的地址;3)通过抓包工具获取分页信息,配置相关工具实施数据采集;4)从互联网上找到要采集的主流招聘网站;5)利用抓包工具获得各类招聘信息的分页地址;6)分析页面,找到要抓取的招聘信息的页面规则;7)通过配置分析好的规则进行信息采集;8)把采集的数据储存到数据库。 本专利技术的目的有益效果是:解决了网页招聘信息采集难、入库难的问题。目前互联网上存在一定数目的招聘网站,而如今企业的主要招聘是通过在招聘网站发布招聘信息进行的,同样的,应聘者获取工作的主要途径是企业在招聘网站上发布的招聘信息。这些招聘信息在一定程度上能够反应当今社会经济结构的需求与变化;如果对招聘信息进行科学的处理与分析,可以实现更具针对性的政策调整与人才培养。 【专利附图】【附图说明】 图1是爬取网页招聘信息的流程图。 【具体实施方式】 参照说明书附图对本专利技术的方法作以下详细地说明。 由于不同招聘网站地址不一样,不同类别的招聘信息地址更是不一样,因此,分以下几个步骤对招聘信息进行数据采集:1)安装采集软件及抓包工具;2)分析招聘网站地址,寻找各自不同类别招聘信息的地址;3)通过抓包工具获取分页信息,配置相关工具实施数据采集;4)从互联网上找到要采集的主流招聘网站;5)利用抓包工具获得各类招聘信息的分页地址;6)分析页面,找到要抓取的招聘信息的页面规则;7)通过配置分析好的规则进行信息采集;8)把采集的数据储存到数据库。 除说明书所述的技术特征外,均为本专业技术人员的已知技术。【权利要求】1.,其特征在于具体步骤如下:1)安装采集软件及抓包工具;2)分析招聘网站地址,寻找各自不同类别招聘信息的地址;3)通过抓包工具获取分页信息,配置相关工具实施数据采集;4)从互联网上找到要采集的主流招聘网站;5)利用抓包工具获得各类招聘信息的分页地址;6)分析页面,找到要抓取的招聘信息的页面规则;7)通过配置分析好的规则进行信息采集;8)把采集的数据储存到数据库。【文档编号】G06F17/30GK104462431SQ201410774571【公开日】2015年3月25日 申请日期:2014年12月16日 优先权日:2014年12月16日 【专利技术者】邱继钊, 于治楼, 范莹 申请人:浪潮软件集团有限公司本文档来自技高网...

【技术保护点】
一种爬取网页招聘信息的方法, 其特征在于具体步骤如下:1)安装采集软件及抓包工具;2)分析招聘网站地址,寻找各自不同类别招聘信息的地址;3)通过抓包工具获取分页信息,配置相关工具实施数据采集;4)从互联网上找到要采集的主流招聘网站; 5)利用抓包工具获得各类招聘信息的分页地址; 6)分析页面,找到要抓取的招聘信息的页面规则;7)通过配置分析好的规则进行信息采集;8)把采集的数据储存到数据库。

【技术特征摘要】

【专利技术属性】
技术研发人员:邱继钊于治楼范莹
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1