基于软件机器人的招标信息抓取方法技术

技术编号:36748476 阅读:11 留言:0更新日期:2023-03-04 10:32
本发明专利技术公开了一种基于软件机器人的招标信息抓取方法,包括如下步骤:步骤一,设置软件机器人,通过软件机器人解析招标网站的网页标签元素;步骤二,根据步骤一中解析获得网页标签元素抓取列表数据信息,完成数据的采集;步骤三,将步骤二中所采集的数据进行文本提取及格式化存储,然后在数据进行汇总,并在汇总结束后根据给定收件人通过RPA自动发送当日数据汇总表,完成对于招标信息的抓取。本发明专利技术的基于软件机器人的招标信息抓取方法,通过步骤一至步骤三的设置,便可有效的实现利用软件机器人解析招标网站的网页标签元素的方式来实现招标信息的抓取了。招标信息的抓取了。

【技术实现步骤摘要】
基于软件机器人的招标信息抓取方法


[0001]本专利技术涉及一种抓取方法,更具体的说是涉及一种基于软件机器人的招标信息抓取方法。

技术介绍

[0002]在进行业务处理工作中,基于业务需求需要经常处理招标信息,因此,需要实时查看招标网站中招标公告页面的最新发布情况。由此需要安排专门的人员负责监控招标网站,但是受限于人工查看信息的低效率和工作时间,招标信息的获取工作效率十分低效,且具有较大时延。
[0003]有专利号为202010311011.7,名称为一种招标信息获取方法及装置的专利技术专利公开了一种通过在招标网站获取招标公告的页面信息,然后利用预设的规则表达式,页面信息中项目名称所对应的超链接,然后通过超链接访问到明细页面,进而通过明细页面抓取到招标信息,然而上述招标信息抓取的方式需要通过超链接跳转到明细页面,之后再通过明细页面抓取招标信息,然而上述过程中,还需要通过超链接实行页面跳转的方式,如此便会占用较多的运行资源,增加系统的运行负担。

技术实现思路

[0004]针对现有技术存在的不足,本专利技术的目的在于提供一种占用较少的运行资源,减少系统的运行负担的基于软件机器人的招标信息抓取方法。
[0005]为实现上述目的,本专利技术提供了如下技术方案:一种基于软件机器人的招标信息抓取方法,其特征在于:包括如下步骤:
[0006]步骤一,设置软件机器人,通过软件机器人解析招标网站的网页标签元素;
[0007]步骤二,根据步骤一中解析获得网页标签元素抓取列表数据信息,完成数据的采集;
[0008]步骤三,将步骤二中所采集的数据进行文本提取及格式化存储,然后在数据进行汇总,并在汇总结束后根据给定收件人通过RPA自动发送当日数据汇总表,完成对于招标信息的抓取。
[0009]作为本专利技术的进一步改进,所述步骤一中解析招标网站的网页标签元素的具体步骤如下:
[0010]步骤一,通过XPath路径表达式来选取招标网站的网页源代码中的节点或节点集;
[0011]步骤二,分析获得节点或节点集所对应的数据路径;
[0012]步骤三,根据步骤二中所获得的数据路径选寻找到相对应的数据;
[0013]其中,节点或是节点集为招标项目状态节点、省份节点、金额节点和项目名称节点。
[0014]作为本专利技术的进一步改进,所述步骤三中的汇总过程是通过配置表中对应关键字段审查当日数据汇总表,之后按种类拆分出多个Sheet表进行记录,进而完成对于数据的汇
总记录。
[0015]作为本专利技术的进一步改进,所述步骤三中的文本提取是通过动态标签实现的,通过模糊匹配动态标签,进而确定关键位置,在确定关键位置后选取关键位置所对应的数据,并提取出该数据的文本信息。
[0016]作为本专利技术的进一步改进,所述步骤三中关键字段审查当日数据汇总表的具体方式如下:获取配置表中的关键字段所对应的数据种类,然后将配置表中的关键字段与数据汇总表内的字段相匹配,然后对数据汇总表内的字段进行分类。
[0017]作为本专利技术的进一步改进,所述步骤三中提取文本信息的具体方式为:解析网页源码列表元素特征,以获取招标数据展示页中列表数据,根据网页“table”标签属性解析表头字段及行列数据,然后提取表头字段和行列数据上的文字内容作为文本信息。
[0018]本专利技术的有益效果,通过步骤一的设置,便可有效的实现通过软件机器人解析招标网站的网页标签元素,而通过步骤二的设置,便可有效的实现根据步骤一中解析获得的网页标签元素进行数据采集,然后通过步骤三的设置,便可有效的实现将采集的数据进行文本提取及格式化存储,之后再进行汇总的方式,完成最终的招标信息抓取,如此相比于现有技术中先跳转到详细页面在进行抓取的方式,减少了页面跳转步骤,如此极大的节约了运行资源。
具体实施方式
[0019]下面将所给出的实施例对本专利技术做进一步的详述。
[0020]本实施例的一种基于软件机器人的招标信息抓取方法,包括如下步骤:
[0021]步骤一,设置软件机器人,通过软件机器人解析招标网站的网页标签元素;
[0022]步骤二,根据步骤一中解析获得网页标签元素抓取列表数据信息,完成数据的采集;
[0023]步骤三,将步骤二中所采集的数据进行文本提取及格式化存储,然后在数据进行汇总,并在汇总结束后根据给定收件人通过RPA自动发送当日数据汇总表,完成对于招标信息的抓取,在使用本实施例的方法的过程中,只需要依次执行步骤一至步骤三即可,如此便可通过软件机器人解析网页标签元素的方式来实现对于招标数据的采集,然后进行处理和汇总了,如此相比于现有技术中的方式,不需要跳转到详细页面,如此系统便不需要额外的读取详细页面的其他数据,有效的减少了对于系统运行资源的占用,提升了整体的读取效率,本实施例中的软件机器人优选RPA机器人。
[0024]作为改进的一种具体实施方式,所述步骤一中解析招标网站的网页标签元素的具体步骤如下:
[0025]步骤一,通过XPath路径表达式来选取招标网站的网页源代码中的节点或节点集;
[0026]步骤二,分析获得节点或节点集所对应的数据路径;
[0027]步骤三,根据步骤二中所获得的数据路径选寻找到相对应的数据;
[0028]其中,节点或是节点集为招标项目状态节点、省份节点、金额节点和项目名称节点,通过步骤一和步骤三的设置,便可有效的实现通过节点或节点集上的数据路径来寻找到相对应的数据,进而不需要打开详细页面便可对数据进行采集抓取了。
[0029]作为改进的一种具体实施方式,所述步骤三中的汇总过程是通过配置表中对应关
键字段审查当日数据汇总表,之后按种类拆分出多个Sheet表进行记录,进而完成对于数据的汇总记录,通过上述步骤的设置,便可有效的通过关键字段来审查汇总表,并且有效的进行记录。
[0030]作为改进的一种具体实施方式,所述步骤三中的文本提取是通过动态标签实现的,通过模糊匹配动态标签,进而确定关键位置,在确定关键位置后选取关键位置所对应的数据,并提取出该数据的文本信息,通过上述步骤的设置,便可利用模糊匹配动态标签的方式来实现确定关键位置,然后选取出所对应的数据,提取出文本信息,完成对于文本信息的提取了。
[0031]作为改进的一种具体实施方式,所述步骤三中关键字段审查当日数据汇总表的具体方式如下:获取配置表中的关键字段所对应的数据种类,然后将配置表中的关键字段与数据汇总表内的字段相匹配,然后对数据汇总表内的字段进行分类,通过上述方式的设置,便可通过配置表内的关键字段分类数据来实现对于数据汇总表内的字段和数据进行有效的分类了。
[0032]作为改进的一种具体实施方式,所述步骤三中提取文本信息的具体方式为:解析网页源码列表元素特征,以获取招标数据展示页中列表数据,根据网页“table”标签属性解析表头字段及行列数据,然后提取表头字段和行列数据上的文字内容作为文本信息,通过上述方式的设置,便可采用解析源码的方式来实现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于软件机器人的招标信息抓取方法,其特征在于:包括如下步骤:步骤一,设置软件机器人,通过软件机器人解析招标网站的网页标签元素;步骤二,根据步骤一中解析获得网页标签元素抓取列表数据信息,完成数据的采集;步骤三,将步骤二中所采集的数据进行文本提取及格式化存储,然后在数据进行汇总,并在汇总结束后根据给定收件人通过RPA自动发送当日数据汇总表,完成对于招标信息的抓取。2.根据权利要求1所述的基于软件机器人的招标信息抓取方法,其特征在于:所述步骤一中解析招标网站的网页标签元素的具体步骤如下:步骤一,通过XPath路径表达式来选取招标网站的网页源代码中的节点或节点集;步骤二,分析获得节点或节点集所对应的数据路径;步骤三,根据步骤二中所获得的数据路径选寻找到相对应的数据;其中,节点或是节点集为招标项目状态节点、省份节点、金额节点和项目名称节点。3.根据权利要求2所述的基于软件机器人的招标信息抓取方法,其特征在于:所述步骤三中的汇总过程是通过配置表中对...

【专利技术属性】
技术研发人员:张正华陈浩孟德强邓佳驰梅森林梁牧
申请(专利权)人:百思特管理咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1