System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 采购意向公开信息的数据采集方法、系统、设备介质技术方案_技高网

采购意向公开信息的数据采集方法、系统、设备介质技术方案

技术编号:43219023 阅读:7 留言:0更新日期:2024-11-05 17:11
本发明专利技术公开了采购意向公开信息的数据采集方法、系统、设备介质,属于大数据应用与分析技术领域,本发明专利技术要解决的技术问题为如何实现定时访问采购平台的数据查询接口,实时高频的获取采购意向最新且准确的公开数据,采用的技术方案为:该方法是基于互联网数据采集技术,通过对一个或多个目标站点的采购意向信息相关的数据接口进行高频次的遍历请求,保存为结构化的采购意向数据,达到对采购意向公开信息的实时动态获取;具体如下:按需设定采集监测站点与目标字段;获取目标字段的数据接口;设定更新范围、频率与存储上限;遍历数据接口并抽取目标字段;采集结果积累形成数据集合,并将数据集合存储到数据库中。

【技术实现步骤摘要】

本专利技术涉及大数据应用与分析,具体地说是一种采购意向公开信息的数据采集方法、系统、设备介质


技术介绍

1、采购的一般流程为确定采购预算、公开采购意向、采购需求管理、实施采购。采购预算确定后应公开采购意向,最迟不晚于开始采购前30日。因此,及时有效地获取采购意向数据,有助于投标方更好地把握市场规律,实现更好的经济效益。

2、采购意向公开信息数据具有数量大、维度多、价值高、使用周期长、使用地点分散等特点,且实时更新动态变化。受到数据统计途径、信息安全、数据传输调用的速度、web系统的运行压力、数据存储成本等多种因素的影响,仅有官方网站和少数大型公共资源交易平台有能力提供最新最准确的数据。然而官方网站发布的信息一般都局限于所属地区,而大型平台也难以整合覆盖各地区且存在一定的滞后性,加之此类信息往往以公告的形式发布,最多提供附件下载,不支持数据结构化,多个网站的公告信息难以合并汇总,给数据分析带来困难,难以满足从业人员的数据需求。

3、因此,现有技术存在在采购意向数据分析与解读过程中,由于各地方平台公示信息有限,单一公共资源交易平台难以覆盖全国各地,导致无法获取足量的数据样本,且数据源平台更新频繁、大多以公告文本的形式发布信息,难以及时获取最新且准确的结构化数据,不能满足大数据技术分析应用的数据需求的缺点。故如何实现定时访问采购平台的数据查询接口,实时高频的获取采购意向最新且准确的公开数据是目前亟待解决的技术问题。


技术实现思路

1、本专利技术的技术任务是提供一种采购意向公开信息的数据采集方法、系统、设备介质,来解决如何实现定时访问采购平台的数据查询接口,实时高频的获取采购意向最新且准确的公开数据的问题。

2、本专利技术的技术任务是按以下方式实现的,一种采购意向公开信息的数据采集方法,该方法是基于互联网数据采集技术,通过对一个或多个目标站点的采购意向信息相关的数据接口进行高频次的遍历请求,保存为结构化的采购意向数据,达到对采购意向公开信息的实时动态获取;具体如下:

3、按需设定采集监测站点与目标字段;

4、获取目标字段的数据接口;

5、设定更新范围、频率与存储上限;

6、遍历数据接口并抽取目标字段;

7、采集结果积累形成数据集合,并将数据集合存储到数据库中。

8、作为优选,按需设定采集监测站点与目标字段具体如下:

9、按照采集需求确定采集站点;采集站点包括单位网站或第三方公共资源交易平台;

10、目标维度即为采购意向相关,目标字段分为采购意向公告所属信息、采购内容信息及采购人信息;

11、其中,采购意向公告所属信息包括标题、发布时间、所属地、来源、原文、附件链接、类别类型及主题行业;

12、采购内容信息包括项目编号、项目名称、采购需求概况、预算金额、预计采购时间、是否面向中小微企业及备注;

13、采购人信息包括采购人名称、单位类型、地址、联系人及联系电话。

14、作为优选,获取目标字段的数据接口具体如下:

15、不同网站所提供的信息接口有所区别,具体为:采购意向列表、采购意向详情及采购内容,采购意向列表、采购意向详情及采购内容三者呈逐级递进关系;

16、对选定的网站依次访问,利用web调试工具获取采购意向信息在数据源网站的接口模式。

17、作为优选,设定更新范围、频率与存储上限具体如下:

18、按需设定不同网站每次采集的范围、采集启动间隔以及历史数据的保留时长;具体为:百万数据量级的网站每次采前20页、十万及以下量级的前10页,每天采集三次并设定采集时间点(如6:00、12:00、20:00),保留近一年的数据。

19、作为优选,遍历数据接口并抽取目标字段具体如下:

20、按更新范围与频率对接口循环遍历访问,获取数据源平台的响应信息;

21、结合字符串提取技术从请求接口后返回的响应全文中抽取选定的目标字段,形成结构化数据,进而存入数据库中;其中,字符串提取技术包括正则或xpath表达式以及语义分析技术。

22、更优地,采集结果积累形成数据集合具体如下:

23、将提取的结构化数据,存储入数据库形成采购意向公开信息集合,并设定保留周期;

24、按设定的保留周期清理过期的冗余数据,例如,只保存近1年的数据等,超过设定的保留周期的数据视为冗余数据,可定期自动清除。

25、一种采购意向公开信息的数据采集系统,该系统包括:

26、设定模块一,用于按需设定采集监测站点与目标字段;

27、获取模块,用于获取目标字段的数据接口;

28、设定模块二,用于设定更新范围、频率与存储上限;

29、遍历模块,用于遍历数据接口并抽取目标字段;

30、存储模块,用于将采集结果积累形成数据集合,并将数据集合存储到数据库中。

31、作为优选,设定模块一中设定的采集站点包括单位网站或第三方公共资源交易平台;目标维度即为采购意向相关,目标字段分为采购意向公告所属信息、采购内容信息及采购人信息;其中,采购意向公告所属信息包括标题、发布时间、所属地、来源、原文、附件链接、类别类型及主题行业;采购内容信息包括项目编号、项目名称、采购需求概况、预算金额、预计采购时间、是否面向中小微企业及备注;采购人信息包括采购人名称、单位类型、地址、联系人及联系电话;

32、获取模块针对不同网站所提供的信息接口有所区别,具体为:采购意向列表、采购意向详情及采购内容,采购意向列表、采购意向详情及采购内容三者呈逐级递进关系;并对选定的网站依次访问,利用web调试工具获取采购意向信息在数据源网站的接口模式;

33、设定模块二是按需设定不同网站每次采集的范围、采集启动间隔以及历史数据的保留时长;具体为:百万数据量级的网站每次采前20页、十万及以下量级的前10页,每天采集三次并设定采集时间点(如6:00、12:00、20:00),保留近一年的数据;

34、遍历模块是按更新范围与频率对接口循环遍历访问,获取数据源平台的响应信息;并结合字符串提取技术从请求接口后返回的响应全文中抽取选定的目标字段,形成结构化数据,进而存入数据库中;其中,字符串提取技术包括正则或xpath表达式以及语义分析技术;

35、存储模块是将提取的结构化数据,存储入数据库形成采购意向公开信息集合,并设定保留周期;并按设定的保留周期清理过期的冗余数据,例如,只保存近1年的数据等,超过设定的保留周期的数据视为冗余数据,可定期自动清除。

36、一种电子设备,包括:存储器和至少一个处理器;

37、其中,所述存储器上存储有计算机程序;

38、所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如上述的采购意向公开信息的数据采集方法。

39、一种计本文档来自技高网...

【技术保护点】

1.一种采购意向公开信息的数据采集方法,其特征在于,该方法是基于互联网数据采集技术,通过对一个或多个目标站点的采购意向信息相关的数据接口进行高频次的遍历请求,保存为结构化的采购意向数据,达到对采购意向公开信息的实时动态获取;具体如下:

2.根据权利要求1所述的采购意向公开信息的数据采集方法,其特征在于,按需设定采集监测站点与目标字段具体如下:

3.根据权利要求1所述的采购意向公开信息的数据采集方法,其特征在于,获取目标字段的数据接口具体如下:

4.根据权利要求1所述的采购意向公开信息的数据采集方法,其特征在于,设定更新范围、频率与存储上限具体如下:

5.根据权利要求1所述的采购意向公开信息的数据采集方法,其特征在于,遍历数据接口并抽取目标字段具体如下:

6.根据权利要求1-5中任一项所述的采购意向公开信息的数据采集方法,其特征在于,采集结果积累形成数据集合具体如下:

7.一种采购意向公开信息的数据采集系统,其特征在于,该系统包括:

8.根据权利要求7所述的采购意向公开信息的数据采集系统,其特征在于,设定模块一中设定的采集站点包括单位网站或第三方公共资源交易平台;设定模块一中设定的目标维度即为采购意向相关,目标字段分为采购意向公告所属信息、采购内容信息及采购人信息;其中,采购意向公告所属信息包括标题、发布时间、所属地、来源、原文、附件链接、类别类型及主题行业;采购内容信息包括项目编号、项目名称、采购需求概况、预算金额、预计采购时间、是否面向中小微企业及备注;采购人信息包括采购人名称、单位类型、地址、联系人及联系电话;

9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至6中任一项所述的采购意向公开信息的数据采集方法。

...

【技术特征摘要】

1.一种采购意向公开信息的数据采集方法,其特征在于,该方法是基于互联网数据采集技术,通过对一个或多个目标站点的采购意向信息相关的数据接口进行高频次的遍历请求,保存为结构化的采购意向数据,达到对采购意向公开信息的实时动态获取;具体如下:

2.根据权利要求1所述的采购意向公开信息的数据采集方法,其特征在于,按需设定采集监测站点与目标字段具体如下:

3.根据权利要求1所述的采购意向公开信息的数据采集方法,其特征在于,获取目标字段的数据接口具体如下:

4.根据权利要求1所述的采购意向公开信息的数据采集方法,其特征在于,设定更新范围、频率与存储上限具体如下:

5.根据权利要求1所述的采购意向公开信息的数据采集方法,其特征在于,遍历数据接口并抽取目标字段具体如下:

6.根据权利要求1-5中任一项所述的采购意向公开信息的数据采集方法,其特征在于,采集结果积累形成数据集合具体如下:

...

【专利技术属性】
技术研发人员:邢荣薛兵单震
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1