System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据采集方法、系统、电子设备及介质技术方案_技高网

数据采集方法、系统、电子设备及介质技术方案

技术编号:42038772 阅读:5 留言:0更新日期:2024-07-16 23:23
本申请提供一种数据采集方法、系统、电子设备及介质,所述数据采集方法包括:获取配置参数,所述配置参数包括基础路径链接、最大成功标识符、生成标识符数量、最大标识符和过期时间;根据所述配置参数获取新增标识符的数量;判断所述新增标识符的数量是否大于零,若是,则获取新增标识符区间,并根据所述新增标识符区间和所述基础路径链接获取待抓取队列,若否,则休眠后重复根据所述配置参数获取所述新增标识符的数量,并判断所述新增标识符的数量是否大于零。此种数据采集方法能够提高数据采集的效率,避免重复采集和数据丢失的问题,保证数据采集的全面性和时效性。

【技术实现步骤摘要】

本申请属于数据处理,涉及一种数据采集方法,特别是涉及一种数据采集方法、系统、电子设备及介质


技术介绍

1、随着互联网的快速发展,数据采集已经成为许多企业和研究机构获取信息的重要途径。通过采集网页文章链接数据,可以了解用户的兴趣爱好、行为习惯等信息,为企业的营销策略和产品定位提供重要参考。然而,在进行数据采集时,往往会遇到一些问题。首先,现有的技术往往采集不全面。由于网页的内容繁杂多样,现有的采集技术往往只能获取部分链接数据,无法完整地获取网页上的所有相关信息。这导致了采集结果的不准确性和不完整性,影响了后续数据分析和应用的效果。其次,现有的技术容易重复采集。由于网页链接数据的更新频率较高,很多网页文章链接会被多次采集,导致数据的冗余和浪费。而且,重复采集还会增加服务器的负担,影响采集效率和速度。

2、总的来说,数据采集是一个重要的
,需要不断探索和创新,以满足用户对信息的需求和企业的发展需求。通过不断改进和优化采集技术,可以更好地获取和利用网页文章链接数据,为各行业的发展和进步提供有力支持。然而,现有的数据采集方法仍存在重复采集、数据丢失或遗漏等问题。


技术实现思路

1、鉴于以上所述现有技术的缺点,本申请的目的在于提供一种数据采集方法、系统、电子设备及介质,用于解决现有技术中数据采集容易造成数据丢失或遗漏以及重复采集的问题。

2、第一方面,本申请提供一种数据采集方法,所述数据采集方法包括:获取配置参数,所述配置参数包括基础路径链接、最大成功标识符、生成标识符数量、最大标识符和过期时间;根据所述配置参数获取新增标识符的数量;判断所述新增标识符的数量是否大于零,若是,则获取新增标识符区间,并根据所述新增标识符区间和所述基础路径链接获取待抓取队列,若否,则休眠后重复根据所述配置参数获取所述新增标识符的数量,并判断所述新增标识符的数量是否大于零。

3、本申请中,根据配置参数获取新增标识符的数量,判断新增标识符的数量是否大于零,若大于零,则说明存在未进行数据收集的新增标识符区间,以此获取待抓取队列,若小于等于零,则说明不存在未收集过的数据,待休眠一段时候后重复进行数据采集操作。此种数据采集方法能够提高数据采集的效率,避免重复采集和数据丢失的问题,保证数据采集的全面性和时效性。此外,此种数据采集方法还能够自动生成标识符,分布式进行数据收集,减少人工干预,节约了资源和人力成本。

4、在第一方面的一种实现方式中,根据所述配置参数获取新增标识符的数量包括:获取最大成功标识符、生成标识符数量和最大标识符作为所述配置参数;根据所述配置参数中所述最大成功标识符、所述生成标识符数量和所述最大标识符进行加减运算以获取所述新增标识符的数量。

5、在第一方面的一种实现方式中,根据所述新增标识符区间和所述基础路径链接获取待抓取队列包括:根据所述新增标识符的区间和所述基础路径链接生成文章链接;将各所述文章链接放入采集队列以获取所述待抓取队列。

6、在第一方面的一种实现方式中,根据所述新增标识符区间和所述基础路径链接获取待抓取队列包括:根据所述最大标识符和所述新增标识符的数量更新所述最大标识符,以获取更新后的最大标识符;根据所述更新后的最大标识符作为所述配置参数以获取所述新增标识符的数量,重复进行数据采集。

7、在第一方面的一种实现方式中,所述数据采集方法还包括:获取所述待抓取队列中的任意一条文章链接;发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求成功,则获取所述文章链接的内容并存储,若请求失败,则判断是否将所述文章链接补充到所述待抓取队列。

8、在第一方面的一种实现方式中,发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求成功,则获取所述文章链接的内容并存储包括:判断当前标识符是否大于所述最大成功标识符,若是,则更新所述最大成功标识符为当前标识符,解析所述文章链接的网页内容并存储,若否,直接解析所述文章链接的网页内容并存储。

9、在第一方面的一种实现方式中,发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求失败,则判断是否将所述文章链接补充到所述待抓取队列包括:根据所述过期时间判断所述文章链接是否已经过期,若是,则丢弃所述文章链接,若否,则判断所述当前标识符是否大于所述最大成功标识符;若所述当前标识符大于所述最大成功标识符,则将所述文章链接补入所述待抓取队列,若所述当前标识符小于等于所述最大成功标识符,则判断所述文章链接是否配置有过期时间;若所述文章链接没有配置过期时间,则为所述文章链接配置过期时间,重复进行数据采集后补入所述待抓取队列。

10、第二方面,本申请提供一种数据采集系统,所述数据采集系统包括:参数配置模块,用于获取配置参数,所述配置参数包括基础路径链接、最大成功标识符、生成标识符数量、最大标识符和过期时间;参数获取模块,用于根据所述配置参数获取新增标识符的数量;数据采集模块,用于判断所述新增标识符的数量是否大于零,若是,则获取新增标识符区间,并根据所述新增标识符区间和所述基础路径链接获取待抓取队列,若否,则休眠后重复根据所述配置参数获取所述新增标识符的数量,并判断所述新增标识符的数量是否大于零。

11、第三方面,本申请提供一种电子设备,所述电子设备包括:存储器,用于存储计算机程序;处理器,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如第一方面中任一项所述的数据采集方法。

12、第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述的数据采集方法。

本文档来自技高网...

【技术保护点】

1.一种数据采集方法,其特征在于,包括:

2.根据权利要求1所述的数据采集方法,其特征在于,根据所述配置参数获取新增标识符的数量包括:

3.根据权利要求1所述的数据采集方法,其特征在于,根据所述新增标识符区间和所述基础路径链接获取待抓取队列包括:

4.根据权利要求1所述的数据采集方法,其特征在于,还包括:

5.根据权利要求4所述的数据采集方法,其特征在于,发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求成功,则获取所述文章链接的内容并存储包括:

6.根据权利要求4所述的数据采集方法,其特征在于,发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求失败,则判断是否将所述文章链接补充到所述待抓取队列包括:

7.一种数据采集系统,其特征在于,包括:

8.一种电子设备,其特征在于,所述电子设备包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任一项所述的数据采集方法。

【技术特征摘要】

1.一种数据采集方法,其特征在于,包括:

2.根据权利要求1所述的数据采集方法,其特征在于,根据所述配置参数获取新增标识符的数量包括:

3.根据权利要求1所述的数据采集方法,其特征在于,根据所述新增标识符区间和所述基础路径链接获取待抓取队列包括:

4.根据权利要求1所述的数据采集方法,其特征在于,还包括:

5.根据权利要求4所述的数据采集方法,其特征在于,发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求成功,...

【专利技术属性】
技术研发人员:李付强王君
申请(专利权)人:上海蜜度科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1