System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种通用网站镜像与本地存储管理方法及系统技术方案_技高网

一种通用网站镜像与本地存储管理方法及系统技术方案

技术编号:43952503 阅读:8 留言:0更新日期:2025-01-07 21:39
本发明专利技术涉及一种通用网站镜像与本地存储管理方法与系统,该方法包括:基于目标网站的层级数量配置镜像网站的层级结构,根据层级结构的层级顺序遍历目标网站的原始网络资源;利用Web自动化工具模拟用户操作,利用初始抓取策略从原始网络资源中捕获目标网络资源创建对应的镜像网站;获取镜像网站中所有目标网络资源的资源文件,并生成唯一对应的文件标识;对镜像网站中目标网络资源的资源文件进行分类;基于资源文件的分类结果与所述文件标识,生成所述资源文件的存储路径;基于文件标识与所述资源文件的存储路径建立路径映射表,通过上述方法可以更加高效完整的将网站资源复制到本地服务器,实现资源文件的高效分类存储与快速的本地检索。

【技术实现步骤摘要】

本专利技术涉及网站数据处理,特别涉及一种通用网站镜像与本地存储管理方法及系统


技术介绍

1、随着互联网的迅猛发展,网站成为获取信息、服务和娱乐的重要平台。然而,网站访问通常依赖于稳定的网络连接。在一些情境下,如无网络或局限的内部网络环境,实现与原网站无差别显示的需求变得愈发重要。在这些限制条件下,传统的网站访问方式可能受到阻碍。此外,对于一些需要在内网环境中使用的企业和机构,如何在不依赖外部网络的情况下访问和使用网站资源,成为一个亟待解决的问题。

2、目前,虽然存在一些网站镜像和离线浏览的解决方案,但它们通常面临着内容更新不及时、功能不全、与原网站体验差异大等问题。这些局限性在一定程度上阻碍了用户在无网络或网络受限环境下的网站访问体验。


技术实现思路

1、本申请的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本申请的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、作为本申请的第一个方面,为了解决网络受限的情况下对网站离线浏览内容更新不及时、数据不全、功能不足等技术问题,本申请提供了一种通用网站镜像与本地存储管理方法,所述方法包括:

3、基于目标网站的层级数量配置镜像网站的层级结构,根据所述层级结构的层级顺序遍历所述目标网站的原始网络资源;

4、利用web自动化工具模拟用户操作,利用初始抓取策略从所述原始网络资源中捕获目标网络资源创建对应的镜像网站;

5、获取所述镜像网站中所述目标网络资源的资源文件,并生成唯一对应的文件标识;

6、对所述镜像网站中目标网络资源的资源文件进行分类;

7、基于所述资源文件的分类结果与所述文件标识,生成所述镜像网站的存储路径;

8、基于所述文件标识与所述镜像网站的存储路径建立路径映射表。

9、作为本申请的第二个方面,为了解决在创建镜像网站过程中对网站资源内容的重复存储或错漏内容的技术问题,提供了如下技术方案:

10、获取所述镜像网站中所有目标网络资源的资源文件的文件标识;

11、基于所述文件标识查询路径映射表中是否存在所述文件标识;

12、在所述文件标识存在的情况下,忽略所述资源文件;

13、在所述文件标识不存在的情况下,生成所述目标网络资源对应的镜像网站的存储路径。

14、作为本申请的第三个方面,为了解决网络连接情况不稳定,当网络出现异常情况无法准确获取网站信息,或无法及时更新网站内容的技术问题,提供了如下技术方案:

15、所述利用初始抓取策略从所述原始网络资源中捕获目标网络资源创建对应的镜像网站时,需基于网络流量正常的情况,当网络流量异常时,实时调整初始抓取策略;

16、所述当网络流量异常时,实时调整初始抓取策略的具体步骤,包括:

17、在捕获所述目标网站的目标网络资源创建对应的镜像网站的过程中,通过第一网络流量拦截工具监视所述目标网站的网络响应情况;

18、在所述目标网站的网络情况异常的情况下,调整目标网络资源的初始抓取策略。

19、作为本申请的第四个方面还提供了一种通用网站镜像与本地存储管理系统,所述系统具体包括以下模块:

20、网站配置模块,用于基于目标网站的层级数量配置镜像网站的层级结构,根据所述层级结构的层级顺序遍历所述目标网站的原始网络资源;

21、镜像网站创建模块,用于利用web自动化工具模拟用户操作,利用初始抓取策略从所述原始网络资源中捕获目标网络资源创建对应的镜像网站;

22、文件标识生成模块,用于获取所述镜像网站中所有目标网络资源的资源文件,并生成唯一对应的文件标识;

23、分类存储模块,用于对所述镜像网站中目标网络资源的资源文件进行分类;

24、路径存储模块,用于基于所述资源文件的分类结果与所述文件标识,生成所述镜像网站的存储路径;

25、映射表创建模块,用于基于所述文件标识与所述镜像网站的存储路径建立路径映射表。

26、作为本申请的第五个方面还提供了一种网络资源本地访问方法,所述方法具体包括;

27、获取用户的网站访问请求;

28、在所述网站访问请求被第二网络流量拦截工具拦截的情况下,解析所述网站访问请求,获取网站的资源路径;

29、基于所述资源路径获取对应的验证文件标识;

30、根据所述第二文件标识查询路径映射表,其中,所述路径映射表是根据前文所述的通用网站镜像与本地存储管理方法获得的;

31、根据所述路径映射表的查询结果返回所述网站访问请求的响应。

32、所述根据所述路径映射表的查询结果返回所述网站访问请求的响应的具体步骤,包括:

33、根据所述验证文件标识查询所述路径映射表查询中是否存在标识相同的文件标识;

34、在不存在相同文件标识的情况下,返回网络资源不存在的错误响应;

35、在存在相同文件标识的情况下,获取所述文件标识对应资源文件的存储路径;读取所述存储路径下所有目标网络资源的资源文件,并返回镜像网站的响应。

36、与现有技术相比,本专利技术方法及系统具有以下有益效果:

37、1、可以快速、准确、完整地复制任一网站内容到本地服务器,提高了创建镜像网站过程的效率,保证本地镜像网站在功能和操作上与原网站的高度一致性,解决了传统离线浏览功能受限的问题;

38、2、本专利技术提供了一种基于哈希映射和类型化文件存储算法,用于对从镜像网站抓取到的数据进行本地管理和分类,实现高效分类存储与快速本地检索,实现了一种即使在无网络或网络受限的环境下也能保持与原网站一致的显示和交互体验的技术,强化了用户的访问体验与访问限制。

本文档来自技高网...

【技术保护点】

1.一种通用网站镜像与本地存储管理方法,其特征在于,包括:

2.根据权利要求1所述的通用网站镜像与本地存储管理方法,其特征在于,所述原始网络资源指目标网站中所有原始的资源文件的集合;所述目标网络资源指待从原始网络资源中捕获的资源文件的集合;所述目标网络资源中包括至少一种资源文件。

3.根据权利要求1所述的通用网站镜像与本地存储管理方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的通用网站镜像与本地存储管理方法,其特征在于,所述利用初始抓取策略从所述原始网络资源中捕获目标网络资源创建对应的镜像网站时,需基于网络流量正常的情况,当网络流量异常时,实时调整初始抓取策略;

5.根据权利要求1所述的通用网站镜像与本地存储管理方法,其特征在于,所述文件标识为目标网络资源的资源文件对应生成的哈希值。

6.一种通用网站镜像与本地存储管理系统,用于实现权利要求1-5任一项所述的方法,其特征在于,包括:

7.一种网络资源本地访问方法,其特征在于,包括;

8.根据权利要求7所述的网络资源本地访问方法,其特征在于,所述根据所述路径映射表的查询结果返回所述网站访问请求的响应的具体步骤,包括:

9.一种包括计算机可读指令的计算机可读存储介质,其特征在于,所述计算机可读指令在被执行时使处理器执行权利要求1-5任一项所述方法中的操作。

10.一种电子设备,其特征在于,所述的设备包括:

...

【技术特征摘要】

1.一种通用网站镜像与本地存储管理方法,其特征在于,包括:

2.根据权利要求1所述的通用网站镜像与本地存储管理方法,其特征在于,所述原始网络资源指目标网站中所有原始的资源文件的集合;所述目标网络资源指待从原始网络资源中捕获的资源文件的集合;所述目标网络资源中包括至少一种资源文件。

3.根据权利要求1所述的通用网站镜像与本地存储管理方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的通用网站镜像与本地存储管理方法,其特征在于,所述利用初始抓取策略从所述原始网络资源中捕获目标网络资源创建对应的镜像网站时,需基于网络流量正常的情况,当网络流量异常时,实时调整初始抓取策略;

5.根据权利要...

【专利技术属性】
技术研发人员:李赟辉王恒李威宋巍
申请(专利权)人:北京道达天际科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1