本发明专利技术公开了一种基于URL地址改写的网页原版原貌展现方法,所述方法为通过URL地址改写,把抓取到的网页的URL地址以及网页中的真实URL地址,转换成一个带有网页存储数据库参数的URL地址;根据链接地址中的参数进行解析,并找到对应的数据库IP,端口、实例、表名等参数,从数据库中查询到对应的网页内容。本发明专利技术基于URL改写技术来实现网页的原版原貌展现,适用于档案馆、图书馆、文化馆等领域的网络资源归档,解决了网络资源归档后的网页展现问题。不存在任何插件,纯系统后台操作。对网页内容进行方便的定制,个性化的操作。
【技术实现步骤摘要】
本专利技术涉及一种基于URL地址改写的网页原版原貌展现方法。
技术介绍
随着web技术的日臻成熟,档案馆、图书馆、文化馆等相关机构越来越注意到网络信息具有增长快、生命周期短、信息琐碎等特点,如果不采取积极的措施进行归档,很多网络信息在形成之后会立即消失,大量原生文化资源便得不到有效的保护。随着网络资源归档的项目越来越多,如何将归档的资源进行原版原貌的展现成为ー个难题。采用聚合HTML文档、Web档案或单个文件网页是现在比较常见的方式。单个文件网页可将网站的所有元素,包括文本和图形,都保存到单个文件中。这种封装可将整个网站发布为单个内嵌MME,MIME是通过Internet连接传递多媒体资源的一列标准。MME类型通知程序对象所包含的内容,如图形、声音或视频等的聚合HTML文档(MHTML)文件,或将整个网站作为ー个电子邮件或附件发送。通过这种方式可以方便地将ー个网页上的内容进行展示,但是该文件所包含的内容(如图形、声音或视频)都是外网的链接地址,所以必须在连网的情况下才可以原版原貌展现,这就脱离了网络归档的本意。
技术实现思路
本专利技术需要解决的技术问题就在于克服现有技术的缺陷,提供一种基于URL地址改写的网页原版原貌展现方法,它基于URL改写技术来实现网页的原版原貌展现,适用于档案馆、图书馆、文化馆等领域的网络资源归档,解决了网络资源归档后的网页展现问题。不存在任何插件,纯系统后台操作。对网页内容进行方便的定制,个性化的操作。为解决上述问题,本专利技术采用如下技术方案本专利技术提供了一种基于URL地址改写的网页原版原貌展现方法,所述方法为通过URL地址改写,把抓取到的网页的URL地址以及网页中的真实URL地址,转换成ー个带有网页存储数据库參数的URL地址;根据链接地址中的參数进行解析,并找到对应的数据库IP,端ロ、实例、表名等參数,从数据库中查询到对应的网页内容。具体地,所述方法包括下列步骤I)、根据URL地址计算出该地址存放在数据库的IP、端ロ、实例、表名,并检查该表是否已经满,如果该表已经满则需要重新创建ー个表以存储这个URL地址以及URL地址所对应网页的内容;2)、采用标准的正则表达式类库,通过URL地址的匹配,对网页内容进行检索和替换,对其中的HTML标准标签进行链接的抽取;3)、抽取出来的URL地址改写成本地的ー个Web应用地址,在新链接地址后增加数据库的IP、端ロ、实例、表名等參数;这些參数均采用加密的形式;4)、将改写好的URL地址替换原页面中的URL地址;5)、将改写好的URL地址存储到对应的数据库中。本专利技术的有益效果为本专利技术基于URL改写技术,使服务器在断外网的情况下还能够访问改写后的网页,实现了网页原版原貌展现的要求。适用于档案馆、图书馆、文化馆等领域的网络资源归档,用于解决网络资源归档后的网页展现问题。因而有以下2个方面的优点I、不存在任何插件,纯系统后台操作。2、对网页内容进行方便的定制,个性化的操作。附图说明图I为基于URL地址改写的网页原版原貌展现方法的原理框图。具体实施例方式本专利技术提供了一种基于URL地址改写的网页原版原貌展现方法,URL地址改写就是把抓取到的网页的URL地址以及网页中的真实URL地址,转换成一个带有网页存储数据库參数的URL地址。比如网页存储的数据库的IP为192. 168. 1.30,端ロ为3306,数据库实例为myinstance,表名为tablenamel,在实际的系统中为了保证数据库的安全,其中数据库的IP、端ロ、数据库实例、表名进行一定的加密措施,则改写后的地址为http://192.168. I. 55 :8080/seed_displayl.jsp url =http://192. 168. I. 55 8080/wap ip = 3c0d73f6c7a04daca4f8d4589d7949eeiiiport =f90dfb8b66454d80b2507bl5al6976f3iiiinstance = bf1391cb7fIe48289el5e7a93be28f56iiitable = 9fd764cl9ae742d39e01440f4e8d24d2o系统会根据链接地址中的參数进行解析,并找到对应的数据库IP,端ロ,实例,表名等參数,从数据库中查询到对应的网页内容。网页中的所有URL地址都必须通过改写,否则在用户在点击没有被改写的URL链接时,浏览器会自动转向原始的网页中区,就不能达到在断网情况下对网页的内容进行原版原貌展现。如图I所示,具体步骤为I)、根据URL地址计算出该地址存放在数据库的IP、端ロ、实例、表名,并检查该表是否已经满,如果该表已经满则需要重新创建ー个表以存储这个URL地址以及URL地址所对应网页的内容;2)、采用标准的正则表达式类库,通过URL地址的匹配,对网页内容进行检索和替换,对其中的HTML标准标签进行链接的抽取; 3)、抽取出来的URL地址改写成本地的ー个Web应用地址,在新链接地址后增加数据库的IP、端ロ、实例、表名等參数;这些參数均采用加密的形式;4)、将改写好的URL地址替换原页面中的URL地址;5)、将改写好的URL地址存储到对应的数据库中。本专利技术基于URL改写技术,使服务器在断外网的情况下还能够访问改写后的网页,实现了网页原版原貌展现的要求。适用于档案馆、图书馆、文化馆等领域的网络资源归档,用于解决网络资源归档后的网页展现问题。最后应说明的是显然,上述实施例仅仅是为清楚地说明本专利技术所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化 或变动仍处于本专利技术的保护范围之中。本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于URL地址改写的网页原版原貌展现方法,其特征在于,所述方法为通过URL地址改写,把抓取到的网页的URL地址以及网页中的真实URL地址,转换成一个带有网页存储数据库参数的URL地址;根据链接地址中的参数进行解析,并找到对应的数据库IP,端口、实例、表名等参数,从数据库中查询到对应的网页内容。2.如权利要求I所述的基于URL地址改写的网页原版原貌展现方法,其特征在于,所述方法包括下列步骤 1)、根据URL地址计算出该地址存放在数据库的IP、端口、实例、表名,并检查...
【专利技术属性】
技术研发人员:尹科,
申请(专利权)人:北京英富森信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。