本发明专利技术公开了一种上下文web页面合并方法。对于具有上下文关系的多个web页面中的某个web网页,首先对web页面的内容进行分析,提取其中的上下文链接信息并进行相应的下载,根据下载的内容扩展上下文,并将扩展的上下文内容进行消重,按顺序重新合并成新的单一web页面。本发明专利技术创造性地引入了web页面的语义分析技术,从而使web页面中的上下文关系更加清晰明确,页面合并的效率和质量大大提高。
【技术实现步骤摘要】
本专利技术涉及一种对具有上下文关系的多个web页面的合并方法,属于web页面制作
技术介绍
随着互联网的高速发展,web网络已经成为世界上最大的信息来源。web网络的发展给人类生活带来了巨大的方便,人们可以跨越时间和空间界限来共享大量信息。但是,整个web网络是由无数的web页面构成的。web页面的海量性、多样性、动态性和半结构化等特性增加了对其内容进行自动处理的难度。当前,人们普遍使用手机、平板电脑等移动通信终端访问we b网络。当阅读具有上下文关系的web页面时,需要在阅读完每页内容后点击下一页链接才能看到下一页的内容。这种繁琐的操作不利于阅读,并且大大降低了获取信息的效率。为了适应移动互联网蓬勃发展的现实需求,满足用户高效便捷地阅读web页面的实际需要,使彼此之间具有关联关系的web页面实现有效合并的技术课题摆在有关技术人员面前。在此背景下,一些相应的技术解决方案也就应势而生。例如在专利号为ZL 200710160352. 3的中国专利技术专利中,公开了一种可将不同网页的单元信息截取、合并的方法,包括以下步骤1)客户端输入一个或多个网址,在客户端生成对应的各个显示网页内容的子页面;幻客户端将各个子页面的网页内容解析成信息单元后,用户从各个子页面选取要截取的信息单元;幻客户端再次获取各个网址的网页内容,解析成信息单元,并与用户选取的信息单元比较,筛选出用户选取的信息单元合并至新生成的客户端浏览窗口。该技术方案可以把任一网页的内容根据用户需要把一到多个内容合并到一个阅读窗口,大大提高了用户获取信息的效率。另外,在专利号为ZL 200810059(^6.8的中国专利技术专利中,进一步提出了一种网页区块剪取、合并的方法。该方法是先在客户端输入一个或多个网址,通过网页区块选择子系统给各个子页面的网页内容增加鼠标事件,用户通过鼠标拖拉从各个子页面选取要剪取的区块,然后由网页区块合并子系统将用户选中的区块都合并到用户的个人门户,完成页面的设置。该技术方案可以让用户在自己的个人门户就可以浏览所需的网络资源,方便地引进第三方服务,大大提高了用户的网络使用效率。但是,以上述专利技术专利为代表的现有技术普遍缺乏对web页面的语义分析环节, 不能完全满足对具有动态性和半结构化特性的web页面的处理要求。
技术实现思路
本专利技术所要解决的技术问题在于提供一种对具有上下文关系的多个web页面的合并方法。该合并方法通过对web页面进行深入分析,显著改善了上下文web页面的合并效果。为实现上述的专利技术目的,本专利技术采用下述的技术方案,其特征在于对于具有上下文关系的多个web页面中的某个web网页,首先对所述web页面的内容进行分析,提取其中的上下文链接信息并进行相应的下载,根据下载的内容扩展上下文,并将扩展的上下文内容进行消重,按顺序重新合并成新的单一 web页面。其中,在对所述web页面的内容进行分析之前,首先确认所述web页面中给定的网页地址已经下载完成,并且经完整展示后生成文档对象模型树。在对所述web页面的内容进行分析之前,进一步确认所述web页面中的IFame、 Frame已经下载完成,所需要的JavaScript、CSS已经下载完成,图片参数已经获得且Ajax 已经执行完成。在对所述web页面的内容进行分析之后,基于所述文档对象模型树将所述web页面拆分成在视觉上无法进一步拆分的块元素,进而生成视觉块。在生成视觉块之后,进行提取标题块和正文块的操作,以便识别出正文区域。所述上下文链接信息通过如下步骤获得(1)遍历各个web页面中所有视觉块在文档对象模型树中对应节点的href内容, 找到与所述web页面中相似的视觉块,根据视觉块的数量进行加权;(2)对于步骤⑴中找到的相似的视觉块,根据与正文区域的距离进行加权;(3)将href内容根据与输入的web页面进行相似度匹配,相似程度越高则权重越高,将权重最高的块确定为多页链接块。在消重步骤中,消重的要素为正文内容,将正文内容相同的web页面视为同一页面。在排序步骤中,排序的要素包括web页面中的数字特征和多页特征、web页面中链接文字的页码特征。在合并步骤中,进行加入页面分割标记的操作。本专利技术所提供的上下文web页面合并方法创造性地引入了 web页面的语义分析技术,从而使web页面中的上下文关系更加清晰明确,页面合并的效率和质量大大提高。附图说明下面结合附图和具体实施方式对本专利技术做进一步的详细说明。图1为本专利技术所提供的上下文web页面合并方法的实施流程图。具体实施例方式与现有技术相比较,本专利技术的一个显著特点在于在进行上下文web页面合并操作的过程中,对web页面的内容进行分析,然后提取其中的上下文链接信息并进行相应的下载,根据下载的内容自动扩展上下文,并将扩展的上下文内容进行消重,按顺序重新合并成新的单一 web页面。下面对此展开具体的说明。如图1所示,本专利技术处理的原始数据是一个具有上下文关系的多个web页面中的某个web网页。对于该web网页,首先要确保其已经下载完成,并且经完整展示后生成 DOM(文档对象模型)树。这其中具体包括如下内容> IFame、Frame等已经下载完成4IFame是指web页面中内嵌的框架,Frame是指web页面中的框架。由于待分析的部分内容在Frame里面,因此必须要等待IFame、Frame等下载完成。>所需要的JavaScript、CSS已经下载完成这是因为CSS (Cascading Style Sheets,层叠样式表)会严重影响web页面的可视化元素,JavaScript ( 一种广泛用于客户端web开发的脚本语言,常用来给web页面添加动态功能)会部分影响web页面的数据。>图片参数已经获得该要求的主要目的是分析图片的长宽等参数。> Ajax已经执行完成Ajax 全称为 Asynchronous JavaScript and XML (异步 JavaScript 禾口 XML),是一种创建交互式网页应用的网页开发工具。Ajax会影响web页面中部分内容的生成。在给定的web网页已经下载完成之后,接下来的工作是生成web页面的视觉块。块元素是指将web页面拆分成的块状结构。每一个块元素在视觉上无法进一步拆分。块元素的内部属性应该是相似的,例如都是文本、链接或者图片等。生成块元素的拆分原则为>根据DOM树中的标签名称来决定是否进行拆分例如Block类型通常进行拆分,Inline类型通常不进行拆分。如果Block类型的标签内部都是文本节点,不含有其他的Block类型,则无需拆分。>根据边框内容决定是否拆分例如内部只是列表和文字,没有其他更小的矩形框,不进行拆分;内部还存在更小的局限边框,或者是背景色反差比较大,有明确的分割条,进行进一步拆分。>根据背景色决定是否拆分例如背景色反差比较大,且面积较大,进行进一步拆分;反之不拆分。>根据标签内部是否有明确的分割条决定是否拆分例如如果一个标签内有明确的分割条,或者内部有一条细线,或者有一整条背景色比较深,或者有背景图片、图片看上去是一条线,则遇到这种标签需要继续进行拆分。>由于IFrame的特殊性,在分析的时候可能预先不知道其宽高,且不能像本文档来自技高网...
【技术保护点】
1.一种上下文web页面合并方法,其特征在于:对于具有上下文关系的多个web页面中的某个web网页,首先对所述web页面的内容进行分析,提取其中的上下文链接信息并进行相应的下载,根据下载的内容扩展上下文,并将扩展的上下文内容进行消重,按顺序重新合并成新的单一web页面。
【技术特征摘要】
【专利技术属性】
技术研发人员:王东胜,
申请(专利权)人:天津海量信息技术有限公司,
类型:发明
国别省市:12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。