一种基于DOM树路径匹配的文章解析方法技术

技术编号:27656743 阅读:23 留言:0更新日期:2021-03-12 14:19
本发明专利技术公开了一种基于DOM树路径匹配的文章解析方法,系统模板库中存储有面向不同网站的特定解析模板;通过网站W的网页URL加载页面上的文章,将该文章按照层级标签解析成DOM树,得到文章中的各个节点及其路径;将网站W的特定解析模板中不同节点的路径与DOM树各条路径进行匹配,获取匹配成功的DOM树路径对应的节点内容;将特定解析模板中节点内容的正则表达式与与其匹配成功的DOM树路径对应的节点内容进行匹配,将匹配成功的节点内容存放到解析结果中;将解析结果按统一格式封装储存。针对不同网站配置特定解析模板,将不同网站上的文章通过特定解析模板解析成统一格式方便统计者进行信息统计。

【技术实现步骤摘要】
一种基于DOM树路径匹配的文章解析方法
本专利技术涉及文章解析
,更具体地说,涉及一种基于DOM树路径匹配的文章解析方法。
技术介绍
不同网站文章的结构和格式存在一定差异,不便于统计人员进行数据统计,现无法将不同网站上检索到的文章生成统一格式,各式各样的文章格式大大增加了统计人员工作难度,降低了工作效率。
技术实现思路
本专利技术的目的在于提供一种基于DOM树路径匹配的文章解析方法,针对不同网站配置特定解析模板,将不同网站上的文章通过特定解析模板解析成统一格式方便统计者进行信息统计,用以解决上述
技术介绍
中存在的技术问题。本专利技术技术方案一种基于DOM树路径匹配的文章解析方法,系统模板库中存储有面向不同网站的特定解析模板;通过网站W的网页URL加载页面上的文章,将该文章按照层级标签解析成DOM树,得到文章中的各个节点及其路径;将网站W的特定解析模板中不同节点的路径与DOM树各条路径进行匹配,获取匹配成功的DOM树路径对应的节点内容;将特定解析模板中节点内容的正则表达式与与其匹配成功的DOM树路径对应的节点内容进行匹配,将匹配成功的节点内容存放到解析结果中;将解析结果按统一格式封装储存。在一个优选地实施例中,当对系统模板库无对应特定解析模板的网站进行文章解析时,首先利用基础解析模板解析文章,当该文章BOM树中存在与基础解析模板匹配不上的路径时,确定解析结果中缺失部分节点;将缺失的节点及其路径补充至基础解析模板内,形成该网站的特定解析模板。在一个优选地实施例中,系统模板库是否存在某网站的特定解析模板的判断方法为:获取该网站待解析文章的URL,截取其二级域名;根据截取的二级域名判断该网站是否存在特定解析模板。在一个优选地实施例中,所述通用模板至少包括标题、作者、文章发布时间和内容。本专利技术根据不同的网站配置特定解析模板,通过特定解析模板对文章进行解析得到对应的文章标题、作者、文章发表时间、内容等;生成统一的文章格式进行存储,方便统计者进行信息统计;同时,能够通过自学习的方式及时更新系统模板库,提升系统的文章解析能力。附图说明图1为本专利技术文章解析过程流程图。具体实施方式下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本专利技术限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本专利技术的原理和实际应用,并且使本领域的普通技术人员能够理解本专利技术从而设计适于特定用途的带有各种修改的各种实施例。系统模板库中存储有面向不同网站的特定解析模板,基于DOM树路径匹配的文章解析方法为,获取待解析文章所在页面的URL,截取其二级域名;根据截取的二级域名判断系统模板库是否存在该网站的特定解析模板;若存在,则使用该特定解析模板对页面文章进行解析;若不存在,则先使用基础解析模板去匹配,再优化基础解析模板形成该网站的特定解析模板。基础解析模板至少包括标题、作者、文章发布时间、内容。特定解析模板解析页面文章的流程包括以下步骤:1、通过网站W的网页URL加载页面上的文章,将该文章按照层级标签解析成DOM树,得到文章中的各个节点及其路径;各个节点代表的是文章内容地分类,如标题、作者等。2、将网站W的特定解析模板中不同节点的路径与DOM树各条路径进行匹配,获取匹配成功的DOM树路径对应的节点内容;3、将特定解析模板中节点内容的正则表达式与与其匹配成功的DOM树路径对应的节点内容进行匹配,将匹配成功的节点内容存放到解析结果中;4、将解析结果按统一格式封装储存。基础解析模板解析页面文章并形成特定解析模板的流程包括以下步骤:1、通过网站W的网页URL加载页面上的文章,将该文章按照层级标签解析成DOM树,得到文章中的各个节点及其路径;各个节点代表的是文章内容地分类,如标题、作者等。2、将网站W的基础模板中不同节点的路径与DOM树各条路径进行匹配,针对文章DOM树中存在与基础解析模板匹配不上的路径,将缺失节点及其路径补充至基础解析模板形成该网站的特定解析模板。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。本专利技术中未具体描述和解释说明的结构、装置以及操作方法,如无特别说明和限定,均按照本领域的常规手段进行实施。本文档来自技高网...

【技术保护点】
1.一种基于DOM树路径匹配的文章解析方法,其特征在于,系统模板库中存储有面向不同网站的特定解析模板;/n通过网站W的网页URL加载页面上的文章,将该文章按照层级标签解析成DOM树,得到文章中的各个节点及其路径;/n将网站W的特定解析模板中不同节点的路径与DOM树各条路径进行匹配,获取匹配成功的DOM树路径对应的节点内容;/n将特定解析模板中节点内容的正则表达式与与其匹配成功的DOM树路径对应的节点内容进行匹配,将匹配成功的节点内容存放到解析结果中;/n将解析结果按统一格式封装储存。/n

【技术特征摘要】
1.一种基于DOM树路径匹配的文章解析方法,其特征在于,系统模板库中存储有面向不同网站的特定解析模板;
通过网站W的网页URL加载页面上的文章,将该文章按照层级标签解析成DOM树,得到文章中的各个节点及其路径;
将网站W的特定解析模板中不同节点的路径与DOM树各条路径进行匹配,获取匹配成功的DOM树路径对应的节点内容;
将特定解析模板中节点内容的正则表达式与与其匹配成功的DOM树路径对应的节点内容进行匹配,将匹配成功的节点内容存放到解析结果中;
将解析结果按统一格式封装储存。


2.根据权利要求1所述的一种基于DOM树路径匹配的文章解析方法,其特征在于,当对系统模板库无对应特...

【专利技术属性】
技术研发人员:庞文俊陈继张长志黄星廖开枫李小超伊晓强
申请(专利权)人:清创网御合肥科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1