【技术实现步骤摘要】
一种基于DOM树路径匹配的文章解析方法
本专利技术涉及文章解析
,更具体地说,涉及一种基于DOM树路径匹配的文章解析方法。
技术介绍
不同网站文章的结构和格式存在一定差异,不便于统计人员进行数据统计,现无法将不同网站上检索到的文章生成统一格式,各式各样的文章格式大大增加了统计人员工作难度,降低了工作效率。
技术实现思路
本专利技术的目的在于提供一种基于DOM树路径匹配的文章解析方法,针对不同网站配置特定解析模板,将不同网站上的文章通过特定解析模板解析成统一格式方便统计者进行信息统计,用以解决上述
技术介绍
中存在的技术问题。本专利技术技术方案一种基于DOM树路径匹配的文章解析方法,系统模板库中存储有面向不同网站的特定解析模板;通过网站W的网页URL加载页面上的文章,将该文章按照层级标签解析成DOM树,得到文章中的各个节点及其路径;将网站W的特定解析模板中不同节点的路径与DOM树各条路径进行匹配,获取匹配成功的DOM树路径对应的节点内容;将特定解析模板中节点内容的正则表达式与与其匹配成功的DOM树路径对应的节点内容进行匹配,将匹配成功的节点内容存放到解析结果中;将解析结果按统一格式封装储存。在一个优选地实施例中,当对系统模板库无对应特定解析模板的网站进行文章解析时,首先利用基础解析模板解析文章,当该文章BOM树中存在与基础解析模板匹配不上的路径时,确定解析结果中缺失部分节点;将缺失的节点及其路径补充至基础解析模板内,形成该网站的特定解析模板。 ...
【技术保护点】
1.一种基于DOM树路径匹配的文章解析方法,其特征在于,系统模板库中存储有面向不同网站的特定解析模板;/n通过网站W的网页URL加载页面上的文章,将该文章按照层级标签解析成DOM树,得到文章中的各个节点及其路径;/n将网站W的特定解析模板中不同节点的路径与DOM树各条路径进行匹配,获取匹配成功的DOM树路径对应的节点内容;/n将特定解析模板中节点内容的正则表达式与与其匹配成功的DOM树路径对应的节点内容进行匹配,将匹配成功的节点内容存放到解析结果中;/n将解析结果按统一格式封装储存。/n
【技术特征摘要】
1.一种基于DOM树路径匹配的文章解析方法,其特征在于,系统模板库中存储有面向不同网站的特定解析模板;
通过网站W的网页URL加载页面上的文章,将该文章按照层级标签解析成DOM树,得到文章中的各个节点及其路径;
将网站W的特定解析模板中不同节点的路径与DOM树各条路径进行匹配,获取匹配成功的DOM树路径对应的节点内容;
将特定解析模板中节点内容的正则表达式与与其匹配成功的DOM树路径对应的节点内容进行匹配,将匹配成功的节点内容存放到解析结果中;
将解析结果按统一格式封装储存。
2.根据权利要求1所述的一种基于DOM树路径匹配的文章解析方法,其特征在于,当对系统模板库无对应特...
【专利技术属性】
技术研发人员:庞文俊,陈继,张长志,黄星,廖开枫,李小超,伊晓强,
申请(专利权)人:清创网御合肥科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。