一种基于深度学习的页面结构识别抽取方法技术

技术编号：25521920 阅读：22 留言：0更新日期：2020-09-04 17:12

本发明专利技术公开了一种基于深度学习的页面结构识别抽取方法，包含以下步骤：A、页面数据获取；B、进行特征工程；C、自然语言处理；D、对文本节点内容进行学习训练；E、对节点序列进行学习训练；F、进入Softmax层进行分类，本发明专利技术的有益效果是：1、提高了页面结构识别的准确度；2、无需编写规则，减轻相关人员工作压力；3、对于不规整的页面也可以进行识别；4、方便灵活，实时快捷；5、使用城本低。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的页面结构识别抽取方法
本专利技术涉及计算机
，具体是一种基于深度学习的页面结构识别抽取方法。
技术介绍
随着计算机的普及以及使用人数和频率的的增加，海量的信息数据随着互联网时代的飞速发展不断注入到Web当中，因此从Web中准确低获取所需信息的重要性也日益凸出。我们传统的方法是利用手工别写规则进行信息抽取。但是手工编写规则的方式适用于结构较为规整、规律性强的文档，如编写正则表达式来进行文本匹配。这种方式的的优点是提取结果高效而准确，但同时弊端也非常明显，针对一种领域编写的规则通常难以应用到其他情况中去，我们无法免去为每个领域单独制定信息获取规则的步骤。对于页面不规整、没有规律的文档，提取结果十分不理想，使得抽取程序的利用率和使用范围非常低。另一方面，手工编写规则的方式还存在着依赖于有一定经验知识的语言专家的手工劳动的弊端，容易遭遇所谓的“知识瓶颈”问题。
技术实现思路
本专利技术的目的在于提供一种基于深度学习的页面结构识别抽取方法，以解决上述
技术介绍
中提出的问题。为实现上述目的，本专利技术提供如下技术方案：一种基于深度学习的页面结构识别抽取方法，包含以下步骤：A、页面数据获取；B、进行特征工程；C、自然语言处理；D、对文本节点内容进行学习训练；E、对节点序列进行学习训练；F、进入Softmax层进行分类。作为本专利技术的进一步技术方案：所述步骤A具体是：采用网页解析和渲染技术，获取不同页面中的关键...

【技术保护点】
1.一种基于深度学习的页面结构识别抽取方法，其特征在于，包含以下步骤：/nA、页面数据获取；/nB、进行特征工程；/nC、自然语言处理；/nD、对文本节点内容进行学习训练；/nE、对节点序列进行学习训练；/nF、进入Softmax层进行分类。/n

【技术特征摘要】
1.一种基于深度学习的页面结构识别抽取方法，其特征在于，包含以下步骤：
A、页面数据获取；
B、进行特征工程；
C、自然语言处理；
D、对文本节点内容进行学习训练；
E、对节点序列进行学习训练；
F、进入Softmax层进行分类。

2.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法，其特征在于，所述步骤A具体是：采用网页解析和渲染技术，获取不同页面中的关键信息均已某种相近格式嵌于HTML标签中，然后对指定的关键目标信息进行标记。

3.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法，其特征在于，所述步骤B具体是：对获取的数数据进行清洗脏数据，对缺失值进行补全、降维等操作，并把数据整理成统一格式。

4.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法，其特征在于，所述步骤C使用神经网络来进行自然语言处理，通常是创建一个词库表，并采用词进行编码，其中每个词编成的号成为这个词的词向量，首先应为网页中的信息简历词库表，然后把词库表生成词向量，随着训练的进行，词向量模型中逐渐聚集语义功能相近的字，缩短近义词之间的向量空间距离，将其逐渐拟合。

【专利技术属性】
技术研发人员：董昊辰，方仁贵，高晓辉，郭路路，何晓刚，何召阳，李克萌，刘兵，王欣宇，郗朝旭，谢鑫，赵岱翀，周欢，朱伟光，
申请(专利权)人：北京墨云科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人