一种基于深度学习的页面结构识别抽取方法技术

技术编号:25521920 阅读:22 留言:0更新日期:2020-09-04 17:12
本发明专利技术公开了一种基于深度学习的页面结构识别抽取方法,包含以下步骤:A、页面数据获取;B、进行特征工程;C、自然语言处理;D、对文本节点内容进行学习训练;E、对节点序列进行学习训练;F、进入Softmax层进行分类,本发明专利技术的有益效果是:1、提高了页面结构识别的准确度;2、无需编写规则,减轻相关人员工作压力;3、对于不规整的页面也可以进行识别;4、方便灵活,实时快捷;5、使用城本低。

【技术实现步骤摘要】
一种基于深度学习的页面结构识别抽取方法
本专利技术涉及计算机
,具体是一种基于深度学习的页面结构识别抽取方法。
技术介绍
随着计算机的普及以及使用人数和频率的的增加,海量的信息数据随着互联网时代的飞速发展不断注入到Web当中,因此从Web中准确低获取所需信息的重要性也日益凸出。我们传统的方法是利用手工别写规则进行信息抽取。但是手工编写规则的方式适用于结构较为规整、规律性强的文档,如编写正则表达式来进行文本匹配。这种方式的的优点是提取结果高效而准确,但同时弊端也非常明显,针对一种领域编写的规则通常难以应用到其他情况中去,我们无法免去为每个领域单独制定信息获取规则的步骤。对于页面不规整、没有规律的文档,提取结果十分不理想,使得抽取程序的利用率和使用范围非常低。另一方面,手工编写规则的方式还存在着依赖于有一定经验知识的语言专家的手工劳动的弊端,容易遭遇所谓的“知识瓶颈”问题。
技术实现思路
本专利技术的目的在于提供一种基于深度学习的页面结构识别抽取方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于深度学习的页面结构识别抽取方法,包含以下步骤:A、页面数据获取;B、进行特征工程;C、自然语言处理;D、对文本节点内容进行学习训练;E、对节点序列进行学习训练;F、进入Softmax层进行分类。作为本专利技术的进一步技术方案:所述步骤A具体是:采用网页解析和渲染技术,获取不同页面中的关键信息均已某种相近格式嵌于HTML标签中,然后对指定的关键目标信息进行标记。作为本专利技术的进一步技术方案:所述步骤B具体是:对获取的数数据进行清洗脏数据,对缺失值进行补全、降维等操作,并把数据整理成统一格式。作为本专利技术的进一步技术方案:所述步骤C使用神经网络来进行自然语言处理,通常是创建一个词库表,并采用词进行编码,其中每个词编成的号成为这个词的词向量,首先应为网页中的信息简历词库表,然后把词库表生成词向量,随着训练的进行,词向量模型中逐渐聚集语义功能相近的字,缩短近义词之间的向量空间距离,将其逐渐拟合。作为本专利技术的进一步技术方案:所述步骤D将网页中文本节点的每个字生成相应的词向量之后便可以建立针对文本节点的循环神经网络,循环神经网络进入了定向循环,使得它具有处理序列化数据的能力。作为本专利技术的进一步技术方案:所述步骤E具体是:为了掌握节点序列赋予节点的信息,在网页爬取过程中精确地获取目标信息,需要以上层循环神经网络输出的文本节点的n维向量组成的序列作为新的输入,再次构建针对节点序列的循环神经网络网络,不同于文本节点循环神经网络的只产生一个输出,节点序列循环神经网络的每个节点都产生输出,但每个节点的输出依赖于序列中当前节点之前的若干个节点的输出作为输入。作为本专利技术的进一步技术方案:所述步骤F具体是:步骤E中节点序列循环神经网络的输出经Softmax函数运算后可得到节点对所有目标信息的概率分布,模型中获取分类的数目为所有人工标记过的目标信息种类数目+1,即Sotfmax函数的运算结果能够判别处当前输入模型的文本节点是否为目标信息,若是,则输出目标信息的种类。与现有技术相比,本专利技术的有益效果是:1、提高了页面结构识别的准确度;2、无需编写规则,减轻相关人员工作压力;3、对于不规整的页面也可以进行识别;4、方便灵活,实时快捷;5、使用城本低。附图说明图1为基于深度学习的页面结构识别抽取方法的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,一种基于深度学习的页面结构识别抽取方法,包含以下步骤:A、页面数据获取;B、进行特征工程;C、自然语言处理;D、对文本节点内容进行学习训练;E、对节点序列进行学习训练;F、进入Softmax层进行分类。在上述第一步中,采用网页解析和渲染技术,获取不同页面中的关键信息均已某种相近格式嵌于HTML标签中,然后对指定的关键目标信息进行标记。第二步对获取的数数据进行清洗脏数据,对缺失值进行补全、降维等操作,并把数据整理成统一格式。第三步使用神经网络来进行自然语言处理,通常第一步都是创建一个词库表,并采用某种方式将词进行编码。其中每个词以某种方式编成的号成为这个词的词向量,词向量对于语义理解、获取词之间相连性有着重要的作用。首先应为网页中的信息简历词库表,然后采用相关技术把词库表生成词向量。随着训练的进行,词向量模型中逐渐聚集语义功能相近的字,缩短近义词之间的向量空间距离,将其逐渐拟合。第四步将网页中文本节点的每个字生成相应的词向量之后便可以建立针对文本节点的循环神经网络.不同于传统的前馈神经网络,循环神经网络进入了定向循环,使得它具有处理序列化数据的能力,在网页文本节点中,每个字所代表词向量的前后关系对于理解文本内容有着重要的作用。第五步为了掌握节点序列赋予节点的信息,在网页爬取过程中精确地获取目标信息,需要以上层循环神经网络输出的文本节点的n维向量组成的序列作为新的输入,再次构建针对节点序列的循环神经网络网络,不同于文本节点循环神经网络的只产生一个输出,节点序列循环神经网络的每个节点都产生输出,但每个节点的输出依赖于序列中当前节点之前的若干个节点的输出作为输入。第六步Softmax方法常用于神经网络中的最后一层对输出结果进行多类别的分类。鉴于网页中的目标信息类别数目不固定,所以使用Softmax函数来进行多目标分类事最理想的方式。第五步中节点序列循环神经网络的输出经Softmax函数运算后可得到节点对所有目标信息的概率分布,模型中获取分类的数目为所有人工标记过的目标信息种类数目+1,即Sotfmax函数的运算结果能够判别处当前输入模型的文本节点是否为目标信息(非目标信息作为一类)若是,则输出目标信息的种类。对于本领域技术人员而言,显然本专利技术不限于上述示范性实施例的细节,而且在不背离本专利技术的精神或基本特征的情况下,能够以其他的具体形式实现本专利技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本专利技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本专利技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。本文档来自技高网...

【技术保护点】
1.一种基于深度学习的页面结构识别抽取方法,其特征在于,包含以下步骤:/nA、页面数据获取;/nB、进行特征工程;/nC、自然语言处理;/nD、对文本节点内容进行学习训练;/nE、对节点序列进行学习训练;/nF、进入Softmax层进行分类。/n

【技术特征摘要】
1.一种基于深度学习的页面结构识别抽取方法,其特征在于,包含以下步骤:
A、页面数据获取;
B、进行特征工程;
C、自然语言处理;
D、对文本节点内容进行学习训练;
E、对节点序列进行学习训练;
F、进入Softmax层进行分类。


2.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法,其特征在于,所述步骤A具体是:采用网页解析和渲染技术,获取不同页面中的关键信息均已某种相近格式嵌于HTML标签中,然后对指定的关键目标信息进行标记。


3.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法,其特征在于,所述步骤B具体是:对获取的数数据进行清洗脏数据,对缺失值进行补全、降维等操作,并把数据整理成统一格式。


4.根据权利要求1所述的一种基于深度学习的页面结构识别抽取方法,其特征在于,所述步骤C使用神经网络来进行自然语言处理,通常是创建一个词库表,并采用词进行编码,其中每个词编成的号成为这个词的词向量,首先应为网页中的信息简历词库表,然后把词库表生成词向量,随着训练的进行,词向量模型中逐渐聚集语义功能相近的字,缩短近义词之间的向量空间距离,将其逐渐拟合。

【专利技术属性】
技术研发人员:董昊辰方仁贵高晓辉郭路路何晓刚何召阳李克萌刘兵王欣宇郗朝旭谢鑫赵岱翀周欢朱伟光
申请(专利权)人:北京墨云科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1