用于从Web文档的结构化数据提取的可转移神经架构制造技术

技术编号:34830688 阅读:12 留言:0更新日期:2022-09-08 07:23
提供了用于从web文档中有效地识别和提取机器可动作的结构化数据的系统和方法。该技术采用神经网络架构,其处理一组种子网站的原始HTML内容以创建关于感兴趣信息的可转移模型。然后能够将这些模型应用于其他网站的原始HTML以识别感兴趣的类似信息。因此,能够以允许处理系统进一步使用的功能、结构化形式跨多个网站提取数据。个网站提取数据。个网站提取数据。

【技术实现步骤摘要】
【国外来华专利技术】用于从Web文档的结构化数据提取的可转移神经架构

技术介绍

[0001]自从互联网出现以来,存在对于收集、组织和呈现来自多个网站的信息使得用户能够可以有效且高效地找到他们正在寻找的内容的系统和方法的需要。这能够在搜索引擎和算法的持续发展中看到,搜索引擎和算法允许用户识别和访问包含感兴趣信息的网站。此外,随着基于人工智能的推荐系统和自动化数字助理的引入,在没有个人访问源网站的情况下获得信息已经变得可能。随着互联网上可用的信息量持续增长,计算系统有效地解析和编目相关信息变得越来越困难。

技术实现思路

[0002]本技术涉及用于从web文档有效地提取机器可动作的结构化数据的系统和方法。使用各种神经网络架构,该技术能够利用较小集合的种子网站的原始超文本标记语言(“HTML”)内容来创建关于感兴趣信息的可转移模型。然后这些模型能够被应用于其他网站的原始HTML,以在没有进一步的人类输入的情况下识别类似的感兴趣信息,并将其提取为结构化数据以供系统和/或其他系统进一步使用。因此,与依赖于视觉渲染的系统和方法相比,该技术的计算成本更低,并且能够提供针对感兴趣信息定制的改进结果。另外,与需要为每个领域构建特定提取程序的其他基于文本的方法不同,本技术通过生成能够跨多个领域使用的模型来提供增强的技术益处,以使得能够以能够由另外的系统使用的功能形式提取机器可动作的结构化数据。
[0003]在一个方面,本公开描述了一种提取机器可动作数据的计算机实现的方法。所述方法包括:由处理系统的一个或多个处理器为第一网站的第一页面生成文档对象模型树,其中,文档对象模型树包括多个节点,并且多个节点中的每个节点包括XML路径(“XPath”)和内容;由一个或多个处理器识别多个节点中的第一节点,其中,第一节点的内容包括字词的第一序列,并且第一序列中的每个字词包括一个或多个字符;由一个或多个处理器识别多个节点中的第二节点,其中,第二节点的内容包括字词的第二序列,第二序列中的每个字词包括一个或多个字符,并且第二序列在第一页面上在第一序列之前;由一个或多个处理器生成与第一序列和第二序列的每个字词相对应的字词级向量;由一个或多个处理器生成与第一序列和第二序列的每个词相对应的字符级字词向量;由一个或多个处理器基于与第一序列相对应的字词级向量和字符级字词向量来生成序列级向量;由一个或多个处理器基于与第二序列相对应的字词级向量和字符级字词向量来生成序列级向量;由一个或多个处理器生成与第一节点的内容中的一个或多个预定义特征相对应的离散特征向量;由一个或多个处理器将与第一序列对应的序列级向量、与第二序列对应的序列级向量和离散特征向量级联,以获得第一节点的综合向量;由一个或多个处理器基于第一节点的综合向量生成第一节点的节点标记;以及由一个或多个处理器从第一节点提取结构化数据,其中,所述结构化数据将第一节点的内容与第一节点的节点标记相关联。在一些方面中,生成与第一序列和第二序列中的每个词相对应的字符级字词向量包括:对于第一序列中的每个字词,使用卷积神经网络对与一个或多个字符中的每一个相对应的字符向量进行编码,并且对于第
二序列中的每个字词,使用卷积神经网络对与一个或多个字符中的每一个相对应的字符向量进行编码。在一些方面,基于与第一序列相对应的字词级向量和字符级字词向量来生成序列级向量包括使用双向长短期记忆神经网络对第一序列的每个字词的字符级字词向量和字词级向量进行编码。在一些方面,基于与第二序列相对应的字词级向量和字符级字词向量来生成序列级向量包括使用双向长短期记忆神经网络对第二序列的每个字词的字符级字词向量和字词级向量进行编码。在一些方面,基于第一节点的综合向量生成第一节点的节点标记包括使用多层感知神经网络对第一节点的综合向量进行编码以获得第一节点的分类。在一些方面,第一节点的节点标记对应于多个感兴趣字段中的一个。该方法还可以包括:由一个或多个处理器为第一网站的第二页面生成第二文档对象模型树,其中,第二文档对象模型树包括第二多个节点,并且第二多个节点中的每个节点包括XPath和内容;以及由一个或多个处理器从第二多个节点提取结构化数据的第二集合,其中,结构化数据的第二集合将第二多个节点中的每个节点的内容与第二多个节点中的每个节点的节点标记相关联。此外,该方法还可以包括:由一个或多个处理器为第二网站的页面生成第三文档对象模型树,其中,第三文档对象模型树包括第三多个节点,并且第三多个节点中的每个节点包括XPath和内容;以及由一个或多个处理器从第三多个节点提取结构化数据的第三集合,其中,结构化数据的第三集合将第三多个节点中的每个节点的内容与第三多个节点中的每个节点的节点标记相关联。
[0004]在另一方面,本公开描述了一种提取数据的计算机实现的方法,包括:由处理系统的一个或多个处理器为第一网站的第一页面生成文档对象模型树,其中,文档对象模型树包括第一多个节点,并且第一多个节点中的每个节点包括XML路径(“XPath”)和内容;由一个或多个处理器为第一多个节点中的每个节点生成关于所述节点是否与多个感兴趣字段中的一个相关的预测;由一个或多个处理器从第一多个节点生成多个节点对,其中,多个节点对中的每个节点对包括头节点和尾节点;由一个或多个处理器生成与每个头节点和每个尾节点相对应的综合向量;由一个或多个处理器生成与每个头节点和每个尾节点相对应的XPath向量;由一个或多个处理器至少部分地基于每个头节点和每个尾节点相对于第一多个节点中的至少一个其他节点的位置来生成与每个头节点和每个尾节点相对应的位置向量;对于每个节点对,由一个或多个处理器将与节点对的头节点和尾节点相对应的综合向量、位置向量和XPath向量级联,以获得对级向量;由一个或多个处理器基于节点对的对级向量为每个节点对生成对标记;由一个或多个处理器基于节点对的对标记或头节点的预测,为每个节点对的头节点生成节点标记;由一个或多个处理器基于节点对的对标记或尾节点的预测,为每个节点对的尾节点生成节点标记;以及由一个或多个处理器从第一多个节点中的一个或多个节点提取结构化数据,其中,所述结构化数据将所述一个或多个节点中的每一个的内容与所述一个或多个节点中的每一个的节点标记相关联。在一些方面,生成与每个头节点和每个尾节点相对应的XPath向量包括使用长短期记忆神经网络对每个头节点和每个尾节点的XPath进行编码。在一些方面,生成与每个头节点和每个尾节点相对应的综合向量包括:对于每个头节点,级联与头节点中的字词序列相对应的序列级向量、与头节点之前的节点中的字词序列相对应的序列级向量、以及与头节点的内容中的一个或多个预定义特征相对应的离散特征向量;以及对于每个尾节点,级联与尾节点中的字词序列相对应的序列级向量、与尾节点之前的节点中的字词序列相对应的序列级向量、以及与尾节
点的内容中的一个或多个预定义特征相对应的离散特征向量。在一些方面,基于对级向量为每个节点对生成对标记包括:使用多层感知神经网络对每个节点对的对级向量进行编码,以获得每个节点对的分类。在一些方面,节点标记与多个感兴趣字段中的一个或空标识符对应。所述方法还可以包括:由一个或多个处理器为第一网站的第二页面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种提取机器可动作数据的计算机实现的方法,包括:由处理系统的一个或多个处理器为第一网站的第一页面生成文档对象模型树,其中,文档对象模型树包括多个节点,并且多个节点中的每个节点包括XML路径(“XPath”)和内容;由一个或多个处理器识别多个节点中的第一节点,其中,第一节点的内容包括字词的第一序列,并且第一序列中的每个字词包括一个或多个字符;由一个或多个处理器识别多个节点中的第二节点,其中,第二节点的内容包括字词的第二序列,第二序列中的每个字词包括一个或多个字符,并且第二序列在第一页面上在第一序列之前;由一个或多个处理器生成与第一序列和第二序列的每个字词相对应的字词级向量;由一个或多个处理器生成与第一序列和第二序列的每个字词相对应的字符级字词向量;由一个或多个处理器基于与第一序列相对应的字词级向量和字符级字词向量来生成序列级向量;由一个或多个处理器基于与第二序列相对应的字词级向量和字符级字词向量来生成序列级向量;由一个或多个处理器生成与第一节点的内容中的一个或多个预定义特征相对应的离散特征向量;由一个或多个处理器将与第一序列对应的序列级向量、与第二序列对应的序列级向量和离散特征向量级联,以获得第一节点的综合向量;由一个或多个处理器基于第一节点的综合向量生成第一节点的节点标记;以及由一个或多个处理器从第一节点提取结构化数据,其中,结构化数据将第一节点的内容与第一节点的节点标记相关联。2.根据权利要求1所述的方法,其中,生成与第一序列和第二序列的每个字词相对应的字符级字词向量包括:对于第一序列中的每个字词,使用卷积神经网络对与一个或多个字符中的每一个相对应的字符向量进行编码;以及对于第二序列中的每个字词,使用卷积神经网络对与一个或多个字符中的每一个相对应的字符向量进行编码。3.根据权利要求1或2所述的方法,其中,基于与第一序列相对应的字词级向量和字符级字词向量来生成序列级向量包括:使用双向长短期记忆神经网络对第一序列的每个字词的字符级字词向量和字词级向量进行编码。4.根据前述权利要求中的任一项所述的方法,其中,基于与第二序列相对应的字词级向量和字符级字词向量来生成序列级向量包括:使用双向长短期记忆神经网络对第二序列的每个字词的字符级字词向量和字词级向量进行编码。5.根据前述权利要求中任一项所述的方法,其中,基于第一节点的综合向量生成第一节点的节点标记包括:
使用多层感知神经网络对第一节点的综合向量进行编码,以获得第一节点的分类。6.根据前述权利要求中任一项所述的方法,其中,第一节点的节点标记对应于多个感兴趣字段中的一个。7.根据前述权利要求中任一项所述的方法,还包括:由一个或多个处理器为第一网站的第二页面生成第二文档对象模型树,其中,第二文档对象模型树包括第二多个节点,并且第二多个节点中的每个节点包括XPath和内容;以及由一个或多个处理器从第二多个节点提取结构化数据的第二集合,其中,结构化数据的第二集合将第二多个节点中的每个节点的内容与第二多个节点中的每个节点的节点标记相关联。8.根据权利要求7所述的方法,还包括:由一个或多个处理器为第二网站的页面生成第三文档对象模型树,其中,第三文档对象模型树包括第三多个节点,并且第三多个节点中的每个节点包括XPath和内容;以及由一个或多个处理器从第三多个节点提取结构化数据的第三集合,其中,结构化数据的第三集合将第三多个节点中的每个节点的内容与第三多个节点中的每个节点的节点标记相关联。9.一种提取数据的计算机实现的方法,包括:由处理系统的一个或多个处理器为第一网站的第一页面生成文档对象模型树,其中,文档对象模型树包括第一多个节点,并且第一多个节点中的每个节点包括XML路径(“XPath”)和内容;由一个或多个处理器为第一多个节点中的每个节点生成关于所述节点是否与多个感兴趣字段中的一个相关的预测;由一个或多个处理器从第一多个节点生成多个节点对,其中,多个节点对中的每个节点对包括头节点和尾节点;由一个或多个处理器生成与每个头节点和每个尾节点相对应的综合向量;由一个或多个处理器生成与每个头节点和每个尾节点相对应的XPath向量;由一个或多个处理器至少部分地基于每个头节点和每个尾节点相对于第一多个节点中的至少一个其他节点的位置来生成与每个头节点和每个尾节点相对应的位置向量;对于每个节点对,由一个或多个处理器将与节点对的头节点和尾节点相对应的综合向量、位置向量和XPath向量级联,以获得对级向量;由一个或多个处理器基于节点对的对级向量为每个节点对生成对标记;由一个或多个处理器基于节点对的对标记或头节点的预测,为每个节点对的头节点生成节点标记;由一个或多个处理器基于节点对的对标记或尾节点的预测,为每个节点对的尾节点生成节点标记;以及由一个或多个处理器从第一多个节点中的一个或多个节点提取结构化数据,结构化数据将所述一个或多个节点中的每一个的内容与一个或多个节点中的每一个的节点标记相关联。10.根据权利要求9所述的方法,其中,生成与每个头节点和每个尾节点相对应的XPath向量包括:
使用长短期记忆神经网络对每个头节点和每个尾节点的XPath进行编码。11.根据权利要求9或权利要求10所述的方法,其中,生成与每个头节点和每个尾节...

【专利技术属性】
技术研发人员:Y盛Y林S塔塔N武
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1