用于多模式文档理解的布局感知多模式预训练制造技术

技术编号:37549361 阅读:34 留言:0更新日期:2023-05-12 16:27
用于文档处理的可以处理和理解文档的布局、文本大小、文本样式和多媒体的系统和方法可以生成更准确和更有根据的文档表示。配以文本大小和样式的文档的布局可以指示文档的什么部分可能更重要,并且对该重要性的理解可以帮助理解文档。利用处理文档的块级别和文档级别的分级框架的系统和方法可以利用这些指标来生成更好的文档表示。来生成更好的文档表示。来生成更好的文档表示。

【技术实现步骤摘要】
【国外来华专利技术】用于多模式文档理解的布局感知多模式预训练


[0001]本公开一般涉及文档处理。更具体地,本公开涉及多模式、布局感知的机器学习文档编码模型的训练和利用。

技术介绍

[0002]文档表示可以包括关于文档的编码信息(例如,语义信息)。文档表示可以用于各种下游任务,例如自然语言处理、问题回答、文档概要或信息检索(例如,文档检索)。在某些现有模型中,生成这些文档表示的文档处理聚焦于文本内容。某些单词或短语的分布和数量是一些现有模型的焦点。在这些现有模型中不考虑布局和图像。
[0003]文档布局可以包括可能至关重要但有时被机器学习模型忽略的结构和视觉(例如字体大小)信息。使用布局信息的现有模型通常只考虑文本内容,而忽略诸如图像等其他模式的内容的存在。此外,还未充分利用布局中所呈现内容的空间交互。
[0004]此外,语言模型通常仅限于考虑文本内容,并进一步假设所有文本同等重要。因此,不考虑文本在文档中的位置、文本的大小以及文本的其他特征。例如,对用较大字体加粗的副标头给予与段落正文中较小的文本相同的重要性。文本的位置和大小可以表明文本的重要性,并且不将这些特征考虑进去可能会导致未在上下文中考虑文档的文本。
[0005]此外,语言建模系统往往忽略文档中的图像的重要性。图像可以在处理文档时提供附加的细微差别,但往往被忽视。文本内容是文档中仅被考虑的部分可能导致仅考虑文档的一部分。图片可以强调主题或者描述文字无法简洁描述的东西。

技术实现思路

[0006]本公开的实施例的方面和有利之处将在以下描述中部分地阐述,或者可以从描述获知,或者可以通过实施例的实践获知。
[0007]本公开的一个示例方面涉及一种用于生成布局感知文档表示的计算机实现的方法。该方法可以包括:通过计算系统获得文档。在一些实现中,文档可以包括文本和一个或多个图像。布局数据可以与文档相关联。该方法可以包括:由计算系统至少部分地基于布局数据将文档划分成多个块。在一些实现中,该方法可以包括:由计算系统用机器学习块级别编码器模型处理多个块中的每个,以分别生成多个块的多个块级别表示。对于多个块中的每个,可以将与该块相关联的布局数据作为输入提供给机器学习块级别编码器模型。该方法可以包括:由计算系统用机器学习文档级别编码器模型处理多个块级别表示,以生成文档的文档级别表示。在一些实现中,该方法可以包括:由计算系统提供文档级别表示作为输出。
[0008]在一些实现中,布局数据可以包括描述文档中的多个块中的一个或多个的样式数据、字体数据或颜色数据中的至少一个。布局数据可以包括描述文档内的多个块的空间位置的空间布局数据。在一些实现中,划分文档可以包括:由计算系统至少部分地基于与文档相关联的一个或多个HTML标签来划分文档。该方法可以包括具有文本内容和图像内容两者
的多个块中的至少一个。在一些实现中,由计算系统用机器学习块级别编码器模型处理包括一个或多个图像的多个块中的每个可以包括:用卷积神经网络和嵌入模型处理包括在块中的一个或多个图像,以生成一个或多个图像的一个或多个图像嵌入。在一些实现中,机器学习块级别编码器模型和机器学习文档级别编码器模型中的一个或两个可以包括多头自注意力模型。由计算系统将文档划分成多个块可以包括:用标记器处理文档。该方法可以包括:由计算系统处理文档级别表示,以确定文档的分类。在一些实现中,该方法可以包括:由计算系统用搜索引擎处理文档级别表示以生成结果列表,其中,结果列表包括具有与文档的数据相关的数据的多个附加文档。该方法可以包括:由计算系统至少部分地基于文档级别表示来生成文档概要。在一些实现中,文档是网页。布局数据可以编码在注意力图中。在一些实现中,布局数据可以包括位置数据,其中,多个块可以包括第一块和第二块,并且其中,位置数据可以包括描述第一块相对于第二块的相对位置的数据。机器学习块级别编码器模型可以包括对文本块编码的转换器模型和对图像块编码的卷积神经网络。在一些实现中,机器学习块级别编码器模型可以用块级别预训练目标来训练,其中,块级别预训练目标可以包括掩蔽语言建模和图像

文本匹配,并且机器学习文档级别编码器模型可以用文档级别预训练目标来训练,其中,文档级别预训练目标可以包括块排序预测、掩蔽块预测和图像拟合。在一些实现中,该方法可以包括:由计算系统将文档级别表示存储在数据库中。
[0009]本公开的另一示例方面涉及一种计算系统。该计算系统可以包括:一个或多个处理器;以及一个或多个非暂时性计算机可读介质,其共同存储指令,指令在由一个或多个处理器执行时使计算系统执行操作。操作可以包括:由计算系统获得文档,其中,文档可以包括文本和一个或多个图像,并且布局数据可以与文档相关联。操作可以包括:由计算系统至少部分地基于布局数据将文档划分成多个块。在一些实现中,操作可以包括:由计算系统用机器学习块级别编码器模型处理多个块中的每个,以分别生成多个块的多个块级别表示,其中,对于多个块中的每个,与该块相关联的布局数据可以作为输入提供给机器学习块级别编码器模型。操作可以包括:由计算系统用机器学习文档级别编码器模型处理多个块级别表示,以生成文档的文档级别表示。操作可以包括:由计算系统至少部分地基于预测来评估损失函数,该预测可以基于文档级别表示。在一些实现中,操作可以包括:由计算系统至少部分地基于损失函数来修改机器学习块级别编码器模型或机器学习文档级别编码器模型中的至少一个的一个或多个参数。
[0010]该预测可以包括块排序预测。在一些实现中,块排序预测可以通过以下生成:由计算系统切换来自多个块的至少第一块和第二块,其中,切换来自多个块的第一块和第二块发生在由计算系统用机器学习块级别编码器模型处理多个块中的每个之前;以及由计算系统生成至少部分地基于文档级别表示来指示多个块是否处于正确次序的二元预测,其中,二元预测可以是块排序预测。在一些实现中,预测可以包括预测文本块。预测文本块可以在由计算系统用机器学习文档级别编码器模型处理多个块级别表示之前生成。该预测可以通过以下来生成:由计算系统掩蔽对多个块中的一个或多个文本块生成的块级别表示;以及由计算系统至少部分地基于文档级别表示从多个候选文本块选择预测文本块。在一些实现中,预测可以包括预测图像。预测图像可以在由计算系统用机器学习块级别编码器模型处理多个块中的每个之前生成。预测图像可以通过以下来生成:由计算系统掩蔽包括在多个块中的一个或多个块中的一个或多个图像;以及由计算系统至少部分地基于文档级别表示
从多个候选图像选择预测图像。在一些实现中,操作可以包括:由计算系统至少部分地基于图像匹配预测来评估块级别损失函数,该图像匹配预测可以基于一个或多个块级别表示。操作可以包括:由计算系统至少部分地基于块级别损失函数来修改机器学习块级别编码器模型的一个或多个参数。在一些实现中,图像

文本匹配预测可以通过以下来生成:由计算设备从训练文档采样一个或多个训练图像;由计算设备用一个或多个训练图像替换来自文档的一个或多个图像;以及由计算设备至少部分地基于一个或多个块级别表示来确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于生成布局感知文档表示的计算机实现的方法,该方法包括:由包括一个或多个计算设备的计算系统获得文档,其中,文档包括文本和一个或多个图像,并且其中,布局数据与文档相关联;由计算系统至少部分地基于布局数据将文档划分成多个块;由计算系统用机器学习块级别编码器模型处理多个块中的每个,以分别生成多个块的多个块级别表示,其中,对于多个块中的每个,与该块相关联的布局数据被作为输入提供给机器学习块级别编码器模型;由计算系统用机器学习文档级别编码器模型处理多个块级别表示,以生成文档的文档级别表示;以及由计算系统提供文档级别表示作为输出。2.根据任一前述权利要求所述的方法,其中,布局数据包括描述文档中多个块中的一个或多个的样式数据、字体数据或颜色数据中的至少一个。3.根据任一前述权利要求所述的方法,其中,布局数据包括描述文档内的多个块的空间位置的空间布局数据。4.根据任一前述权利要求所述的方法,其中,由计算系统划分文档包括:由计算系统至少部分地基于与文档相关联的一个或多个HTML标签来划分文档。5.根据任一前述权利要求所述的方法,其中,多个块中的至少一个包括文本内容和图像内容两者。6.根据任一前述权利要求所述的方法,其中,由计算系统用机器学习块级别编码器模型处理包括一个或多个图像的多个块中的每个包括:用卷积神经网络和嵌入模型处理包括在块中的一个或多个图像,以生成一个或多个图像的一个或多个图像嵌入。7.根据任一前述权利要求所述的方法,其中,机器学习块级别编码器模型和机器学习文档级别编码器模型中的一个或两个包括多头自注意力模型。8.根据任一前述权利要求所述的方法,其中,由计算系统将文档划分成多个块包括:用标记器处理文档。9.根据任一前述权利要求所述的方法,还包括:由计算系统处理文档级别表示,以确定文档的分类。10.根据任一前述权利要求所述的方法,还包括:由计算系统用搜索引擎处理文档级别表示以生成结果列表,其中,结果列表包括具有与文档的数据相关的数据的多个附加文档。11.根据任一前述权利要求所述的方法,还包括:由计算系统至少部分地基于文档级别表示生成文档概要。12.根据任一前述权利要求所述的方法,其中,文档是网页。13.根据任一前述权利要求所述的方法,其中,布局数据编码在注意力图中。14.根据任一前述权利要求所述的方法,其中,布局数据包括位置数据,其中,多个块包括第一块和第二块,并且其中,位置数据包括描述第一块相对于第二块的相对位置的数据。15.根据任一前述权利要求所述的方法,其中,机器学习块级别编码器模型包括对文本块编码的转换器模型和对图像块编码的卷积神经网络两者。16.根据任一前述权利要求所述的方法,其中:用块级别预训练目标训练机器学习块级别编码器模型,其中,块级别预训练目标包括
掩蔽语言建模和图像

文本匹配;以及用文档级别预训练目标训练机器学习文档级别编码器模型,其中,文档级别预训练目标包括块排序预测、掩蔽块预测和图像拟合。17.根据任一前述权利要求所述的方法,还包括:由计算系统将文档级别表示存储在数据库中。18.一种计算机系统,包括:一个或多个处理器;以及一个或多个非暂时性计算机可读介质,其共同存储指令,指令在由一个或多个处理器执行时使计算系统执行操作,操作包括:由计算系统获得文档,其中,文档包括文本和一个或多个图像,并且其中,布局数据与文档相关联;由计算系统至少部分地基于布局数据将文档划分成多个块;由计算系统用机器学习块级别编码器模型处理多个块中的每个,以分别生成多个块的多个块级别表示,其中,对于多个块中的每个,与该块相关联的布局数据作为输入被提供给机器学习块级别编码器模型;由计算系统用机器学习文档级别编码器模型处理多个块级别表示,以生成文档的文档级别表示;由计算系统至少部分地基于预测来评估损失函数,所述预测基于文档级别表示;以及由计算系统至少部分地基于损失函数来修改机器学习块级别编码器模型或机器学习文档级别编码器模型中的至少一个的一...

【专利技术属性】
技术研发人员:M张李程陈涛S阿姆巴霍姆拜亚M本德斯基MA纳乔克吴德霖
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1