用于多模式文档理解的布局感知多模式预训练制造技术

技术编号：37549361 阅读：45 留言：0更新日期：2023-05-12 16:27

用于文档处理的可以处理和理解文档的布局、文本大小、文本样式和多媒体的系统和方法可以生成更准确和更有根据的文档表示。配以文本大小和样式的文档的布局可以指示文档的什么部分可能更重要，并且对该重要性的理解可以帮助理解文档。利用处理文档的块级别和文档级别的分级框架的系统和方法可以利用这些指标来生成更好的文档表示。来生成更好的文档表示。来生成更好的文档表示。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于多模式文档理解的布局感知多模式预训练

[0001]本公开一般涉及文档处理。更具体地，本公开涉及多模式、布局感知的机器学习文档编码模型的训练和利用。

技术介绍

[0002]文档表示可以包括关于文档的编码信息(例如，语义信息)。文档表示可以用于各种下游任务，例如自然语言处理、问题回答、文档概要或信息检索(例如，文档检索)。在某些现有模型中，生成这些文档表示的文档处理聚焦于文本内容。某些单词或短语的分布和数量是一些现有模型的焦点。在这些现有模型中不考虑布局和图像。
[0003]文档布局可以包括可能至关重要但有时被机器学习模型忽略的结构和视觉(例如字体大小)信息。使用布局信息的现有模型通常只考虑文本内容，而忽略诸如图像等其他模式的内容的存在。此外，还未充分利用布局中所呈现内容的空间交互。
[0004]此外，语言模型通常仅限于考虑文本内容，并进一步假设所有文本同等重要。因此，不考虑文本在文档中的位置、文本的大小以及文本的其他特征。例如，对用较大字体加粗的副标头给予与段落正文中较小的文本相同的重要性。文本的位置和大小可以表明文本的重要性，并且不将这些特征考虑进去可能会导致未在上下文中考虑文档的文本。
[0005]此外，语言建模系统往往忽略文档中的图像的重要性。图像可以在处理文档时提供附加的细微差别，但往往被忽视。文本内容是文档中仅被考虑的部分可能导致仅考虑文档的一部分。图片可以强调主题或者描述文字无法简洁描述的东西。

技术实现思路

[0006]本公开的实施例的方面和有利之处将在以下描述...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于生成布局感知文档表示的计算机实现的方法，该方法包括：由包括一个或多个计算设备的计算系统获得文档，其中，文档包括文本和一个或多个图像，并且其中，布局数据与文档相关联；由计算系统至少部分地基于布局数据将文档划分成多个块；由计算系统用机器学习块级别编码器模型处理多个块中的每个，以分别生成多个块的多个块级别表示，其中，对于多个块中的每个，与该块相关联的布局数据被作为输入提供给机器学习块级别编码器模型；由计算系统用机器学习文档级别编码器模型处理多个块级别表示，以生成文档的文档级别表示；以及由计算系统提供文档级别表示作为输出。2.根据任一前述权利要求所述的方法，其中，布局数据包括描述文档中多个块中的一个或多个的样式数据、字体数据或颜色数据中的至少一个。3.根据任一前述权利要求所述的方法，其中，布局数据包括描述文档内的多个块的空间位置的空间布局数据。4.根据任一前述权利要求所述的方法，其中，由计算系统划分文档包括：由计算系统至少部分地基于与文档相关联的一个或多个HTML标签来划分文档。5.根据任一前述权利要求所述的方法，其中，多个块中的至少一个包括文本内容和图像内容两者。6.根据任一前述权利要求所述的方法，其中，由计算系统用机器学习块级别编码器模型处理包括一个或多个图像的多个块中的每个包括：用卷积神经网络和嵌入模型处理包括在块中的一个或多个图像，以生成一个或多个图像的一个或多个图像嵌入。7.根据任一前述权利要求所述的方法，其中，机器学习块级别编码器模型和机器学习文档级别编码器模型中的一个或两个包括多头自注意力模型。8.根据任一前述权利要求所述的方法，其中，由计算系统将文档划分成多个块包括：用标记器处理文档。9.根据任一前述权利要求所述的方法，还包括：由计算系统处理文档级别表示，以确定文档的分类。10.根据任一前述权利要求所述的方法，还包括：由计算系统用搜索引擎处理文档级别表示以生成结果列表，其中，结果列表包括具有与文档的数据相关的数据的多个附加文档。11.根据任一前述权利要求所述的方法，还包括：由计算系统至少部分地基于文档级别表示生成文档概要。12.根据任一前述权利要求所述的方法，其中，文档是网页。13.根据任一前述权利要求所述的方法，其中，布局数据编码在注意力图中。14.根据任一前述权利要求所述的方法，其中，布局数据包括位置数据，其中，多个块包括第一块和第二块，并且其中，位置数据包括描述第一块相对于第二块的相对位置的数据。15.根据任一前述权利要求所述的方法，其中，机器学习块级别编码器模型包括对文本块编码的转换器模型和对图像块编码的卷积神经网络两者。16.根据任一前述权利要求所述的方法，其中：用块级别预训练目标训练机器学习块级别编码器模型，其中，块级别预训练目标包括
掩蔽语言建模和图像
‑
文本匹配；以及用文档级别预训练目标训练机器学习文档级别编码器模型，其中，文档级别预训练目标包括块排序预测、掩蔽块预测和图像拟合。17.根据任一前述权利要求所述的方法，还包括：由计算系统将文档级别表示存储在数据库中。18.一种计算机系统，包括：一个或多个处理器；以及一个或多个非暂时性计算机可读介质，其共同存储指令，指令在由一个或多个处理器执行时使计算系统执行操作，操作包括：由计算系统获得文档，其中，文档包括文本和一个或多个图像，并且其中，布局数据与文档相关联；由计算系统至少部分地基于布局数据将文档划分成多个块；由计算系统用机器学习块级别编码器模型处理多个块中的每个，以分别生成多个块的多个块级别表示，其中，对于多个块中的每个，与该块相关联的布局数据作为输入被提供给机器学习块级别编码器模型；由计算系统用机器学习文档级别编码器模型处理多个块级别表示，以生成文档的文档级别表示；由计算系统至少部分地基于预测来评估损失函数，所述预测基于文档级别表示；以及由计算系统至少部分地基于损失函数来修改机器学习块级别编码器模型或机器学习文档级别编码器模型中的至少一个的一...

【专利技术属性】
技术研发人员：M张，李程，陈涛，S阿姆巴霍姆拜亚，M本德斯基，MA纳乔克，吴德霖，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人