自动文档草图制作制造技术

技术编号:38372187 阅读:14 留言:0更新日期:2023-08-05 17:35
描述了涉及辅助文档生成的系统和方法。更具体地,类似的文档共享可用于生成初始文档的可重用文本结构的大部分,从而节省用户时间。为了生成文档,可以接收创建文档的指示,并基于该指示,可以标识多个示例文档和基准内容。示例文档可以是与作者的目标文档相似的现有文档。基准信息可以是指应用于目标文档时相关的、及时的和准确的内容。可以接收多个示例文档和基准内容,并且可以生成基于示例文档和基准内容的文档草图,该文档草图包含基于示例文档和基准内容的多个预测文本序列。档和基准内容的多个预测文本序列。档和基准内容的多个预测文本序列。

【技术实现步骤摘要】
【国外来华专利技术】自动文档草图制作

技术介绍

[0001]自动化文档生成具有挑战性,至少部分原因是用户特定的语义会极大地影响文档被起草的方式。最近的大型预训练语言模型,如T5或GPT3,已经在各种自然语言生成任务上取得了令人印象深刻的进展,并且可以产生流畅和上下文感知的文本序列,这些文本序列甚至能够欺骗人类。例如,给定文档元数据,可以应用这样的模型来完全自动化故事或新闻文章的生成。然而,在书面文档应受到事实正确性或人为控制的约束的实际情况下,完全自动化的生成模型是不可取的,因为它们倾向于生成幻觉内容。也就是说,完全自动化的生成模型倾向于生成可能不真实的文本,或者至少不以输入数据为基准的文本。
[0002]相反,当输入被提供给模型时,将语言模型应用于自动完成动态人类输入可能是帮助用户创建文档的更好的替代方案。然而,这种通常遵循从左到右顺序的增量编写往往缺乏文档结构,而这正是用户在编写文档时自然要做的第一步。在许多实际情况下,用户往往利用先前编写的文档作为指导来开始编写文档,和/或可能重复使用现有文档。例如,在编写推荐信之前,人可能会找到一个或多个先前编写的相同目的的信,其提供了示例或指导来遵循。然后,用户可以在重复使用和定制的文档中的各个位置提供细节,以生成最终文档。由于最终文档通常没有幻觉内容,因此由自动文档生成模型自动生成的文档也应当如此。

技术实现思路

[0003]本公开的各方面涉及利用多个预先存在的示例文档基准内容的自动文档生成。一些示例包括一种生成文档的方法。该方法可以包括接收创建文档草图的指示;基于该指示,确定多个示例文档和基准内容;接收多个示例文档;接收基准内容;以及基于示例文档和基准内容生成文档草图,文档草图包括多个预测文本序列。
[0004]此外,一些示例包括一种生成文档的方法。该方法可以包括接收创建文档草图的指示;基于该指示,确定多个示例文档和基准内容;接收多个示例文档;接收基准内容;以及基于示例文档和基准内容生成文档草图,文档草图包括多个预测文本序列;标识具有小于阈值的相关联的生成置信度分数的预测文本序列;以及使所标识的预测文本序列以与具有大于阈值的相关联的生成置信度分数的预测文本序列不同的方式显示在输出设备处。
[0005]一些示例涉及一种系统,该系统包括处理器和存储器。存储器可以包括指令,该指令在由处理器执行时,使处理器:接收先前生成的文档草图,该文档草图基于多个示例文档;从基准内容源取回基准内容;基于基准内容生成修改的文档草图,文档草图包括基于基准内容的多个预测文本序列。
附图说明
[0006]参考以下附图描述了非限制性和非详尽的示例。
[0007]图1描绘了根据本公开的示例的文档共同创作系统。
[0008]图2描绘了根据本公开的示例的草稿文档辅助模块的附加细节。
[0009]图3描绘了根据本公开的示例的文档草图架构模块的细节。
[0010]图4描绘了根据本公开的示例的文档草图和数据结构的附加细节。
[0011]图5

图8描绘了根据本公开的示例的用于共同创作一个或多个文档草图的示例。
[0012]图9示出了根据本公开的示例的用于生成文档草图的示例方法的概述。
[0013]图10示出了根据本公开的示例的用于生成文档草图的示例方法的概述。
[0014]图11示出了用于显示与文档草图相关联的附加信息的示例方法的概述。
[0015]图12是示出计算设备的物理组件(例如,硬件)的框图,利用该物理组件可以实践本公开的各方面。
[0016]图13A

图13B示出了可以用来实践本公开的实施例的移动计算设备。
[0017]图14示出了用于处理数据的系统的架构的一个方面。
具体实施方式
[0018]在以下详细描述中,参考了构成本文一部分的附图,并且在附图中通过图示的方式示出了具体的实施例或示例。在不脱离本公开的情况下,可以组合这些方面,可以利用其他方面,并且可以进行结构改变。实施例可以作为方法、系统或设备来实践。因此,实施例可以采取硬件实现、完全软件实现或结合软件和硬件方面的实现的形式。因此,以下详细描述不应被视为限制性的,并且本公开的范围由所附权利要求及其等同物来定义。
[0019]自动化文档生成具有挑战性,至少部分是由于用户特定的语义会极大地影响文档被起草的方式。虽然各种自然语言生成模型产生了流畅和上下文感知的文本序列,但在书面文档应受到事实正确性的约束的情况下,这种模型是不可取的,这是由于其倾向于生成幻觉内容。幻觉内容可以是指由机器模型生成/编写的具有不同准确性级别的内容;在某些情况下,幻觉内容可能不是真实的,或者至少不能反映输入数据。例如,可能的内容可能是使用概率模式产生的幻觉,该概率模式可以不直接以对输入内容和/或上下文执行的检测为基准,但基于语料库数据发生的概率很高。本公开的各方面通过利用基准信息来以预测文本序列或以其他方式为基准增加预测文本序列反映底层数据的概念或思想的概率来解决幻觉内容的问题。此外,与使用示例文档作为编写目标文档的基础类似,本公开的各方面利用示例文档来生成初始目标文档草图,其中文档草图可以包括从示例文档标识的可重复使用的文本部分和格式。基于基准信息,预测文本序列可以包括在文档草图中。
[0020]图1描绘了根据本公开的示例的文档共同创作系统100。文档共同创作系统100可以允许用户102利用处理设备104来查看和/或编辑文档草图105,该文档草图105是基于从用户的意图得到的多个示例文档和内容基准源自动生成的。处理设备104可以允许用户102经由网络112与草稿文档辅助模块108交互,并向草稿文档辅助模块108提供提出的任务103。提出的任务103可以传达意图以及一个或多个数据源或资源,其中文档草图105可以基于一个或多个数据源或资源。例如,提出的任务103可以是“使用当前电子表格数据和昨天收到的Sora的电子邮件中的信息起草定期月度谷物报告”。相应地,提出的任务103可以包括意图(例如,起草定期月度谷物报告)并标识定位内容的数据源和/或资源(诸如当前电子表格数据和Sora的电子邮件中的信息),以便可以生成文档草图105。作为另一示例,草稿文档辅助模块108可以基于提出的任务103从一个或多个数据源132A

132B接收多个示例文档128。草稿文档辅助模块108还可以接收内容136A

136B;相应地,草稿文档辅助模块108可以
基于示例文档128和基准内容136A

136B,利用一个或多个机器学习算法(诸如但不限于神经网络的)来生成文档草图105。因此,可以基于示例文档128将文档草图105生成为初始模板式文档,其中示例文档128可以提供示例格式、结构,并且在某些情况下可以提供跨文档128通用的内容。在示例中,文档128可以由用户选择,或者以其他方式包括多个类似文档的集合或合集。
[0021]在一些示例中,文档草图105可以包括一个或多个区域,例如预测文本区域116本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种生成文档的方法,所述方法包括:接收创建文档草图的指示;基于所述指示,确定多个示例文档和基准内容;接收所述多个示例文档;接收所述基准内容;以及基于所述示例文档和所述基准内容生成所述文档草图,所述文档草图包括多个预测文本序列。2.根据权利要求1所述的方法,还包括:接收与所述文档草图的内容部分相关联的用户交互;以及基于所述用户交互生成修改的文档草图。3.根据权利要求2所述的方法,其中所述用户交互包括:接收与所述文档草图的所述内容部分相关联的选择;以及使与所述文档草图的所述内容部分相关联的备选内容结构显示给用户。4.根据权利要求3所述的方法,还包括:接收备选内容结构的选择;用所选择的所述备选内容结构替换与所接收的所述选择相关联的所述内容结构;以及基于所述示例文档、所述基准内容和所选择的所述备选内容结构生成修改的所述文档草图。5.根据权利要求3所述的方法,其中所述备选内容结构包括预测文本序列。6.根据权利要求1所述的方法,还包括:标识具有小于阈值的置信度分数的所述文档草图的内容;以及使所标识的所述内容以与具有大于所述阈值的置信度分数的所述文档草图的内容不同的方式显示。7.根据权利要求1所述的方法,还包括:接收与所述文档草图的内容部分相关联的选择;以及显示与所选择的所述内容部分相关联的底层数据。8.根据权利要求7所述的方法,其中所述底层数据是与所选择的所述内容部分相关联的基准信息。9.根据权利要求1所述的方法,其中所述文档草图是利用在包括文档和基准信息的数据上训练的机器学习模型生成的。10.根据权...

【专利技术属性】
技术研发人员:W
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1