视觉数据生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号：43873101 阅读：27 留言：0更新日期：2024-12-31 18:57

本申请涉及一种视觉数据生成方法、装置、电子设备和存储介质。该方法包括：获取文本提示词；其中，文本提示词包括多个句段，各个句段具有预先分配的注意力权重；将文本提示词编码为初始文本嵌入向量；根据各个句段的注意力权重，对初始文本嵌入向量的各维度进行加权处理，得到目标文本嵌入向量；基于目标文本嵌入向量，生成与文本提示词匹配的视觉数据。本申请提供的方案，既无需任何额外的训练和微调，节省大量时间和资源，也无需扰乱原本的文本提示词的顺序和结构，避免文本失意，且能够有效应对复杂文本提示词的情况。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种视觉数据生成方法、装置、电子设备和存储介质。

技术介绍

1、文生图模型可以根据用户输入的文本(或称为文本提示词)直接生成具有文本所描述概念的图像。但是有些时候，用户想要强调文本提示词中某一句段的内容，以便让模型的生成结果更偏向强调部分，这种强调作用等价于将模型对文本的注意力转移到所强调部分之上。

2、相关技术中有两种方法可以达到上述目的，第一种是通过微调来改变模型本身对特定概念的理解，另一种是通过提示词工程来重新编排文本提示词来隐式地调整文本提示词的编码结果。然而，第一种方法需要额外的训练和微调，导致消耗大量时间和资源，第二种方法需要扰乱原本的文本提示词的顺序和结构，导致文本失意，且这两种办法都无法有效应对复杂文本提示词的情况。

技术实现思路

1、为解决或部分解决相关技术中存在的问题，本申请提供一种视觉数据生成方法、装置、电子设备和存储介质，既无需任何额外的训练和微调，节省大量时间和资源，也无需扰乱原本的文本提示词的顺序和结构，避免文本失意，且能够有效应对复杂文本提示词的情况。

2、本申请第一方面提供一种视觉数据生成方法，包括：

3、获取文本提示词；其中，所述文本提示词包括多个句段，各个句段具有预先分配的注意力权重；

4、将所述文本提示词编码为初始文本嵌入向量；

5、根据所述各个句段的注意力权重，对所述初始文本嵌入向量的各维度进行加权处理，得到目标文本嵌入向量；

6、基于所述目标

7、对所述文本提示词中的各个句段按顺序进行词元划分，得到多个词元；

8、所述初始文本嵌入向量包括各个词元的初始词元嵌入向量；所述将所述文本提示词编码为初始文本嵌入向量，包括：

9、对各个词元进行编码处理，得到所述各个词元的初始词元嵌入向量。

10、在一实施方式中，所述目标文本嵌入向量包括各个词元的目标词元嵌入向量；所述根据所述各个句段的注意力权重，对所述初始文本嵌入向量的各维度进行加权处理，得到目标文本嵌入向量，包括：

11、根据所述各个句段的注意力权重，对所述各个词元的初始词元嵌入向量进行加权处理，得到所述各个词元的目标词元嵌入向量。

12、在一实施方式中，所述根据所述各个句段的注意力权重，对所述各个词元的初始词元嵌入向量进行加权处理，得到所述各个词元的目标词元嵌入向量，包括：

13、根据所述各个词元的初始词元嵌入向量的值与对应句段的注意力权重，计算得到所述各个词元的目标词元嵌入向量。

14、在一实施方式中，所述基于所述目标文本嵌入向量，生成与所述文本提示词匹配的视觉数据，包括：

15、获取预设噪声；

16、将所述各个词元的目标词元嵌入向量与所述预设噪声进行特征融合，得到所述各个词元的词元融合特征；

17、基于所述各个词元的词元融合特征，生成与所述文本提示词匹配的视觉数据。

18、在一实施方式中，所述获取文本提示词，包括：

19、获取用户的输入数据；

20、根据所述用户的输入数据得到文本提示词。

21、在一实施方式中，所述根据所述用户的输入数据得到文本提示词，包括：

22、根据所述用户的输入数据得到初始文本提示词；

23、对所述初始文本提示词进行句段划分，并确定各个句段的注意力权重，得到包括多个句段以及各个句段的注意力权重的文本提示词。

24、本申请第二方面提供一种视觉数据生成装置，包括：

25、文本提示词获取模块，用于获取文本提示词；其中，所述文本提示词包括多个句段，各个句段具有预先分配的注意力权重；

26、编码处理模块，用于将所述文本提示词编码为初始文本嵌入向量；

27、加权处理模块，用于根据所述各个句段的注意力权重，对所述初始文本嵌入向量的各维度进行加权处理，得到目标文本嵌入向量；

28、视觉数据生成模块，用于基于所述目标文本嵌入向量，生成与所述文本提示词匹配的视觉数据。

29、在一实施方式中，在所述将所述文本提示词编码为初始文本嵌入向量之前，所述装置还包括：

30、词元划分模块，用于对文本提示词中的各个句段按顺序进行词元划分，得到多个词元；

31、所述初始文本嵌入向量包括各个词元的初始词元嵌入向量；所述编码处理模块包括：

32、编码处理子模块，用于对各个词元进行编码处理，得到所述各个词元的初始词元嵌入向量。

33、在一实施方式中，所述目标文本嵌入向量包括各个词元的目标词元嵌入向量；所述加权处理模块包括：

34、加权处理子模块，用于根据所述各个句段的注意力权重，对所述各个词元的初始词元嵌入向量进行加权处理，得到所述各个词元的目标词元嵌入向量。

35、在一实施方式中，加权处理子模块包括：

36、加权处理单元，用于根据所述各个词元的初始词元嵌入向量的值与对应句段的注意力权重，计算得到所述各个词元的目标词元嵌入向量。

37、在一实施方式中，视觉数据生成模块包括：

38、预设噪声获取子模块，用于获取预设噪声；

39、特征融合子模块，用于将所述各个词元的目标词元嵌入向量与所述预设噪声进行特征融合，得到所述各个词元的词元融合特征；

40、视觉数据生成子模块，用于基于所述各个词元的词元融合特征，生成与所述文本提示词匹配的视觉数据。

41、在一实施方式中，文本提示词获取模块包括：

42、输入数据获取子模块，用于获取用户的输入数据；

43、输入数据处理子模块，用于根据所述用户的输入数据得到文本提示词。

44、在一实施方式中，输入数据处理子模块包括：

45、输入数据处理单元，用于根据所述用户的输入数据得到初始文本提示词；

46、初始文本提示词处理单元，用于对所述初始文本提示词进行句段划分，并确定各个句段的注意力权重，得到包括多个句段以及各个句段的注意力权重的文本提示词。

47、本申请第三方面提供一种电子设备，包括：

48、处理器；以及

49、存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

50、本申请第四方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

51、本申请提供的技术方案可以包括以下有益效果：

52、本申请提供的方案，获取文本提示词；其中，文本提示词包括多个句段，各个句段具有预先分配的注意力权重；将文本提示词编码为初始文本嵌入向量；根本文档来自技高网...

【技术保护点】

1.一种视觉数据生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述将所述文本提示词编码为初始文本嵌入向量之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述目标文本嵌入向量包括各个词元的目标词元嵌入向量；所述根据所述各个句段的注意力权重，对所述初始文本嵌入向量的各维度进行加权处理，得到目标文本嵌入向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述各个句段的注意力权重，对所述各个词元的初始词元嵌入向量进行加权处理，得到所述各个词元的目标词元嵌入向量，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述目标文本嵌入向量，生成与所述文本提示词匹配的视觉数据，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述获取文本提示词，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述用户的输入数据得到文本提示词，包括：

8.一种视觉数据生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：p>

10.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种视觉数据生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述将所述文本提示词编码为初始文本嵌入向量之前，所述方法还包括：

5....

【专利技术属性】
技术研发人员：请求不公布姓名，请求不公布姓名，
申请(专利权)人：北京生数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人