模型训练和图像生成方法、装置、终端设备及存储介质制造方法及图纸

技术编号：44454766 阅读：8 留言：0更新日期：2025-02-28 19:00

本发明专利技术公开了一种模型训练和图像生成方法、装置、终端设备及存储介质，涉及计算机领域，所述模型训练方法包括：构建待训练模型，所述待训练模型包括主干结构模型和旁支结构模型，所述旁支结构模型基于所述主干结构模型构建，所述主干结构模型与所述旁支结构模型的文本编码器不同，基于所述旁支结构模型的文本编码器获取训练数据集，将所述主干结构模型的训练输入置空，基于所述训练数据集对所述旁支结构模型进行训练，获得目标模型，从而有效地构建了支持双语处理能力的目标模型，提升了模型训练效率，大幅提升了模型的处理性能，以及模型输出的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种模型训练和图像生成方法、装置、终端设备及存储介质。

技术介绍

1、目前文本生成图像领域技术发展特别迅速，目前的图像生成模型支持的语言单一，模型无法有效地理解其他类型的语言对应的语义，因此用户使用其他语言时，生成的图像与用户输入的描述不符，导致图像生成不符合用户预期，用户使用体验较差。

2、上述内容仅用于辅助理解本专利技术的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

1、本专利技术的主要目的在于提供一种模型训练和图像生成方法、装置、终端设备及存储介质，旨在解决现有技术图像生成不符合用户预期的技术问题。

2、为实现上述目的，本专利技术提供了一种模型训练方法，所述方法包括以下步骤：

3、构建待训练模型，所述待训练模型包括主干结构模型和旁支结构模型，所述旁支结构模型基于所述主干结构模型构建，所述主干结构模型与所述旁支结构模型的文本编码器不同；

4、基于所述旁支结构模型的文本编码器获取训练数据集；

5、将所述主干结构模型的训练输入置空，基于所述训练数据集对所述旁支结构模型进行训练，获得目标模型。

6、可选地，所述目标模型包括图像生成模型，所述训练数据集包括图像训练数据集。

7、可选地，所述构建待训练模型，包括：

8、获取预训练的主干结构模型；

9、获取所述主干结构模型的结构信息和模型参数；

10、基于所述结构信息和所述模型参数构建旁支结构模型；

11、基于所述主干结构模型和所述旁支结构模型构建待训练模型。

12、可选地，所述基于所述结构信息和所述模型参数构建旁支结构模型，包括：

13、基于所述结构信息和所述模型参数构建原始模型；

14、确定所述原始模型中的待初始化的目标单元；

15、将所述原始模型中的目标单元初始化，获得旁支结构模型。

16、可选地，所述将所述主干结构模型的训练输入置空，基于所述训练数据集对所述旁支结构模型进行训练，获得图像生成模型，包括：

17、对所述图像训练数据集进行处理，获得潜空间张量；

18、将所述主干结构模型的训练输入置空，基于所述潜空间张量对所述旁支结构模型进行训练，获得图像生成模型。

19、可选地，所述对所述图像训练数据集进行处理，获得潜空间张量，包括：

20、将所述图像训练数据集输入至编码器，获得潜在空间的概率分布信息；

21、基于所述概率分布信息进行随机采样，获得潜空间张量。

22、此外，为实现上述目的，本专利技术提供了一种图像生成方法，所述方法包括以下步骤：

23、获取描述信息和图像生成模型，所述图像生成模型包括主干结构模型和旁支结构模型，所述旁支结构模型基于所述主干结构模型构建，所述主干结构模型与所述旁支结构模型的文本编码器不同，所述描述信息包括语义描述信息和通用描述信息；

24、将所述语义描述信息输入至所述旁支结构模型，将所述通用描述信息输入至所述主干结构模型；

25、基于所述主干结构模型和所述旁支结构模型的输出结果生成所述描述信息对应的图像。

26、可选地，所述将所述语义描述信息输入至所述旁支结构模型，包括：

27、获取所述语义描述信息的语言类型；

28、根据所述语言类型确定模型输入权重；

29、基于所述模型输入权重将所述语义描述信息输入至所述旁支结构模型。

30、可选地，所述将所述语义描述信息输入至所述旁支结构模型，将所述通用描述信息输入至所述主干结构模型，包括：

31、获取潜空间张量；

32、将所述潜空间张量分别输入至所述主干结构模型和所述旁支结构模型；

33、将所述语义描述信息输入至所述旁支结构模型，将所述通用描述信息输入至所述主干结构模型。

34、可选地，所述获取描述信息，包括：

35、获取输入数据；

36、确定所述输入数据的语言类型，以及与所述语言类型对应的语义分析策略；

37、基于所述语义分析策略对所述输入数据进行语义分析，获取输入数据中包含的语义描述信息和通用描述信息。

38、此外，为实现上述目的，本专利技术还提出一种模型训练装置，所述模型训练装置包括：

39、模型构建模块，用于构建待训练模型，所述待训练模型包括主干结构模型和旁支结构模型，所述旁支结构模型基于所述主干结构模型构建，所述主干结构模型与所述旁支结构模型的文本编码器不同；

40、训练数据获取模块，用于基于所述旁支结构模型的文本编码器获取训练数据集；

41、模型训练模块，用于将所述主干结构模型的训练输入置空，基于所述训练数据集对所述旁支结构模型进行训练，获得目标模型。

42、可选地，所述目标模型包括图像生成模型，所述训练数据集包括图像训练数据集。

43、可选地，所述模型构建模块，还用于获取预训练的主干结构模型；获取所述主干结构模型的结构信息和模型参数；基于所述结构信息和所述模型参数构建旁支结构模型；基于所述主干结构模型和所述旁支结构模型构建待训练模型。

44、可选地，所述模型构建模块，还用于基于所述结构信息和所述模型参数构建原始模型；确定所述原始模型中的待初始化的目标单元；将所述原始模型中的目标单元初始化，获得旁支结构模型。

45、可选地，所述模型训练模块，还用于对所述图像训练数据集进行处理，获得潜空间张量；将所述主干结构模型的训练输入置空，基于所述潜空间张量对所述旁支结构模型进行训练，获得图像生成模型。

46、可选地，所述模型训练模块，还用于将所述图像训练数据集输入至编码器，获得潜在空间的概率分布信息；基于所述概率分布信息进行随机采样，获得潜空间张量。

47、此外，为实现上述目的，本专利技术还提出一种图像生成装置，所述图像生成装置包括：

48、信息获取模块，用于获取描述信息和图像生成模型，所述图像生成模型包括主干结构模型和旁支结构模型，所述旁支结构模型基于所述主干结构模型构建，所述主干结构模型与所述旁支结构模型的文本编码器不同，所述描述信息包括语义描述信息和通用描述信息；

49、信息输入模块，用于将所述语义描述信息输入至所述旁支结构模型，将所述通用描述信息输入至所述主干结构模型；

50、图像生成模块，用于基于所述主干结构模型和所述旁支结构模型的输出结果生成所述描述信息对应的图像。

51、可选地，所述信息输入模块，还用于获取所述语义描述信息的语言类型；根据所述语言类型确定模型输入权重；基于所述模型输入权重将所述语义描述信息输入至所述旁支结构模型。

52、此外，为实现上述目的，本专利技术还提出一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，所述模型训练方法包括：

2.如权利要求1所述的模型训练方法，其特征在于，所述目标模型包括图像生成模型，所述训练数据集包括图像训练数据集。

3.如权利要求2所述的模型训练方法，其特征在于，所述构建待训练模型，包括：

4.如权利要求3所述的模型训练方法，其特征在于，所述基于所述结构信息和所述模型参数构建旁支结构模型，包括：

5.如权利要求2所述的模型训练方法，其特征在于，所述将所述主干结构模型的训练输入置空，基于所述训练数据集对所述旁支结构模型进行训练，获得图像生成模型，包括：

6.一种图像生成方法，其特征在于，所述图像生成方法包括：

7.一种模型训练装置，其特征在于，所述模型训练装置包括：

8.一种图像生成装置，其特征在于，所述图像生成装置包括：

9.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型训练程序和/或图像生成程序，所述模型训练程序和/或所述图像生成程序配置为实现如权利要求1至6中任一项

10.一种存储介质，其特征在于，所述存储介质上存储有模型训练程序和/或图像生成程序，所述模型训练程序和/或所述图像生成程序被处理器执行时实现如权利要求1至6任一项所述的图像生成方法和/或模型训练方法。

...

【技术特征摘要】

1.一种模型训练方法，其特征在于，所述模型训练方法包括：

2.如权利要求1所述的模型训练方法，其特征在于，所述目标模型包括图像生成模型，所述训练数据集包括图像训练数据集。

3.如权利要求2所述的模型训练方法，其特征在于，所述构建待训练模型，包括：

4.如权利要求3所述的模型训练方法，其特征在于，所述基于所述结构信息和所述模型参数构建旁支结构模型，包括：

6.一种图像生成方法，其特征在于，所述图像生成方法...

【专利技术属性】
技术研发人员：刘山源，冷大炜，
申请(专利权)人：北京奇虎科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人