图文数据增强、文生图模型的训练、图像生成方法技术

技术编号：43378729 阅读：6 留言：0更新日期：2024-11-19 17:56

本申请提供一种图文数据增强、文生图模型的训练、图像生成方法。该方法包括：获取初始图文数据训练集，初始图文数据训练集中包括多个第一图像‑文本对；将第一图像‑文本对中的第一文本输入第一文生图模型，得到第一文生图模型输出的第二图像；将第二图像输入图像描述生成模型，得到图像描述生成模型输出的第二文本，将第二图像和第二文本作为第二图像‑文本对；基于第二图像‑文本对和对应的第一图像‑文本对的相似度，以及第二图像‑文本对的特征信息，对多个第二图像‑文本对进行筛选，得到增强图文数据训练集。本申请的方法提高了训练数据的数量和质量，从而使得训练得到的文生图模型生成的图像质量较高。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理，尤其涉及一种图文数据增强、文生图模型的训练、图像生成方法。

技术介绍

1、在保险行业中，通常需要制作图像来展示产品特点、服务内容、业务引导等信息。因为文生图模型可以将文本转换为符合其语义的图像的特点，所以在保险行业中可以通过将描述文本输出文生图模型以生成对应的图像，提高制作图像的效率和质量。

2、训练文生图模型以使文生图模型用于生成与保险行业相关的图像，需要获取大量与保险行业相关的图文数据作为训练数据来训练文生图模型。现有图文数据集中与保险行业相关的图文数据较少，通常需要人工从现有图文数据集中选取图文数据，并基于选取的图文数据人工处理以增加图文数据的数量。受限于人工处理的质量和效率均较低下，训练数据的质量和数量都无法保证，导致训练得到的文生图模型生成的图像质量较低。

技术实现思路

1、本申请提供一种图文数据增强、文生图模型的训练、图像生成方法，用以解决文生图模型生成的图像质量较低的问题。

2、第一方面，本申请提供一种图文数据增强方法，包括：

3、获取初始图文数据训练集，所述初始图文数据训练集中包括多个第一图像-文本对；所述第一图像-文本对由第一文本和基于所述第一文本生成的第一图像组成；

4、将所述第一图像-文本对中的第一文本输入第一文生图模型，得到所述第一文生图模型输出的第二图像；

5、将所述第二图像输入图像描述生成模型，得到所述图像描述生成模型输出的第二文本，将所述第二图像和所述第二文本作为第二图像-文本对；

6、基于所述第二图像-文本对和对应的所述第一图像-文本对的相似度，以及所述第二图像-文本对的特征信息，对多个所述第二图像-文本对进行筛选，得到增强图文数据训练集。

7、可选地，所述第二图像-文本对的特征信息包括所述第二图像的第一美学分值、所述第二文本的第二美学分值，以及所述第二图像和所述第二文本的一致性分值；

8、所述基于所述第二图像-文本对和对应的所述第一图像-文本对的相似度，以及所述第二图像-文本对的特征信息，对多个所述第二图像-文本对进行筛选，得到增强图文数据训练集，包括：

9、确定所述第二图像和所述第一图像的第一相似度，以及所述第二文本和所述第一文本的第二相似度、所述第一美学分值、所述第二美学分值和所述一致性分值；

10、基于所述第一相似度、所述第二相似度、所述第一美学分值、所述第二美学分值和所述一致性分值，确定所述第二图像-文本对的可用性分值；

11、将所述可用性分值小于预设阈值的所述第二图像-文本对剔除，得到所述增强图文数据训练集。

12、可选地，所述确定所述第二图像和所述第一图像的第一相似度，以及所述第二文本和所述第一文本的第二相似度、所述第一美学分值、所述第二美学分值和所述一致性分值，包括：

13、提取所述第一图像的第一特征信息和所述第二图像的第二特征信息，基于所述第一特征信息和所述第二特征信息，确定所述第一相似度；

14、提取所述第一文本的第一关键词和所述第二文本的第二关键词，基于所述第一关键词和所述第二关键词，确定所述第二相似度；

15、将所述第二图像输入图像美学评分模型，得到所述第一美学分值；

16、将所述第二文本输入文本美学评分模型，得到所述第二美学分值；

17、基于所述第二特征信息和所述第二关键词，确定所述一致性分值。

18、可选地，所述基于所述第一相似度、所述第二相似度、所述第一美学分值、所述第二美学分值和所述一致性分值，确定所述第二图像-文本对的可用性分值，包括：

19、将所述第一相似度、所述第二相似度、所述第一美学分值、所述第二美学分值和所述一致性分值，确定所述第二图像-文本对的可用性分值输入预先训练好的可用性评分模型，得到所述可用性评分模型输出的可用性分值。

20、可选地，所述方法还包括：

21、基于所述初始图文数据训练集，训练初始文生图模型，得到所述第一文生图模型。

22、可选地，所述方法还包括：

23、所述获取初始图文数据训练集，包括：

24、获取多个初始图像-文本对，对所述初始图像-文本对进行以下预处理：

25、若所述初始图像-文本对中的图像的尺寸不满足预设尺寸，或，所述初始图像-文本对中的图像中包含文字，则删除所述初始图像-文本对；若所述初始图像-文本对中的文本缺失，则将所述初始图像-文本对中的图像输入所述图像描述生成模型，将所述图像描述生成模型输出的文本作为所述初始图像-文本对中的文本；

26、将经过预处理的初始图像-文本对作为所述初始图文数据训练集中的第一图像-文本对。

27、可选地，所述第一图像-文本对是保险场景下的图像-文本对。

28、第二方面，本申请提供一种文生图模型的训练方法，包括：

29、获取图文数据训练集，所述图文数据训练集包括初始图文数据训练集和增强图文数据训练集，所述增强图文数据训练集是基于所述初始图文数据训练集、采用如第一方面任一项所述的方法得到的；

30、采用所述图文数据训练集对第二文生图模型进行训练，得到训练完成的第二文生图模型。

31、第三方面，本申请提供一种图像生成方法，包括：

32、获取待处理文本；

33、将所述待处理文本输入第二文生图模型，得到所述第二文生图模型输出的图像，所述第二文生图模型是采用如权利要求8所述的方法训练得到的。

34、第四方面，本申请提供一种图文数据增强装置，包括：

35、获取模块，用于获取初始图文数据训练集，所述初始图文数据训练集中包括多个第一图像-文本对；所述第一图像-文本对由第一文本和基于所述第一文本生成的第一图像组成；

36、生成图像模块，用于将所述第一图像-文本对中的第一文本输入第一文生图模型，得到所述第一文生图模型输出的第二图像；

37、生成文本模块，将所述第二图像输入图像描述生成模型，得到所述图像描述生成模型输出的第二文本，将所述第二图像和所述第二文本作为第二图像-文本对；

38、筛选模块，基于所述第二图像-文本对和对应的所述第一图像-文本对的相似度，以及所述第二图像-文本对的特征信息，对多个所述第二图像-文本对进行筛选，得到增强图文数据训练集。

39、第五方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

40、所述存储器存储计算机执行指令；

41、所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面至第三方面任一项所述的方法。

42、第六方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面至第三方面任一项所述的方法。

43、第七方面，本申请提供本文档来自技高网...

【技术保护点】

1.一种图文数据增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第二图像-文本对的特征信息包括所述第二图像的第一美学分值、所述第二文本的第二美学分值，以及所述第二图像和所述第二文本的一致性分值；

3.根据权利要求2所述的方法，其特征在于，所述确定所述第二图像和所述第一图像的第一相似度，以及所述第二文本和所述第一文本的第二相似度、所述第一美学分值、所述第二美学分值和所述一致性分值，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述第一相似度、所述第二相似度、所述第一美学分值、所述第二美学分值和所述一致性分值，确定所述第二图像-文本对的可用性分值，包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，还包括：

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述获取初始图文数据训练集，包括：

7.根据权利要求1-4中任一项所述的方法，其特征在于，所述第一图像-文本对是保险场景下的图像-文本对。

8.一种文生图模型的训练方法，其特征在于，包括：

9.一种图像生成方法，其特征在于，包括：

10.一种图文数据增强装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至9任一项所述的方法。

13.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。

...

【技术特征摘要】

1.一种图文数据增强方法，其特征在于，所述方法包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，还包括：

6.根据权利要求1-4中任...

【专利技术属性】
技术研发人员：董慧妍，张云茹，曾婵，樊荣，
申请(专利权)人：人保信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人