System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于文本图像编码器的AIGC图像质量评价方法技术_技高网

基于文本图像编码器的AIGC图像质量评价方法技术

技术编号:42515043 阅读:4 留言:0更新日期:2024-08-27 19:29
本发明专利技术提供了一种基于文本图像编码器的AIGC图像质量评价方法,包括以下步骤:S1.获取AIGC图像及其文本提示词,并预处理图像;S2.构建文本编码器模块,提取文本提示词特征向量;S3.构建图像编码器模块,提取AIGC图像特征向量;S4.构建特征融合模块,融合文本提示词特征和AIGC图像特征;S5.构建图像质量回归模块;S6.生成无参考AIGC图像质量评价数据集;S7.训练AIGC图像质量评价模型;以及S8.输出AIGC图像质量分数。本发明专利技术方法解决了AIGC图像质量评价方法经常忽略生成图像的文本提示中包含的信息的问题。

【技术实现步骤摘要】

本专利技术涉及工智能计算机视觉领域,特别地,涉及基于文本图像编码器的aigc图像质量评价方法。


技术介绍

1、人工智能生成内容(aigc)是指利用人工智能技术自动生成文本、图像、音频、视频等各种形式的内容的过程。在图像生成领域,随着人工智能生成模型不断生成图像,评价这些图像的质量已成为一项重大挑战。aigc图像质量评价(aigc-iqa)旨在从人类感知的角度评价人工智能生成图像(aigc)的质量,与常见的图像质量评价任务不同,在aigc-iqa任务中,图像通常由生成模型使用文本提示词生成,且没有参考图像。大多数现有的 aigc-iqa方法直接从单个生成的图像中回归预测分数,忽略了这些图像的文本提示中包含的信息,这种疏忽部分限制了这些 aigc-iqa方法的性能。

2、解决以上问题的难度为:aigc图像由生成模型使用提示词生成,没有参考图像,很难模拟人类感知来评价生成图像质量的好坏。

3、解决上述问题的意义为:开发一种合适的无参考方法用于评价和比较人工智能生成图像(aigc)的质量,帮助提高用户对这些人工智能生成图像的满意度。


技术实现思路

1、本专利技术提供了一种基于文本图像编码器的aigc图像质量评价方法,以解决 aigc图像质量评价方法经常忽略生成图像的文本提示中包含的信息的问题。

2、本专利技术的技术方案如下:

3、本专利技术的基于文本图像编码器的aigc图像质量评价方法,包括以下步骤:s1. 获取aigc图像及其文本提示词,并预处理图像;s2. 构建文本编码器模块,提取文本提示词特征向量;

4、s3. 构建图像编码器模块,提取aigc图像特征向量;s4. 构建特征融合模块,融合文本提示词特征和aigc图像特征;s5. 构建图像质量回归模块;s6. 生成无参考aigc图像质量评价数据集;s7. 训练aigc图像质量评价模型;以及s8. 输出aigc图像质量分数。

5、可选地,在上述基于文本图像编码器的aigc图像质量评价方法中,在步骤s1中,实验前需要对aigc图像进行预处理,对图像进行补丁重采样,以保留对原始图像质量的敏感性,补丁重采样将图像切割成空间均匀的不重叠的网格,从每个网格中随机采样一个小补丁,然后将小补丁拼接在一起重组成新的图像。

6、可选地,在上述基于文本图像编码器的aigc图像质量评价方法中,在步骤s2中,文本编码器采用自然语言处理(nlp)中常用的文本变换器模型。

7、可选地,在上述基于文本图像编码器的aigc图像质量评价方法中,在步骤s3中,图像编码器采用卷积神经网络(cnn)或视觉变换器(vit)。

8、可选地,在上述基于文本图像编码器的aigc图像质量评价方法中,在步骤s4中,特征融合模块由2个池化层、1个1*1卷积层 和1个拼接层构成,具体结构顺序为1*1卷积层→池化层→拼接层,以进行特征拼接。

9、可选地,在上述基于文本图像编码器的aigc图像质量评价方法中,在步骤s5中,图像质量回归模块由2个线性层、2个激活函数、1个丢弃层构成,具体结构顺序为线性层1→激活函数1→丢弃层1→线性层2→激活函数2,其中线性层1的输入为4096,输出为128;丢弃层1概率为0.5;线性层2的输入为128,输出为1。

10、可选地,在上述基于文本图像编码器的aigc图像质量评价方法中,在步骤s5中,所构建质量回归模块,其结构依次为:全连接层→丢弃层→激活层;设置质量回归模块的各层参数如下:将全连接层的输入和输出尺寸分别设置为4096和512;将丢弃层概率值设为0.5;将relu函数设为激活层函数。

11、可选地,在上述基于文本图像编码器的aigc图像质量评价方法中,在步骤s6中,首先构建数据集,每个数据样本包括一张aigc图像,一份文本提示词,一个主观mos值;将预处理后的所有aigc图像的rgb值归一化到[0,1]区间;将预处理后的所有aigc图像对应的主观质量评价分数(主观mos值)映射到[0,1]区间;将映射后70%的数据样本划成训练集;20%划成测试集;10%化成验证集。

12、可选地,在上述基于文本图像编码器的aigc图像质量评价方法中,步骤s7包括:将训练集中的图像、对应的提示词依次输入到图像编码器模块、文本编码器模块中,分别提取图像特征和文本特征,特征融合模块的全局池化层输出特征向量,图像质量回归模块输出该aigc图像的质量评价分数。

13、可选地,在上述基于文本图像编码器的aigc图像质量评价方法中,步骤s7还包括设置优化器为adam,学习率lr设置为0.0001;设置平均绝对误差mae为损失函数,计算预测分值和真实分值的误差,得到损失值,通过反向传播,更新文本编码器和图像编码器模块的权重参数。

14、根据本专利技术的技术方案,产生的有益效果是:

15、本专利技术进行图像预处理时,对图像进行补丁重采样,以保留对原始图像质量的敏感性,即确保了网络模型能够提取到有效的图像特征,又确保网络模型的拥有良好的计算效率。

16、为了更好地理解和说明本专利技术的构思、工作原理和专利技术效果,下面结合附图,通过具体实施例,对本专利技术进行详细说明如下:

本文档来自技高网...

【技术保护点】

1.一种基于文本图像编码器的AIGC图像质量评价方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于文本图像编码器的AIGC图像质量评价方法,其特征在于,在步骤S1中,实验前需要对AIGC图像进行预处理,对图像进行补丁重采样,以保留对原始图像质量的敏感性,所述补丁重采样将图像切割成空间均匀的不重叠的网格,从每个网格中随机采样一个小补丁,然后将小补丁拼接在一起重组成新的图像。

3.根据权利要求1所述的基于文本图像编码器的AIGC图像质量评价方法,其特征在于,在步骤S2中,文本编码器采用自然语言处理(NLP)中常用的文本变换器模型。

4.根据权利要求1所述的基于文本图像编码器的AIGC图像质量评价方法,其特征在于,在步骤S3中,图像编码器采用卷积神经网络(CNN)或视觉变换器(VIT)。

5. 根据权利要求1所述的基于文本图像编码器的AIGC图像质量评价方法,其特征在于,在步骤S4中,所述特征融合模块由2个池化层、1个1*1卷积层 和1个拼接层构成,具体结构顺序为1*1卷积层→池化层→拼接层,以进行特征拼接。

6.根据权利要求1所述的基于文本图像编码器的AIGC图像质量评价方法,其特征在于,在步骤S5中,所述图像质量回归模块由2个线性层、2个激活函数、1个丢弃层构成,具体结构顺序为线性层1→激活函数1→丢弃层1→线性层2→激活函数2,其中线性层1的输入为4096,输出为128;丢弃层1概率为0.5;线性层2的输入为128,输出为1。

7.根据权利要求1所述的基于文本图像编码器的AIGC图像质量评价方法,其特征在于,在步骤S6中,首先构建数据集,每个数据样本包括一张AIGC图像,一份文本提示词,一个主观质量评价分数;将预处理后的所有AIGC图像的RGB值归一化到[0,1]区间;将预处理后的所有AIGC图像对应的主观质量分数映射到[0,1]区间;将映射后70%的数据样本划成训练集;20%划成测试集;10%化成验证集。

8.根据权利要求1所述的基于文本图像编码器的AIGC图像质量评价方法,其特征在于,步骤S7包括:将训练集中的图像、对应的提示词依次输入到所述图像编码器模块、所述文本编码器模块中,分别提取图像特征和文本特征,所述特征融合模块的全局池化层输出特征向量,所述图像质量回归模块输出该AIGC图像的质量评价分数。

9.根据权利要求1所述的基于文本图像编码器的AIGC图像质量评价方法,其特征在于,步骤S7还包括设置优化器为Adam,学习率lr设置为0.0001;设置平均绝对误差MAE为损失函数,计算预测分值和真实分值的误差,得到损失值,通过反向传播,更新所述文本编码器和所述图像编码器模块的权重参数。

...

【技术特征摘要】

1.一种基于文本图像编码器的aigc图像质量评价方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于文本图像编码器的aigc图像质量评价方法,其特征在于,在步骤s1中,实验前需要对aigc图像进行预处理,对图像进行补丁重采样,以保留对原始图像质量的敏感性,所述补丁重采样将图像切割成空间均匀的不重叠的网格,从每个网格中随机采样一个小补丁,然后将小补丁拼接在一起重组成新的图像。

3.根据权利要求1所述的基于文本图像编码器的aigc图像质量评价方法,其特征在于,在步骤s2中,文本编码器采用自然语言处理(nlp)中常用的文本变换器模型。

4.根据权利要求1所述的基于文本图像编码器的aigc图像质量评价方法,其特征在于,在步骤s3中,图像编码器采用卷积神经网络(cnn)或视觉变换器(vit)。

5. 根据权利要求1所述的基于文本图像编码器的aigc图像质量评价方法,其特征在于,在步骤s4中,所述特征融合模块由2个池化层、1个1*1卷积层 和1个拼接层构成,具体结构顺序为1*1卷积层→池化层→拼接层,以进行特征拼接。

6.根据权利要求1所述的基于文本图像编码器的aigc图像质量评价方法,其特征在于,在步骤s5中,所述图像质量回归模块由2个线性层、2个激活函数、1个丢弃层构成,具体结构顺序为线性...

【专利技术属性】
技术研发人员:胡焕强张世雄李若尘魏文应黎俊良
申请(专利权)人:广东博华超高清创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1