System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机,尤其涉及一种评分模型训练、对图文对评分的方法、装置、设备和介质。
技术介绍
1、在图像生成领域,可以利用图像描述(也可以称为文本提示即prompt),通过基于内容生成技术的图像生成模型,生成该图像描述对应的图像。上述过程中,图像生成模型的图像生成能力越强,所生成图像的质量越好。
2、在训练该图像生成模型的过程中,所利用的图文对的质量好坏,对提升图像生成模型的图像生成能力至关重要。相应的,为了提高图像生成模型的图像生成能力,可以利用质量好的图文对训练图像生成模型。那么,如何提供一种可以评估图文对的质量的方法成为亟待解决的问题。
技术实现思路
1、本公开一个或多个实施例提供了一种评分模型训练、对图文对评分的方法、装置、设备和介质,以实现训练得到可以对图文对的质量进行评估的评分模型,进而实现对图文对的质量的评估。
2、根据第一方面,提供一种评分模型训练方法,所述评分模型包括:第一语言编码器、图像编码器、第二语言编码器、多模态融合网络和打分网络,所述方法包括:
3、获取样本图文对,并获取所述样本图文对对应的标签数据,所述样本图文对包括,第一语言的第一图像描述,以及所述第一图像描述对应的样本图像和第二语言的第二图像描述;
4、利用所述第一图像描述,通过所述第一语言编码器,得到第一文本表征;
5、利用所述第二图像描述,通过所述第二语言编码器,得到第二文本表征;
6、利用所述样本图像,通过所述图像编码器,得
7、利用所述第一文本表征、所述第二文本表征和所述样本图像表征,通过所述多模态融合网络,得到第一多模态表征;
8、利用所述第一多模态表征,通过所述打分网络,得到预测分数;
9、利用所述预测分数和所述标签数据之间的差异,调整所述评分模型。
10、在一种可选实施方式中,所述获取样本图文对,包括:获取所述第一图像描述和所述样本图像;利用所述第一图像描述,通过第一语言模型,得到所述第二语言的所述第二图像描述;将所述第一图像描述、所述样本图像以及所述第二图像描述,作为所述样本图文对。本实现方式中,利用第一图像描述,通过第一语言模型,可以实现对第一图像描述进行语言类型的转换,以保证可以得到更准确的、与第一图像描述具有相同语义的第二语言的第二图像描述。
11、在一种可选实施方式中,所述获取样本图文对,包括:获取所述第二图像描述和所述样本图像;利用所述第二图像描述,通过第二语言模型,得到所述第一语言的所述第一图像描述;将所述第二图像描述、所述样本图像以及所述第一图像描述,作为所述样本图文对。本实现方式中,利用第二图像描述,通过第二语言模型,可以实现对第二图像描述进行语言类型的转换,以保证可以得到更准确的、与第二图像描述具有相同语义的第一语言的第一图像描述。
12、在一种可选实施方式中,所述得到第一多模态表征,包括:利用所述第一文本表征和所述样本图像表征,通过所述多模态融合网络,得到第一中间表征;利用所述第二文本表征和所述样本图像表征,通过所述多模态融合网络,得到第二中间表征;融合所述第一中间表征和所述第二中间表征,得到所述第一多模态表征。本实现方式中,利用第一文本表征和样本图像表征融合得到第一中间表征,利用第二文本表征和样本图像表征融合得到第二中间表征;进而融合第一中间表征和第二中间表征,得到第一多模态表征,以得到融合有图像表征,以及同语义的不同语言的图像描述的文本表征的第一多模态表征,使得该第一多模态表征可以更好、更准确的表征出图像和图像描述所组成的图文对的质量,进而使得评分模型利用第一多模态表征得到的预测分数准确性更高且更能体现人类反馈。
13、在一种可选实施方式中,所述打分网络包括:至少一个打分子网络,所述至少一个打分子网络包括:对应第一图文对质量维度的第一打分子网络;所述样本图像包括在所述第一图文对质量维度下的样本图像,所述标签数据包括,在所述第一图文对质量维度下的样本图像对应的标签值;所述得到预测分数,包括:利用所述第一多模态表征,通过所述第一打分子网络,得到第一预测子分数,将其归入所述预测分数;所述调整所述评分模型,包括:利用所述第一预测子分数和在所述第一图文对质量维度下的样本图像对应的标签值之间的差异,调整所述第一打分子网络。本实现方式中,评分模型包括至少一个打分子网络,其各自对应不同的图文对质量维度,利用在各个图文对质量维度下的样本图像及其对应的标签数据,可以训练得到对图文对进行细粒度的、不同维度的质量评估的评分模型,进而实现从不同图文对质量维度下对图文对的质量的评估。
14、根据第二方面,提供一种对图文对评分的方法,包括:
15、获取待评分的目标图文对,其中,所述目标图文对包括,第一语言的第三图像描述及所述第三图像描述对应的第二语言的第四图像描述和目标图像;
16、利用所述第三图像描述,通过目标评分模型的第一语言编码器,得到第三文本表征;
17、利用所述第四图像描述,通过所述目标评分模型的第二语言编码器,得到第四文本表征;
18、利用所述目标图像,通过所述目标评分模型的图像编码器,得到目标图像表征;
19、利用所述第三文本表征、所述第四文本表征和所述目标图像表征,通过所述目标评分模型的多模态融合网络,得到目标多模态表征;
20、利用所述目标多模态表征,通过所述目标评分模型的打分网络,得到目标分数。
21、在一种可选实施方式中,所述获取待评分的目标图文对,包括:获取所述第三图像描述和所述目标图像;利用所述第三图像描述,通过第一语言模型,得到所述第二语言的所述第四图像描述,以得到所述目标图文对。通过第一语言模型保证所得到的第四图像描述更准确,且与第三图像描述的真实语义更贴合,即得到与第三图像描述具有相同语义的第四图像描述。
22、在一种可选实施方式中,所述获取待评分的目标图文对,包括:获取所述第四图像描述和所述目标图像;利用所述第四图像描述,通过第二语言模型,得到所述第一语言的所述第三图像描述,以得到所述目标图文对。通过第二语言模型保证所得到的第三图像描述更准确,且与第四图像描述的真实语义更贴合,即得到与第四图像描述具有相同语义的第三图像描述。
23、在一种可选实施方式中,所述得到目标多模态表征,包括:利用所述第三文本表征和所述目标图像表征,通过所述目标评分模型的多模态融合网络,得到第三中间表征;利用所述第四文本表征和所述目标图像表征,通过所述目标评分模型的多模态融合网络,得到第四中间表征;融合所述第三中间表征和所述第四中间表征,得到所述目标多模态表征,以得到融合有目标图像表征,以及同语义的不同语言的图像描述的文本表征的目标多模态表征,使得该目标多模态表征可以更好、更准确的表征出图像和图像描述所组成的图文对的质量,进而使得评分模型利用目标多模态表征得到的分数准确性更高且更能体现人类反馈。
24、在一种可选实本文档来自技高网...
【技术保护点】
1.一种评分模型训练方法,所述评分模型包括:第一语言编码器、图像编码器、第二语言编码器、多模态融合网络和打分网络,所述方法包括:
2.如权利要求1所述的方法,所述获取样本图文对,包括:
3.如权利要求1所述的方法,所述获取样本图文对,包括:
4.如权利要求1所述的方法,其中,所述得到第一多模态表征,包括:
5.如权利要求1所述的方法,其中,所述打分网络包括:至少一个打分子网络,所述至少一个打分子网络包括:对应第一图文对质量维度的第一打分子网络;所述样本图像包括在所述第一图文对质量维度下的样本图像,所述标签数据包括,在所述第一图文对质量维度下的样本图像对应的标签值;
6.一种对图文对评分的方法,包括:
7.如权利要求6所述的方法,所述获取待评分的目标图文对,包括:
8.如权利要求6所述的方法,所述获取待评分的目标图文对,包括:
9.如权利要求6所述的方法,其中,所述得到目标多模态表征,包括:
10.如权利要求6所述的方法,其中,所述目标评分模型的打分网络包括:至少一个打分子网
11.如权利要求7-10任一项所述的方法,其中,所述目标评分模型为基于权利要求1-5任一项所述的评分模型训练方法训练所得的评分模型。
12.一种评分模型训练装置,所述评分模型包括:第一语言编码器、图像编码器、第二语言编码器、多模态融合网络和打分网络,所述装置包括:
13.一种对图文对评分的装置,包括:
14.一种电子设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-11中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-11中任一项所述的方法。
...【技术特征摘要】
1.一种评分模型训练方法,所述评分模型包括:第一语言编码器、图像编码器、第二语言编码器、多模态融合网络和打分网络,所述方法包括:
2.如权利要求1所述的方法,所述获取样本图文对,包括:
3.如权利要求1所述的方法,所述获取样本图文对,包括:
4.如权利要求1所述的方法,其中,所述得到第一多模态表征,包括:
5.如权利要求1所述的方法,其中,所述打分网络包括:至少一个打分子网络,所述至少一个打分子网络包括:对应第一图文对质量维度的第一打分子网络;所述样本图像包括在所述第一图文对质量维度下的样本图像,所述标签数据包括,在所述第一图文对质量维度下的样本图像对应的标签值;
6.一种对图文对评分的方法,包括:
7.如权利要求6所述的方法,所述获取待评分的目标图文对,包括:
8.如权利要求6所述的方法,所述获取待评分的目标图文对,包括:
9.如权利要求...
【专利技术属性】
技术研发人员:吴捷,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。