特征生成方法技术

技术编号:39401533 阅读:7 留言:0更新日期:2023-11-19 15:54
本说明书实施例提供特征生成方法,其中所述特征生成方法包括:确定图文样本对,其中,所述图文样本对包括图像样本以及所述图像样本对应的文本样本;确定所述图像样本的初始图像特征,以及所述文本样本的初始文本特征;将所述初始图像特征和至少两个随机第一特征输入第一特征生成器,获得至少两个目标文本特征,其中,所述第一特征生成器基于第一图文特征对训练得到;将所述初始文本特征和至少两个随机第二特征输入第二特征生成器,获得至少两个目标图像特征,其中,所述第二特征生成器基于第二图文特征对训练得到

【技术实现步骤摘要】
特征生成方法


[0001]本说明书实施例涉及计算机
,特别涉及特征生成方法


技术介绍

[0002]图文数据处理模型作为一种多模态模型,可以用于处理多种不同类型的数据,比如文本

图像等

模态可以理解为不同的数据表示方式,比如文本和图像即为不同的模态

多模态模型可以将一种模态的输入转换为另一种模态的输出,能够应用于图像分类

图像检测分割

图文检索及图像生成等下游任务

[0003]然而,目前的多模态模型的训练样本
(
即图像样本和文本样本
)
虽然数量较多,但是数据杂乱且没有组织结构,大部分数据都描述相同的语义内容,且难以获得模型训练需要的大量有效样本覆盖不同的语义内容,多样性不足,导致对多模态模型进行训练时,训练效率较差,训练出的多模态模型的性能也较差


技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种特征生成方法

本说明书一个或者多个实施例同时涉及一种特征生成装置,一种图文数据处理模型的训练方法,一种图文数据处理模型的训练装置,一种图文数据处理方法,一种图文数据处理装置,一种文本处理方法,一种文本处理装置,一种
VR/AR
设备,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷

[0005]根据本说明书实施例的第一方面,提供了一种特征生成方法,包括:
[0006]确定图文样本对,其中,所述图文样本对包括图像样本以及所述图像样本对应的文本样本;
[0007]确定所述图像样本的初始图像特征,以及所述文本样本的初始文本特征;
[0008]将所述初始图像特征和至少两个随机第一特征输入第一特征生成器,获得至少两个目标文本特征,其中,所述第一特征生成器基于第一图文特征对训练得到;
[0009]将所述初始文本特征和至少两个随机第二特征输入第二特征生成器,获得至少两个目标图像特征,其中,所述第二特征生成器基于第二图文特征对训练得到

[0010]根据本说明书实施例的第二方面,提供了一种特征生成装置,包括:
[0011]第一确定模块,被配置为确定图文样本对,其中,所述图文样本对包括图像样本以及所述图像样本对应的文本样本;
[0012]第二确定模块,被配置为确定所述图像样本的初始图像特征,以及所述文本样本的初始文本特征;
[0013]第一输入模块,被配置为将所述初始图像特征和至少两个随机第一特征输入第一特征生成器,获得至少两个目标文本特征,其中,所述第一特征生成器基于第一图文特征对训练得到;
[0014]第二输入模块,被配置为将所述初始文本特征和至少两个随机第二特征输入第二
特征生成器,获得至少两个目标图像特征,其中,所述第二特征生成器基于第二图文特征对训练得到

[0015]根据本说明书实施例的第三方面,提供了一种图文数据处理模型的训练方法,包括:
[0016]确定图文样本对,其中,所述图文样本对包括图像样本以及所述图像样本对应的文本样本;
[0017]确定所述图像样本的初始图像特征,以及所述文本样本的初始文本特征;
[0018]将所述图像样本和所述文本样本输入图文数据处理模型,获得预测图像特征和预测文本特征;
[0019]将所述初始图像特征和至少两个随机第一特征输入第一特征生成器,获得至少两个目标文本特征,其中,所述第一特征生成器基于第一图文特征对训练得到;
[0020]将所述初始文本特征和至少两个随机第二特征输入第二特征生成器,获得至少两个目标图像特征,其中,所述第二特征生成器基于第二图文特征对训练得到;
[0021]根据所述预测图像特征

所述至少两个目标图像特征

所述预测文本特征和所述至少两个目标文本特征,对所述图文数据处理模型进行训练,直至获得满足训练停止条件的图文数据处理模型

[0022]根据本说明书实施例的第四方面,提供了一种图文数据处理模型的训练装置,包括:
[0023]第一确定模块,被配置为确定图文样本对,其中,所述图文样本对包括图像样本以及所述图像样本对应的文本样本;
[0024]第二确定模块,被配置为确定所述图像样本的初始图像特征,以及所述文本样本的初始文本特征;
[0025]第三确定模块,被配置为将所述图像样本和所述文本样本输入图文数据处理模型,获得预测图像特征和预测文本特征;
[0026]第一输入模块,被配置为将所述初始图像特征和至少两个随机第一特征输入第一特征生成器,获得至少两个目标文本特征,其中,所述第一特征生成器基于第一图文特征对训练得到;
[0027]第二输入模块,被配置为将所述初始文本特征和至少两个随机第二特征输入第二特征生成器,获得至少两个目标图像特征,其中,所述第二特征生成器基于第二图文特征对训练得到;
[0028]训练模块,被配置为根据所述预测图像特征

所述至少两个目标图像特征

所述预测文本特征和所述至少两个目标文本特征,对所述图文数据处理模型进行训练,直至获得满足训练停止条件的图文数据处理模型

[0029]根据本说明书实施例的第五方面,提供了一种图文数据处理方法,包括:
[0030]确定待处理图文数据;
[0031]将所述待处理图文数据输入图文数据处理模型,获得所述待处理图文数据对应的图文特征,其中,所述图文数据处理模型为本说明书实施例提供的图文数据处理模型的训练方法所述的满足训练停止条件的图文数据处理模型;
[0032]根据所述图文特征,确定所述待处理图文数据对应的图文数据处理结果

[0033]根据本说明书实施例的第六方面,提供了一种图文数据处理装置,包括:
[0034]第一确定模块,被配置为确定待处理图文数据;
[0035]输入模块,被配置为将所述待处理图文数据输入图文数据处理模型,获得所述待处理图文数据对应的图文特征,其中,所述图文数据处理模型为本说明书实施例提供的图文数据处理模型的训练方法所述的满足训练停止条件的图文数据处理模型;
[0036]第二确定模块,被配置为根据所述图文特征,确定所述待处理图文数据对应的图文数据处理结果

[0037]根据本说明书实施例的第七方面,提供了一种文本处理方法,应用于云侧设备,包括:
[0038]接收端侧设备发送的文本处理请求,其中,所述文本处理请求携带有待处理文本;
[0039]将所述待处理文本输入图文数据处理模型,获得所述待处理文本对应的文本特征,其中,所述图文数据处理模型为本说明书实施例提供的图文数据处理模型的训练方法所述的满足训练停止条件的图文数据处理模型;...

【技术保护点】

【技术特征摘要】
1.
一种特征生成方法,包括:确定图文样本对,其中,所述图文样本对包括图像样本以及所述图像样本对应的文本样本;确定所述图像样本的初始图像特征,以及所述文本样本的初始文本特征;将所述初始图像特征和至少两个随机第一特征输入第一特征生成器,获得至少两个目标文本特征,其中,所述第一特征生成器基于第一图文特征对训练得到;将所述初始文本特征和至少两个随机第二特征输入第二特征生成器,获得至少两个目标图像特征,其中,所述第二特征生成器基于第二图文特征对训练得到
。2.
根据权利要求1所述的方法,所述将所述初始图像特征和至少两个随机第一特征输入第一特征生成器,获得至少两个目标文本特征,包括:将所述初始图像特征作为调整条件

将至少两个随机第一特征作为待调整对象,输入第一特征生成器,其中,所述第一特征生成器为扩散模型;在所述第一特征生成器中,根据所述初始图像特征,对所述至少两个随机第一特征进行调整,获得至少两个目标文本特征
。3.
根据权利要求1所述的方法,所述将所述初始文本特征和至少两个随机第二特征输入第二特征生成器,获得至少两个目标图像特征,包括:将所述初始文本特征作为调整条件

将至少两个随机第二特征作为待调整对象,输入第二特征生成器,其中,所述第二特征生成器为扩散模型;在所述第二特征生成器中,根据所述初始文本特征,对所述至少两个随机第二特征进行调整,获得至少两个目标图像特征
。4.
根据权利要求1所述的方法,所述获得至少两个目标图像特征之后,还包括:将所述图像样本输入图文数据处理模型,获得预测图像特征;根据所述预测图像特征和所述至少两个目标图像特征,对所述图文数据处理模型进行训练,直至获得满足训练停止条件的图文数据处理模型
。5.
根据权利要求4所述的方法,所述根据所述预测图像特征和所述至少两个目标图像特征,对所述图文数据处理模型进行训练,直至获得满足训练停止条件的图文数据处理模型,包括:根据所述预测图像特征和所述至少两个目标图像特征中的各个目标图像特征,计算至少两个第一模型损失值;根据所述至少两个第一模型损失值,确定第一目标模型损失值;根据所述第一目标模型损失值,对所述图文数据处理模型进行训练,直至获得满足训练停止条件的图文数据处理模型
。6.
根据权利要求4所述的方法,所述获得至少两个目标文本特征之后,还包括:将所述文本样本输入图文数据处理模型,获得预测文本特征;根据所述预测文本特征和所述至少两个目标文本特征,对所述图文数据处理模型进行训练,直至获得满足训练停止条件的图文数据处理模型
。7.
根据权利要求6所述的方法,所述根据所述预测文本特征和所述至少两个目标文本特征,对所述图文数据处理模型进行训练,直至获得满足训练停止条件的图文数据处理模型,包括:
根据所述预测文本特征和所述至少两个目标文本特征中的各个目标文本特征,计算至少两个第二模型损失值;根据所述至少两个第二模型损失值,确定第二目标模型损失值;根据所述第二目标模型损失值,对所述图文数据处理模型进行训练,直至获得满足训练停止条件的图文数据处理模型
。8.
根据权利要求1所述的方法...

【专利技术属性】
技术研发人员:赵黎明郑赟赵德丽
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1