模型生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:35267681 阅读:14 留言:0更新日期:2022-10-19 10:32
本申请涉及一种模型生成方法、装置、计算机设备和存储介质。所述方法包括:将获取到的样本特征集合作为输入参数输入至待训练模型中,输出参数为各个待训练特征对应的语义向量,即待训练模型用于基于各个待训练特征之间的关联度确定各个待训练特征对应的语义向量;由于每个语义向量都融合了其他模态的特征信息,因此利用各个语义向量之间的比对结果对待训练模型进行学习训练,用于收敛待训练模型,生成可理解多种模态数据的多模态预训练模型。生成可理解多种模态数据的多模态预训练模型。生成可理解多种模态数据的多模态预训练模型。

【技术实现步骤摘要】
模型生成方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,尤其涉及一种模型生成方法、装置、计算机设备和存储介质。

技术介绍

[0002]数据信息有多种模态,例如图像、文本、视频、音频等;由于不同类型的算法和领域、原理、适用范围等存在很大的差别,传统模型大部分是单独的处理其中一种模态的数据。但是现实中很多数据是同时以两种以上模态的方式存在,利用传统模型将会导致模态数据的丢失,丢失任何一种模态数据,都可能会导致对两种以及多种模态的数据理解出现偏差。

技术实现思路

[0003]为了解决上述技术问题,本申请提供了一种模型生成方法、装置、计算机设备和存储介质。
[0004]第一方面,本申请提供了一种模型生成方法,包括:
[0005]获取样本特征集合,其中,所述样本特征集合包括多个不同模态对应的待训练特征,所述模态包括视频模态、音频模态和文本模态;
[0006]将各个所述待训练特征作为输入参数输入至待训练模型中,输出各个所述待训练特征对应的语义向量,其中,所述待训练模型用于基于各个所述待训练特征之间的关联度,确定各个所述待训练特征对应的语义向量;
[0007]基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练,生成多模态预训练模型。
[0008]第二方面,本申请提供了一种模型生成装置,包括:
[0009]获取模块,用于获取样本特征集合,其中,所述样本特征集合包括多个不同模态对应的待训练特征,所述模态包括视频模态、音频模态和文本模态;
[0010]确定模块,用于将各个所述待训练特征作为输入参数输入至待训练模型中,输出各个所述待训练特征对应的语义向量,其中,所述待训练模型用于基于各个所述待训练特征之间的关联度,确定各个所述待训练特征对应的语义向量;
[0011]训练模块,用于基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练,生成多模态预训练模型。
[0012]第三方面,本申请提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0013]获取样本特征集合,其中,所述样本特征集合包括多个不同模态对应的待训练特征,所述模态包括视频模态、音频模态和文本模态;
[0014]将各个所述待训练特征作为输入参数输入至待训练模型中,输出各个所述待训练特征对应的语义向量,其中,所述待训练模型用于基于各个所述待训练特征之间的关联度,
确定各个所述待训练特征对应的语义向量;
[0015]基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练,生成多模态预训练模型。
[0016]第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0017]获取样本特征集合,其中,所述样本特征集合包括多个不同模态对应的待训练特征,所述模态包括视频模态、音频模态和文本模态;
[0018]将各个所述待训练特征作为输入参数输入至待训练模型中,输出各个所述待训练特征对应的语义向量,其中,所述待训练模型用于基于各个所述待训练特征之间的关联度,确定各个所述待训练特征对应的语义向量;
[0019]基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练,生成多模态预训练模型。
[0020]上述模型生成方法应用于深度学习
用于优化计算机视觉技术,基于上述模型生成方法将获取到的样本特征集合作为输入参数输入至待训练模型中,输出参数为各个待训练特征对应的语义向量,即待训练模型用于基于各个待训练特征之间的关联度确定各个待训练特征对应的语义向量;由于每个语义向量都融合了其他模态的特征信息,因此利用各个语义向量之间的比对结果对待训练模型进行学习训练,用于收敛待训练模型,生成可理解多种模态数据的多模态预训练模型。
附图说明
[0021]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0022]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为一个实施例中模型生成方法的流程示意图;
[0024]图2为一个实施例中模型生成方法的流程示意图;
[0025]图3为一个实施例中模型生成装置的结构框图;
[0026]图4为一个实施例中计算机设备的内部结构图。
具体实施方式
[0027]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0028]在一个实施例中,图1为一个实施例中一种模型生成方法的流程示意图,参照图1,提供了一种模型生成方法。本实施例主要以该方法应用于服务器来举例说明,该模型生成方法具体包括如下步骤:
[0029]步骤S210,获取样本特征集合。
[0030]其中,所述样本特征集合包括多个不同模态对应的待训练特征,所述模态包括视频模态、音频模态和文本模态。
[0031]具体的,模态用于指示不同来源和形式的信息,正如我们有视觉、听觉、嗅觉和触觉等,那么我们接触的信息就有视频、图像、文字、语音、味道、软硬度等,这每一种信息的形式就可以称作一种模态。待训练特征指示从不同形式信息中提取出的特征,可以为视频特征、音频特征、文本特征等等。
[0032]步骤S220,将各个所述待训练特征作为输入参数输入至待训练模型中,输出各个所述待训练特征对应的语义向量。
[0033]其中,所述待训练模型用于基于各个所述待训练特征之间的关联度,确定各个所述待训练特征对应的语义向量。
[0034]具体的,待训练模型为未经过深度学习的神经网络模型,具体可以为Cross

Stream类模型和Single

Stream类模型,Cross

Stream类模型是指将不同模态的输入特征分别处理之后再进行交叉融合,而Single

Stream类模型将不同模态的输入特征一视同仁,在同一个模型进行融合。在本实施例中采用Cross

Stream类模型中的Cross

Attention模型作为待训练模型,即各个待训练特征在输入待训练模型之前均经过提前处理的。
[0035]待训练模型对各个待训练特征进行交叉融合进行信息交互,以确定各个待训练特征之间的关联度,各个待训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型生成方法,其特征在于,所述方法包括:获取样本特征集合,其中,所述样本特征集合包括多个不同模态对应的待训练特征,所述模态包括视频模态、音频模态和文本模态;将各个所述待训练特征作为输入参数输入至待训练模型中,输出各个所述待训练特征对应的语义向量,其中,所述待训练模型用于基于各个所述待训练特征之间的关联度,确定各个所述待训练特征对应的语义向量;基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练,生成多模态预训练模型。2.根据权利要求1所述的方法,其特征在于,所述待训练特征包括视频特征、音频特征和文本特征,所述获取样本特征集合,包括:获取多个视频数据流,其中,每个所述视频数据流包括视频序列和音频序列;对各个所述视频序列进行特征提取处理,得到相应视频模态对应的所述视频特征;对各个所述音频序列进行特征提取处理,得到相应音频模态对应的所述音频特征;基于各个所述音频序列确定相应文本模态对应的所述文本特征。3.根据权利要求2所述的方法,其特征在于,所述对各个所述视频序列进行特征提取处理,得到相应视频模态对应的所述视频特征,包括:对所述视频序列进行抽帧处理,得到相应的抽帧序列;对所述抽帧序列进行特征提取处理,得到相应的第一特征序列;对所述第一特征序列进行维度转换处理,得到预设维度的所述视频特征。4.根据权利要求2所述的方法,其特征在于,所述对各个所述音频序列进行特征提取处理,得到相应音频模态对应的所述音频特征,包括:对所述音频序列进行特征提取处理,得到相应的第二特征;对所述第二特征进行维度转换处理,得到预设维度的所述音频特征。5.根据权利要求2所述的方法,其特征在于,所述基于各个所述音频序列确定相应文本模态对应的所述文本特征,包括:对所述音频序列进行语音识别处理,得到相应的文本序列;对所述文本序列进行维度转换处理,得到预设维度的所述文本特征。6.根据权利要求1所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:胡郡郡唐大闰
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1