模型生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：35267681 阅读：14 留言：0更新日期：2022-10-19 10:32

本申请涉及一种模型生成方法、装置、计算机设备和存储介质。所述方法包括：将获取到的样本特征集合作为输入参数输入至待训练模型中，输出参数为各个待训练特征对应的语义向量，即待训练模型用于基于各个待训练特征之间的关联度确定各个待训练特征对应的语义向量；由于每个语义向量都融合了其他模态的特征信息，因此利用各个语义向量之间的比对结果对待训练模型进行学习训练，用于收敛待训练模型，生成可理解多种模态数据的多模态预训练模型。生成可理解多种模态数据的多模态预训练模型。生成可理解多种模态数据的多模态预训练模型。

全部详细技术资料下载

【技术实现步骤摘要】
模型生成方法、装置、计算机设备和存储介质

[0001]本申请涉及计算机
，尤其涉及一种模型生成方法、装置、计算机设备和存储介质。

技术介绍

[0002]数据信息有多种模态，例如图像、文本、视频、音频等；由于不同类型的算法和领域、原理、适用范围等存在很大的差别，传统模型大部分是单独的处理其中一种模态的数据。但是现实中很多数据是同时以两种以上模态的方式存在，利用传统模型将会导致模态数据的丢失，丢失任何一种模态数据，都可能会导致对两种以及多种模态的数据理解出现偏差。

技术实现思路

[0003]为了解决上述技术问题，本申请提供了一种模型生成方法、装置、计算机设备和存储介质。
[0004]第一方面，本申请提供了一种模型生成方法，包括：
[0005]获取样本特征集合，其中，所述样本特征集合包括多个不同模态对应的待训练特征，所述模态包括视频模态、音频模态和文本模态；
[0006]将各个所述待训练特征作为输入参数输入至待训练模型中，输出各个所述待训练特征对应的语义向量，其中，所述待训练模型用于基于各个所述待训练特征之间的关联度，确定各个所述待训练特征对应的语义向量；
[0007]基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练，生成多模态预训练模型。
[0008]第二方面，本申请提供了一种模型生成装置，包括：
[0009]获取模块，用于获取样本特征集合，其中，所述样本特征集合包括多个不同模态对应的待训练特征，所述模态包括视频模态、音频模态和文本模态；...

【技术保护点】

【技术特征摘要】
1.一种模型生成方法，其特征在于，所述方法包括：获取样本特征集合，其中，所述样本特征集合包括多个不同模态对应的待训练特征，所述模态包括视频模态、音频模态和文本模态；将各个所述待训练特征作为输入参数输入至待训练模型中，输出各个所述待训练特征对应的语义向量，其中，所述待训练模型用于基于各个所述待训练特征之间的关联度，确定各个所述待训练特征对应的语义向量；基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练，生成多模态预训练模型。2.根据权利要求1所述的方法，其特征在于，所述待训练特征包括视频特征、音频特征和文本特征，所述获取样本特征集合，包括：获取多个视频数据流，其中，每个所述视频数据流包括视频序列和音频序列；对各个所述视频序列进行特征提取处理，得到相应视频模态对应的所述视频特征；对各个所述音频序列进行特征提取处理，得到相应音频模态对应的所述音频特征；基于各个所述音频序列确定相应文本模态对应的所述文本特征。3.根据权利要求2所述的方法，其特征在于，所述对各个所述视频序列进行特征提取处理，得到相应视频模态对应的所述视频特征，包括：对所述视频序列进行抽帧处理，得到相应的抽帧序列；对所述抽帧序列进行特征提取处理，得到相应的第一特征序列；对所述第一特征序列进行维度转换处理，得到预设维度的所述视频特征。4.根据权利要求2所述的方法，其特征在于，所述对各个所述音频序列进行特征提取处理，得到相应音频模态对应的所述音频特征，包括：对所述音频序列进行特征提取处理，得到相应的第二特征；对所述第二特征进行维度转换处理，得到预设维度的所述音频特征。5.根据权利要求2所述的方法，其特征在于，所述基于各个所述音频序列确定相应文本模态对应的所述文本特征，包括：对所述音频序列进行语音识别处理，得到相应的文本序列；对所述文本序列进行维度转换处理，得到预设维度的所述文本特征。6.根据权利要求1所述的方法，其特征在于，所...

【专利技术属性】
技术研发人员：胡郡郡，唐大闰，
申请(专利权)人：北京明略昭辉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人