全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统技术方案

技术编号：42107625 阅读：15 留言：0更新日期：2024-07-25 00:31

本发明专利技术提供了全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统，所述训练方法包括：S1、将K种模态数据生成K个N×D的特征向量；S2、将K个N×D的特征向量按照模态分量D拼接为：N×KD的全模态向量Z<subgt;e</subgt;；S3、随机初始化一个S×KD的全模态词表，S4、将N×KD的全模态向量Z<subgt;e</subgt;中每个1×KD的第一向量z<subgt;ei</subgt;，替换为与全模态词表C的S个第二向量中欧式距离最近的第二向量，得到N×KD的全模态词表向量Z<subgt;q</subgt;；S5、构建全模态解编码器，将N×KD的全模态词表向量Z<subgt;q</subgt;输入全模态解编码器解码，对全模态解编码器进行训练，输出重构的N×KD的新全模态向量。本发明专利技术能够更好地理解和处理多种复杂模态信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统。

技术介绍

1、现有的模态词元化（tokenization）方案将单种模态（如图像、文本）经过特征编码器得到特征向量后，每一个通道维度的向量通过与离散词表中每个词元（token）对应的向量计算欧式距离来寻找与连续向量最接近的离散单词，并使用离散词元（token）序列作为新的特征向量送入解码器，解码器以重构原始连续特征向量为训练目标，训练时同时优化解码器与词表。最终得到了可用的单模态词表，其中每一个token表示原始连续特征空间中的一个区域或模式。

2、现有方单模态词元化（tokenization）方案将连续的、高维的单模态数据转换成离散的词元（token）表示，从而实现高效的存储和传输。但是现有方法存在如下缺点：在同一时刻可能同时存在多个模态（如，声音、文字、图像...）的情形下，无法处理多模态并行的情况（如，同一时刻有声音、文字、图像...等多个模态输入），不符合现实情况。

技术实现思路

1、本专利技术提供了一种全模态词表向量及全模态解编码器的训练方法、视频生成方法及系统，以解决单模态词元化方案无法处理多模态并行的情况的技术问题。

2、本专利技术的一个方面在于提供一种全模态词表向量及全模态解编码器的训练方法，所述训练方法包括如下方法步骤：

3、s1、获取 k种模态数据，将 k种模态数据输入到各

4、其中， k表示模态的数目； n表示时间维度； d表示模态分量；

5、s2、将 k个 n× d的特征向量按照模态分量 d拼接为： n× kd的全模态向量 z e；

6、其中， n× kd的全模态向量 z e包括 n个1× kd的第一向量z ei；

7、s3、随机初始化一个 s× kd的全模态词表，其中，全模态词表 c包括 s个第二向量，，表示全模态词表 c中第 i个第二向量；

8、s4、将 n× kd的全模态向量 z e中每个1× kd的第一向量z ei，替换为与全模态词表 c的 s个第二向量中欧式距离最近的第二向量，得到 n× kd的全模态词表向量 z q；

9、其中， n× kd的全模态词表向量 z q包括 n个1× kd的第三向量z qi；

10、s5、构建全模态解编码器，其中，全模态解编码器的输入和输出均为 n× kd的向量；

11、将步骤s4得到的 n× kd的全模态词表向量 z q输入全模态解编码器解码，对全模态解编码器进行训练，输出重构的 n× kd的新全模态向量。

12、在一个优选的实施例中，在步骤s4中，通过如下方法计算得到 n× kd的全模态词表向量 z q：

13、；

14、其中， z q表示 n× kd的全模态词表向量，表示二范数函数；z ei表示 n× kd的全模态向量 z e中第 i个1× kd的第一向量； c表示全模态词表；表示全模态词表 c中第 i个第二向量； k表示模态的数目； n表示时间维度； d表示模态分量。

15、在一个优选的实施例中，所述训练方法还包括如下方法步骤：

16、s6、使用均方差损失函数优化重构的 n× kd的新全模态矩阵：

17、；

18、其中， loss表示均方差损失函数；表示二范数函数； z e表示 n× kd的全模态矩阵；表示重构的 n× kd的新全模态矩阵。

19、本专利技术的另一个方面在于提供一种视频生成方法，所述视频生成方法包括如下方法步骤：

20、step1、采集大量视频数据，获取视频数据中的文本、图像和音频三种模态数据；

21本文档来自技高网...

【技术保护点】

1.一种全模态词表向量及全模态解编码器的训练方法，其特征在于，所述训练方法包括如下方法步骤：

2.根据权利要求1所述的训练方法，其特征在于，在步骤S4中，通过如下方法计算得到N×KD的全模态词表向量Zq：

3.根据权利要求1所述的训练方法，其特征在于，所述训练方法还包括如下方法步骤：

4.一种视频生成方法，其特征在于，所述视频生成方法包括如下方法步骤：

5.根据权利要求4所述的视频生成方法，其特征在于，在步骤Step6中，M×3D的全模态生成向量中的三个模态分量D分别进行后处理至少包括：音轨拼接、添加字幕。

6.一种视频生成系统，其特征在于，所述视频生成系统包括：视频数据采集模块，用于采集大量视频数据，获取视频数据中的文本、图像和音频三种模态数据；

7.根据权利要求6所述的视频生成系统，其特征在于，所述视频生成模块，将M×3D的全模态生成向量中的三个模态分量D分别进行后处理至少包括：音轨拼接、添加字幕。

【技术特征摘要】

1.一种全模态词表向量及全模态解编码器的训练方法，其特征在于，所述训练方法包括如下方法步骤：

2.根据权利要求1所述的训练方法，其特征在于，在步骤s4中，通过如下方法计算得到n×kd的全模态词表向量zq：

3.根据权利要求1所述的训练方法，其特征在于，所述训练方法还包括如下方法步骤：

4.一种视频生成方法，其特征在于，所述视频生成方法包括如下方法步骤：

5.根据权利要求4所述的视频生成方法，其...

【专利技术属性】
技术研发人员：李骋远，杨华，
申请(专利权)人：上海岩芯数智人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人