文本引导的单目标物体轨迹掩码视频生成方法及系统技术方案

技术编号：42692984 阅读：7 留言：0更新日期：2024-09-10 12:43

本发明专利技术公开了一种文本引导的单目标物体轨迹掩码视频生成方法及系统，包括：对视频数据样本进行标注并获取二值化轨迹掩码视频；对经过图像重建任务预训练的变分自编码器进行微调，使用微调后的变分自编码器将二值化轨迹掩码视频编码为隐空间特征序列，构建训练样本对；构建并训练基于Transformer编码器的单目标物体轨迹掩码扩散生成网络；利用训练好的扩散生成网络生成新的文本提示对应的目标物体二值化轨迹掩码视频。本发明专利技术能够有效地根据文本提示生成精确的目标物体轨迹掩码，为单目标可控轨迹的视频生成提供有效先验信息，提高生成视频中目标物体的运动一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉视频处理及生成领域，具体涉及一种文本引导的单目标物体轨迹掩码视频生成方法及系统。

技术介绍

1、随着人工智能技术的快速发展，特别是在自然语言处理和计算机视觉领域，将文本描述转换为视觉内容的技术正变得越来越重要。然而，现有的技术主要集中在文本到图像的生成上，而将文本描述转换为具有精确轨迹掩码的视频内容，尤其是在单目标物体的情境下，尚处于起步阶段，此外，现有的视频生成模型生成物体的三维一致性和运动一致性上有较大的局限性，生成视频中会出现物体的不规则形变、运动轨迹与物理规则相悖等等现象。

技术实现思路

1、本专利技术的目的在于针对现有技术的不足，提供一种文本引导的单目标物体轨迹掩码视频生成方法及系统，利用基于transformer编码器的单目标物体轨迹掩码扩散生成网络生成单目标运动轨迹掩码视频，为视频生成提供有效的轨迹掩码先验，以提高视频生成的语义一致性、三维一致性、运动一致性以及可控性。

2、本专利技术的目的是通过以下技术方案实现的：一种文本引导的单目标物体轨迹掩码视频生成方法，该方法包括：

3、对视频数据样本进行标注得到视频对应的文本提示，通过预训练文本编码器将文本提示编码为文本提示特征；对视频数据样本进行预处理得到二值化轨迹掩码视频；

4、对经过图像重建任务预训练的变分自编码器进行微调，使用微调后的变分自编码器将二值化轨迹掩码视频编码为隐空间特征序列，构建文本提示特征-隐空间特征序列的训练样本对；

5、构建基于transf

6、将新的文本提示编码为文本提示特征，并与从高斯噪声随机采样得到的隐空间特征序列共同输入训练好的扩散生成网络，使用微调后的变分自编码器将扩散生成网络的输出解码为新的文本提示对应的目标物体二值化轨迹掩码视频。

7、进一步地，所述对视频数据样本进行标注得到视频对应的文本提示，具体为：

8、从视频中选取含有目标物体的图像，使用大语言模型生成目标物体描述；

9、对大语言模型输出的目标物体描述进行人工修改和微调，并根据视频数据加入目标物体的动作轨迹文本描述。

10、进一步地，所述对视频数据样本进行预处理得到二值化轨迹掩码视频，具体为：

11、对视频数据进行清洗，将所有视频样本统一到同一分辨率并进行归一化，将像素值线性缩放到0～1内；

12、采用预训练视频语义分割模型提取归一化后的视频的语义信息，得到视频中每一帧每个像素点所属的语义类别标签，预设视频单目标物体的语义类别标签集合，根据像素点的语义类别标签是否属于预设视频单目标物体的语义类别标签集合，将归一化后的视频的像素值进行二值化，得到二值化轨迹掩码视频。

13、进一步地，所述对经过图像重建任务预训练的变分自编码器进行微调，具体为：

14、使用经过图像编解码重建任务预训练的变分自编码器进行网络参数初始化；

15、从二值化轨迹掩码视频中抽帧构建二值化掩码图像数据集，并使用该数据集对变分自编码器进行进一步训练，优化网络参数。

16、进一步地，所述扩散生成网络包括正向加噪过程和反向去噪过程；

17、所述正向加噪过程具体为：基于马尔可夫链在每个扩散时间步t∈[1,2,...,t]将符合正态分布的高斯噪声ε～n(0,i)注入数据样本xt，t为总步长，i为单位矩阵，根据预定义高斯噪声方差[β1,β2,...,βt]，每个扩散时间步t的转移概率函数为：根据马尔可夫链的性质，第t个扩散时间步的数据样本xt的分布由隐空间特征序列cimgs的初始数据样本x0的分布得到：其中，∈由符合正态分布的高斯噪声ε采样得到，∈～n(0,i)；

18、所述反向去噪过程具体为：从初始噪声分布中逐步去除噪声恢复数据其概率转移函数定义为：其中为方差，为均值，其中∈θ(xt,t)是通过基于transformer的噪声预测网络预测的噪声，θ为噪声预测网络的参数，隐空间特征序列cimgs的目标数据的分布由得到；

19、所述扩散生成网络的损失函数为

20、进一步地，所述扩散生成网络的训练过程具体为：

21、随机采样一个扩散时间步t，将干净的隐空间特征序列cimgs的初始数据样本x0通过公式加噪得到xt；

22、将扩散时间步t映射到高维连续向量空间，得到扩散时间步嵌入temb；

23、将xt、temb以及文本提示特征ctext一同输入噪声预测网络预测噪声∈θ(xt,t)，通过损失函数优化噪声预测网络的参数。

24、进一步地，所述基于transformer的噪声预测网络的架构为位置编码模块连接若干transformer编码模块；

25、所述位置编码模块的位置编码公式如下：

26、

27、其中，k为自然数，dmodel为隐空间特征序列cimgs的隐空间特征维度，g是隐空间特征在隐空间特征序列cimgs中的实际位置，是隐空间特征序列cimgs中第g个隐空间特征的位置向量，表示peg中的第i个元素；根据peg得到隐空间特征序列cimgs对应的位置编码信息pe；将噪声预测网络的输入cinput与pe相加，得到包含位置信息的隐空间特征序列cimgs-position；

28、每个transformer编码模块的具体架构如下：

29、第一层为交叉注意力层，通过交叉注意力机制将包含位置信息的隐空间特征序列cimgs-position和文本提示特征ctext进行特征融合得到融合特征序列ctext-fusion；

30、第二层为线性层，使用线性层将扩散时间步嵌入temb与融合特征序列ctext-fusion的维度对齐，并将经过线性层输出的特征与ctext-fusion相加得到新的融合特征序列cfusion-out；

31、第三层为残差连接层和归一化层，将隐空间特征序列cimgs-position和融合特征序列cfusion-out相加后进行归一化，得到归一化特征序列cres-norm；

32、第四层为前馈神经网络层，由两层线性层组成，输出前馈特征序列cfeedforward；

33、第五层为残差连接层和归一化层，将归一化特征序列cres-norm和前馈特征序列cfeedforward相加后进行归一化，得到该transformer编码模块的输出cout。

34、进一步地，将新的文本提示tnew编码为文本提示特征ctext_new，并与从高斯噪声随机采样得到的隐空间特征序列共同输入训练好的扩散生成网络，使用微调后的变分自编码器的解码模块vaedecoder将扩散生成网络的输出解码为新的文本提示tnew对应的目标物体二值化轨迹掩码视频

35、本专利技术还提供一种文本引导的单目标物体轨迹掩码视频生成系统，包括相互连接的微处理器和存储器，所述微处理器被本文档来自技高网...

【技术保护点】

1.一种文本引导的单目标物体轨迹掩码视频生成方法，其特征在于，包括：

2.根据权利要求1所述的文本引导的单目标物体轨迹掩码视频生成方法，其特征在于，所述对视频数据样本进行标注得到视频对应的文本提示，具体为：

3.根据权利要求1所述的文本引导的单目标物体轨迹掩码视频生成方法，其特征在于，所述对视频数据样本进行预处理得到二值化轨迹掩码视频，具体为：

4.根据权利要求1所述的文本引导的单目标物体轨迹掩码视频生成方法，其特征在于，所述对经过图像重建任务预训练的变分自编码器进行微调，具体为：

5.根据权利要求1所述的文本引导的单目标物体轨迹掩码视频生成方法，其特征在于，所述扩散生成网络包括正向加噪过程和反向去噪过程；

6.根据权利要求5所述的文本引导的单目标物体轨迹掩码视频生成方法，其特征在于，所述扩散生成网络的训练过程具体为：

7.根据权利要求5所述的文本引导的单目标物体轨迹掩码视频生成方法，其特征在于，所述基于Transformer的噪声预测网络的架构为位置编码模块连接若干Transformer编码模块；

<...

【技术特征摘要】

1.一种文本引导的单目标物体轨迹掩码视频生成方法，其特征在于，包括：

2.根据权利要求1所述的文本引导的单目标物体轨迹掩码视频生成方法，其特征在于，所述对视频数据样本进行标注得到视频对应的文本提示，具体为：

5.根据权利要求1所述的文本引导的单目标物体轨迹掩码视频生成方法，其特征在于，所述扩散生成网络包括正向加噪过程和反向去噪过程；

6.根据权利要求5所述的文本引导的单目标物体轨迹掩码视频生成方法，其特征在于，所述扩散生成网络的训练过程具体为：

7.根据权利要求5所述的文本引导的单目标物体轨迹掩码视频生成方法，其特征在于，所...

【专利技术属性】
技术研发人员：郭羿宏，邹常青，凌泽宇，赵志峰，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人