基于扩散模型的潜在空间人体运动生成方法技术

技术编号：43779564 阅读：19 留言：0更新日期：2024-12-24 16:16

本发明专利技术提供了基于扩散模型的潜在空间人体运动生成方法，包括：步骤一：将选择的文本提示条件编码为文本向量；步骤二：将文本提示条件所生成的各交叉注意力图进行加权平均，生成目标交叉注意力图；步骤三：将文本向量和随机的高斯噪声输入预先训练的运动变分自编码器，得到初始人体运动序列；步骤四：在潜在空间的维度上对初始人体运动序列进行扩散去噪操作，计算目标运动序列与实际运动序列的KL散度损失以及目标交叉注意力图与实际交叉注意力图的均方误差；步骤五：通过KL散度损失以及均方误差，在去噪步骤中逐步更新预测的噪声，来最小化总损失，生成最终的人体运动序列。本发明专利技术可减少运算开销，而且能够生成符合输入条件的人体动作序列。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉中的人体动作生成，具体而言，涉及基于扩散模型的潜在空间人体运动生成方法。

技术介绍

1、由于自然语言描述的语义丰富性和用户友好的性质，文本驱动的人体运动生成最近已成为一个新兴的研究重点。

2、然而，由于文本数据和运动数据这两种数据模式之间的分布有很大的不同，从文本描述中推导出人体运动是一项有挑战性的任务。为了应对这一挑战，一些现有的工作通过运用自动编码器进行运动合成，并致力于在共享嵌入空间中对齐跨模态信息，然后通过kl散度损失将文本编码器和运动编码器约束到兼容的潜在空间中，这推动了通过自然语言输入创建人体运动序列的基本步骤。但是，由于文本描述与运动序列的分布具有很大的差异，强制将这两个的高斯分布进行对齐容易造成错位。

3、另一方面，受扩散模型在跨模态图像合成中成功尝试的启发，一些开创性的工作利用扩散模型进行文本到动作的合成，显著提升了生成结果的保真度和跨模态一致性。但是，这些工作在原始运动序列数据上进行扩散，不止会引入时间轴上的冗余信息，造成低效率的问题，而且强大的扩散模型可能会学习到运动捕捉的原始数据中的噪声，造成伪影，使得生成的人体动作与文本提示条件并不能保持很好的一致性。

4、可见，如何在减少运算开销的情况下，生成更加符合输入文本提示条件的人体动作，是目前需要进一步改进的技术问题。

技术实现思路

1、为解决上述技术问题，本专利技术提供了一种基于扩散模型的潜在空间人体运动生成方法，所述方法包括如下步骤：步骤一：选择要进

2、步骤二：提取所述文本提示条件所生成的各交叉注意力图，将各所述交叉注意力图进行加权平均，以生成目标交叉注意力图。

3、步骤三：将所述文本向量和随机的高斯噪声输入预先训练的运动变分自编码器中，通过所述运动变分自编码器得到初始人体运动序列。

4、步骤四：在潜在空间的维度上对所述初始人体运动序列通过去噪器进行扩散去噪操作，计算去噪步骤中得到的目标运动序列与实际运动序列的kl散度损失以及所述目标交叉注意力图与实际交叉注意力图的均方误差。

5、步骤五：通过kl散度损失以及均方误差，在去噪步骤中逐步更新预测的噪声，来最小化总损失，生成最终的目标运动序列。

6、可选地，步骤一中，所述将所述文本提示条件编码为文本向量，包括：对所述文本提示条件使用下载得到的预训练的clip model生成器进行编码，得到所述文本向量；其中，所述文本提示条件表示为，；其中，表示详细描述动作的句子；表示预定义动作类集的一个动作标签，表示为空条件。

7、可选地，步骤二中，所述将各所述交叉注意力图进行加权平均，以生成目标交叉注意力图，包括：通过下式将各所述交叉注意力图进行加权平均，；其中，表示所述目标交叉注意力图；表示所述文本提示条件中[sot]令牌所产生的交叉注意力图，表示所述文本提示条件中[eot]令牌所产生的交叉注意力图，表示加权权重。

8、可选地，步骤三中，预先训练的运动变分自编码器采用长跳跃连接结构，表示为：；其中，表示基于transformer架构的编码器，用于将运动序列编码为潜在空间变量，表示基于transformer架构的解码器，用于将潜在空间变量解码为运动序列。

9、可选地，步骤三中，随机的高斯噪声表示为，和表示维度，所述初始人体运动序列表示为，表示人体运动序列的长度。

10、可选地，步骤四中，去噪器学习的kl散度损失的计算表示为：；其中，表示kl散度损失；表示从真实分布开始经过t步后生成的中间状态的分布；表示给定和当前状态时，前一步状态的真实分布；表示模型通过当前状态生成前一步状态的近似分布；所述目标交叉注意力图与所述实际交叉注意力图的均方误差表示为：；其中，表示所述目标交叉注意力图与所述实际交叉注意力图的均方误差；为交叉注意力图的总数，为所述实际交叉注意力图；潜在空间维度上的运动序列表示为：，和表示维度。

11、可选地，步骤五中，去噪器学习的均方误差表示为：；总损失函数表示为：；其中，是控制所述目标交叉注意力图与所述实际交叉注意力图的均方误差干预强度的一个因素。

12、预测的噪声表示为条件预测和无条件预测的线性组合：；其中，表示预测的噪声，表示条件预测的噪声，表示无条件预测的噪声；表示为空条件，是引导尺度的超参数。

13、本专利技术的有益效果在于：本专利技术方法通过文本提示条件生成人体运动，设计了在潜在空间生成人体运动的方法，不使用扩散模型在原始动作序列和输入条件之间建立联系，而是使用基于动作序列潜在空间的扩散模型，来学习从输入条件到代表性动作序列潜空间编码的概率映射，并且通过文本的交叉注意力图进行生成结果的约束，不仅可以一定程度上减少运算开销，而且能够生成符合输入条件的人体动作序列。

本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的潜在空间人体运动生成方法，其特征在于，所述方法包括如下步骤：步骤一：选择要进行人体动作生成的文本提示条件，将所述文本提示条件编码为文本向量；步骤二：提取所述文本提示条件所生成的各交叉注意力图，将各所述交叉注意力图进行加权平均，以生成目标交叉注意力图；步骤三：将所述文本向量和随机的高斯噪声输入预先训练的运动变分自编码器中，通过所述运动变分自编码器得到初始人体运动序列；步骤四：在潜在空间的维度上对所述初始人体运动序列通过去噪器进行扩散去噪操作，计算去噪步骤中得到的目标运动序列与实际运动序列的KL散度损失以及所述目标交叉注意力图与实际交叉注意力图的均方误差；步骤五：通过KL散度损失以及均方误差，在去噪步骤中逐步更新预测的噪声，来最小化总损失，生成最终的目标运动序列。

2.根据权利要求1所述的一种基于扩散模型的潜在空间人体运动生成方法，其特征在于：步骤一中，所述将所述文本提示条件编码为文本向量，包括：对所述文本提示条件使用下载得到的预训练的CLIP Model生成器进行编码，得到所述文本向量；其中，所述文本提示条件表示为，；其中，，表示详细描述动作的句子

3.根据权利要求2所述的一种基于扩散模型的潜在空间人体运动生成方法，其特征在于：步骤二中，所述将各所述交叉注意力图进行加权平均，以生成目标交叉注意力图，包括：通过下式将各所述交叉注意力图进行加权平均，；其中，表示所述目标交叉注意力图；表示所述文本提示条件中[SOT]令牌所产生的交叉注意力图，表示所述文本提示条件中[EOT]令牌所产生的交叉注意力图，表示加权权重。

4.根据权利要求3所述的一种基于扩散模型的潜在空间人体运动生成方法，其特征在于：步骤三中，预先训练的运动变分自编码器采用长跳跃连接结构，表示为：；其中，表示基于Transformer架构的编码器，用于将运动序列编码为潜在空间变量，表示基于Transformer架构的解码器，用于将潜在空间变量解码为运动序列。

5.根据权利要求4所述的一种基于扩散模型的潜在空间人体运动生成方法，其特征在于：步骤三中，随机的高斯噪声表示为，和表示维度，所述初始人体运动序列表示为，表示人体运动序列的长度。

6.根据权利要求5所述的一种基于扩散模型的潜在空间人体运动生成方法，其特征在于：步骤四中，去噪器学习的KL散度损失的计算表示为：；其中，表示KL散度损失；表示从真实分布开始经过t步后生成的中间状态的分布；表示给定和当前状态时，前一步状态的真实分布；表示模型通过当前状态生成前一步状态的近似分布；所述目标交叉注意力图与所述实际交叉注意力图的均方误差表示为：；其中表示所述目标交叉注意力图与所述实际交叉注意力图的均方误差；为交叉注意力图的总数，为所述实际交叉注意力图；潜在空间维度上的运动序列表示为：，和表示维度。

7.根据权利要求6所述的一种基于扩散模型的潜在空间人体运动生成方法，其特征在于：步骤五中，去噪器学习的均方误差表示为：；总损失函数表示为：；其中，是控制所述目标交叉注意力图与所述实际交叉注意力图的均方误差干预强度的一个因素；预测的噪声表示为条件预测和无条件预测的线性组合：；其中，表示预测的噪声，表示条件预测的噪声，表示无条件预测的噪声；表示为空条件，是引导尺度的超参数。

...

【技术特征摘要】

1.一种基于扩散模型的潜在空间人体运动生成方法，其特征在于，所述方法包括如下步骤：步骤一：选择要进行人体动作生成的文本提示条件，将所述文本提示条件编码为文本向量；步骤二：提取所述文本提示条件所生成的各交叉注意力图，将各所述交叉注意力图进行加权平均，以生成目标交叉注意力图；步骤三：将所述文本向量和随机的高斯噪声输入预先训练的运动变分自编码器中，通过所述运动变分自编码器得到初始人体运动序列；步骤四：在潜在空间的维度上对所述初始人体运动序列通过去噪器进行扩散去噪操作，计算去噪步骤中得到的目标运动序列与实际运动序列的kl散度损失以及所述目标交叉注意力图与实际交叉注意力图的均方误差；步骤五：通过kl散度损失以及均方误差，在去噪步骤中逐步更新预测的噪声，来最小化总损失，生成最终的目标运动序列。

2.根据权利要求1所述的一种基于扩散模型的潜在空间人体运动生成方法，其特征在于：步骤一中，所述将所述文本提示条件编码为文本向量，包括：对所述文本提示条件使用下载得到的预训练的clip model生成器进行编码，得到所述文本向量；其中，所述文本提示条件表示为，；其中，，表示详细描述动作的句子；表示预定义动作类集的一个动作标签，表示为空条件。

3.根据权利要求2所述的一种基于扩散模型的潜在空间人体运动生成方法，其特征在于：步骤二中，所述将各所述交叉注意力图进行加权平均，以生成目标交叉注意力图，包括：通过下式将各所述交叉注意力图进行加权平均，；其中，表示所述目标交叉注意力图；表示所述文本提示条件中[sot]令牌所产生的交叉注意力图，表示所述文本提示条件中[eot]令牌所产生的交叉注意力图，表示加权权重。...

【专利技术属性】
技术研发人员：林志洁，郑宗昊，周礼洁，王浩麟，潘玥，平升阳，泮宇鑫，邢锦琦，孙以恒，刘畅，刘轩麟，华浩天，赵科竣，应卫东，
申请(专利权)人：浙江科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人