基于多模态联合嵌入的共语姿势生成方法技术

技术编号：38931290 阅读：31 留言：0更新日期：2023-09-25 09:35

本发明专利技术公开了一种基于多模态联合嵌入的共语姿势生成方法，通过层次化的姿势编码器从姿态数据中提取两个代表不同含义的层次化特征嵌入，将其与音频与文本编码器从语音的原始音频和相应的转录文本提取的特征进行多模态联合嵌入，并使用嵌入对齐四元组损失对联合嵌入空间进行解耦，同时使用WGANs方法改进了原有的生成对抗网络方法，使网络的训练更加稳定。本发明专利技术通过充分利用姿势数据，并且使用嵌入对齐方法，从而使得能够只使用的音频和对应文本的情况下能够生成生动且真实的共语姿势。文本的情况下能够生成生动且真实的共语姿势。文本的情况下能够生成生动且真实的共语姿势。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态联合嵌入的共语姿势生成方法

[0001]本专利技术涉及多模态嵌入编码和人体骨架动画生成的
，并且更具体地，属于一种多模态人体骨架共语姿势的生成方法。

技术介绍

[0002]共语姿势是人类在日常的对话时，所做出的与语言节奏相协调的身体姿势。它们提供了与对话信息相辅相成的视觉线索，有助于说话者的表达和听者的理解。为此，研究人员已经在共语姿势合成的任务上进行了一定的探索，研究旨在根据语音音频和文本转录作为输入生成一系列人类姿势。
[0003]最近的研究利用深度学习来解决这个问题，这些方法使用共语姿势（可作为视频或运动捕捉的数据集）作为训练目标，使用原始的语音波形和相应的文本记录，以及个别说话人的风格作为模型的输入来训练深度神经网络。
[0004]虽然这些方法可以生成不同的节奏、标志性和隐喻性的共语姿势，并适应说话人的特定风格，但是这些方法依旧存在一些尚未解决的问题。首先，姿势相对于文本和音频而言是一种非常不同的模态，它同时包括了空间和时间两种属性，这导致模型难以学习其与文本和音频之间的映射关系。第二，文本和音频的不同含义并没有被充分挖掘，文本数据中容易发掘标志性和隐喻性相关的特征；节奏、音量等特征则只能从音频数据中发掘。第三，姿势数据并没有被充分的利用，仅仅是简单的将姿势数据作为任务的训练目标不足以让模型学习到其中丰富的多模态信息。
[0005]由此可见，如何充分利用相互关联的多模态数据，并建立一个跨模态的联合空间使模型能够从这个嵌入空间解码动画，是急需解决的关键问题。
专利...

【技术保护点】

【技术特征摘要】
1.基于多模态联合嵌入的共语姿势生成方法，其特征在于，包括如下步骤：步骤S1，准备数据集，包括音频数据、文本数据、姿势数据和风格id，并将前几帧的姿势数据作为种子姿势；步骤S2，利用编码器对数据集中对应的数据进行特征编码，编码器包括音频编码器，层次化姿势编码器，文本编码器和风格编码器，最终获得音频特征，浅层的姿态特征和深层的姿态特征，文本特征，以及风格特征；步骤S3，对步骤S2得到的特征进行拼接，训练阶段，将所述种子姿势、浅层的姿态特征、深层的姿态特征和风格特征拼接为，将所述种子姿势、音频特征、文本特征和风格特征拼接为，推断阶段，则只对种子姿势、音频特征、文本特征和风格特征进行特征拼接；步骤S4，构建姿势解码器，即生成器，在训练阶段，通过使用F
at
和F
p
两个特征作为姿势解码器的两个输入，生成两个姿势和，其中G ()表示生成器；使用生成的姿势进行对抗学习，并进行损失函数计算；在推断阶段，不使用姿势数据和层次化姿势编码器，仅准备音频数据和对应的文本数据，然后输入希望的风格id、使用默认的初始静态姿势，重复步骤S2
‑
步骤S4即可进行姿势生成。2.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：步骤S1中，音频数据、文本数据、姿势数据和风格id的时间步长相同；文本数据是一个单词序列，通过插入填充记号使得单词与姿势数据的时间步长相匹配，间隔时间从音频数据中获取；将说话人的id作为风格id，风格id表示为one
‑
hot编码的向量。3.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：音频编码器为级联的一维卷积层，用于将原始音频数据编码为音频特征。4.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：层次化姿势编码器首先通过级联两个一维卷积层的神经网络对姿势数据进行初步处理，然后将经过处理的数据通过一个四层一维卷积网络编码为浅层姿势特征，将浅层的姿态特征通过另一个四层一维卷积神经网络提取为深层的姿态特征。5.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：文本编码器首先通过预训练的词嵌入层将文本数据t中的所有词转换为词向量，然后，这些词向量被一个四层的时序卷积网络TCN编码为文本特征。6.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法，其特征在于：风格编码器使用一组全连接层将风格id映射到一个更小维度的样式嵌入空间，并使...

【专利技术属性】
技术研发人员：杜小勤，文吾琦，周佳爽，刘咏琪，
申请(专利权)人：武汉纺织大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人