基于多模态联合嵌入的共语姿势生成方法技术

技术编号:38931290 阅读:22 留言:0更新日期:2023-09-25 09:35
本发明专利技术公开了一种基于多模态联合嵌入的共语姿势生成方法,通过层次化的姿势编码器从姿态数据中提取两个代表不同含义的层次化特征嵌入,将其与音频与文本编码器从语音的原始音频和相应的转录文本提取的特征进行多模态联合嵌入,并使用嵌入对齐四元组损失对联合嵌入空间进行解耦,同时使用WGANs方法改进了原有的生成对抗网络方法,使网络的训练更加稳定。本发明专利技术通过充分利用姿势数据,并且使用嵌入对齐方法,从而使得能够只使用的音频和对应文本的情况下能够生成生动且真实的共语姿势。文本的情况下能够生成生动且真实的共语姿势。文本的情况下能够生成生动且真实的共语姿势。

【技术实现步骤摘要】
基于多模态联合嵌入的共语姿势生成方法


[0001]本专利技术涉及多模态嵌入编码和人体骨架动画生成的
,并且更具体地,属于一种多模态人体骨架共语姿势的生成方法。

技术介绍

[0002]共语姿势是人类在日常的对话时,所做出的与语言节奏相协调的身体姿势。它们提供了与对话信息相辅相成的视觉线索,有助于说话者的表达和听者的理解。为此,研究人员已经在共语姿势合成的任务上进行了一定的探索,研究旨在根据语音音频和文本转录作为输入生成一系列人类姿势。
[0003]最近的研究利用深度学习来解决这个问题,这些方法使用共语姿势(可作为视频或运动捕捉的数据集)作为训练目标,使用原始的语音波形和相应的文本记录,以及个别说话人的风格作为模型的输入来训练深度神经网络。
[0004]虽然这些方法可以生成不同的节奏、标志性和隐喻性的共语姿势,并适应说话人的特定风格,但是这些方法依旧存在一些尚未解决的问题。首先,姿势相对于文本和音频而言是一种非常不同的模态,它同时包括了空间和时间两种属性,这导致模型难以学习其与文本和音频之间的映射关系。第二,文本和音频的不同含义并没有被充分挖掘,文本数据中容易发掘标志性和隐喻性相关的特征;节奏、音量等特征则只能从音频数据中发掘。第三,姿势数据并没有被充分的利用,仅仅是简单的将姿势数据作为任务的训练目标不足以让模型学习到其中丰富的多模态信息。
[0005]由此可见,如何充分利用相互关联的多模态数据,并建立一个跨模态的联合空间使模型能够从这个嵌入空间解码动画,是急需解决的关键问题。
专利
技术实现思路

[0006]本专利技术涉及一种基于多模态联合嵌入的共语姿势生成方法,该方法能够根据输入的文本和音频信息,生成与之匹配的共语姿势。
[0007]本专利技术的技术方案如下:基于多模态联合嵌入的共语姿势生成方法,包括如下步骤:步骤S1,准备数据集,包括音频数据、文本数据、姿势数据和风格id,并将前几帧的姿势数据作为种子姿势;步骤S2,利用编码器对数据集中对应的数据进行特征编码,编码器包括音频编码器,层次化姿势编码器,文本编码器和风格编码器,最终获得音频特征,浅层的姿态特征和深层的姿态特征,文本特征,以及风格特征;步骤S3,对步骤S2得到的特征进行拼接,训练阶段,将所述种子姿势、浅层的姿态特征、深层的姿态特征和风格特征拼接为,将所述种子姿势、音频特征、文本特征和风格特征拼接为,推断阶段,则只对种子姿势、音频特
征、文本特征和风格特征进行特征拼接;步骤S4,构建姿势解码器,即生成器,在训练阶段,通过使用F
at
和F
p
两个特征作为姿势解码器的两个输入,生成两个姿势和,其中G ()表示生成器;使用生成的姿势进行对抗学习,并进行损失函数计算;在推断阶段,不使用姿势数据和层次化姿势编码器,仅准备音频数据和对应的文本数据,然后输入希望的风格id、使用默认的初始静态姿势,重复步骤S2

步骤S4即可进行姿势生成。
[0008]进一步的,步骤S1中,音频数据、文本数据、姿势数据和风格id的时间步长相同;文本数据是一个单词序列,通过插入填充记号使得单词与姿势数据的时间步长相匹配,间隔时间从音频数据中获取;将说话人的id作为风格id,风格id表示为one

hot编码的向量。
[0009]进一步的,音频编码器为级联的一维卷积层,用于将原始音频数据编码为音频特征。
[0010]进一步的,层次化姿势编码器首先通过级联两个一维卷积层的神经网络对姿势数据进行初步处理,然后将经过处理的数据通过一个四层一维卷积网络编码为浅层姿势特征,将浅层的姿态特征通过另一个四层一维卷积神经网络提取为深层的姿态特征。
[0011]进一步的,文本编码器首先通过预训练的词嵌入层将文本数据t中的所有词转换为词向量,然后,这些词向量被一个四层的时序卷积网络TCN编码为文本特征。
[0012]进一步的,风格编码器使用一组全连接层将风格id映射到一个更小维度的样式嵌入空间,并使用变分推理技术中的概率抽样的方法,得到风格特征,具体方法步骤为:首先使用全连接层将风格id映射为表示风格分布的参数,然后从这些参数中采样,最终得到风格特征。
[0013]进一步的,文本编码器中使用FastText提供的预训练的词嵌入。
[0014]进一步的,所述姿势解码采用一个四层双向GRU,对抗学习中使用四个级联的一维卷积层和两个全连接层作为判别器,判别器使用生成姿势和真实姿势进行对抗性学习,其中生成姿势只使用由音频和文本生成的姿势,真实姿势与层次化姿势编码器的输入姿势相同,生成器同时使用和计算损失函数。
[0015]进一步的,训练阶段,姿势解码器使用多个损失函数进行约束,最终损失函数如下:
[0016][0017]重构损失:计算生成的样本和与真实姿势之间的重构损失,具体公式为:
[0018]其中重构损失中的G表示该损失是生成器的损失,huber为损失项的名称,表示计算期望,N表示姿势的长度,下标i表示取每个姿势帧,HL()表示计算Huber损失,Huber损失是一种经典的损失函数,为L1损失和L2损失的一次可微的组合;对抗损失的具体公式如下:
[0019]其中表示生成器的对抗损失,是判别器的损失,用于判别器的对抗性学习,λ是一个用于控制梯度惩罚的超参数,D()表示判别器,表示真假样本的随机插值,表示计算梯度的L2范数;风格发散损失:为了避免风格特征f
style
的后验崩溃,引导生成器合成具有不同风格输入的不同姿势,损失计算为:
[0020]其中G ()表示生成器,其中f
style(1)
表示文本和语音对应的说话人的风格编码,f
style(2)
,f
style(3)
表示随机得到的两个不同说话人的风格,是数值裁剪参数;嵌入重构损失:对生成姿势使用层次化姿势编码器重新得到层次化的姿势特性:,并将其与从输入解码器的嵌入进行比较,具体公式为:
[0021]其中表示光滑L1损失;KLD损失:用于风格编码中变分推理的学习,具体公式为:
[0022]其中表示表示风格编码器输出的均值和方差;嵌入对齐四元组损失:使用嵌入对齐四元组损失来促进多模态之间的学习,具体公式为:
[0023]其中,d()表示计算两项输入之间的欧几里得距离,是用于控制输入特征之间最小间隔的超参数,是一个距离缩放的超参数,其中用于调整各项损失的权重。
[0024]与现有技术相比,本专利技术的有点和有益效果如下:本专利技术公开的基于多模态联合嵌入的共语手势生成方法,在建模上融合文本、语音、风格和姿势生成方法,具体来说还引入了层次化姿势解码器以及联合空间对齐的思想,解决了现有技术中信息利用不充分导致的生成能力不足等问题。实现步骤包括:数据处理;特征提取;特征拼接;姿势生成;损失计算。本专利技术采用层次化结构以及约束不同模态特征在嵌入空间中的距离,使提取的特征更适合做姿势生成,在实际任务中证明了其指标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态联合嵌入的共语姿势生成方法,其特征在于,包括如下步骤:步骤S1,准备数据集,包括音频数据、文本数据、姿势数据和风格id,并将前几帧的姿势数据作为种子姿势;步骤S2,利用编码器对数据集中对应的数据进行特征编码,编码器包括音频编码器,层次化姿势编码器,文本编码器和风格编码器,最终获得音频特征,浅层的姿态特征和深层的姿态特征,文本特征,以及风格特征;步骤S3,对步骤S2得到的特征进行拼接,训练阶段,将所述种子姿势、浅层的姿态特征、深层的姿态特征和风格特征拼接为,将所述种子姿势、音频特征、文本特征和风格特征拼接为,推断阶段,则只对种子姿势、音频特征、文本特征和风格特征进行特征拼接;步骤S4,构建姿势解码器,即生成器,在训练阶段,通过使用F
at
和F
p
两个特征作为姿势解码器的两个输入,生成两个姿势和,其中G ()表示生成器;使用生成的姿势进行对抗学习,并进行损失函数计算;在推断阶段,不使用姿势数据和层次化姿势编码器,仅准备音频数据和对应的文本数据,然后输入希望的风格id、使用默认的初始静态姿势,重复步骤S2

步骤S4即可进行姿势生成。2.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:步骤S1中,音频数据、文本数据、姿势数据和风格id的时间步长相同;文本数据是一个单词序列,通过插入填充记号使得单词与姿势数据的时间步长相匹配,间隔时间从音频数据中获取;将说话人的id作为风格id,风格id表示为one

hot编码的向量。3.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:音频编码器为级联的一维卷积层,用于将原始音频数据编码为音频特征。4.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:层次化姿势编码器首先通过级联两个一维卷积层的神经网络对姿势数据进行初步处理,然后将经过处理的数据通过一个四层一维卷积网络编码为浅层姿势特征,将浅层的姿态特征通过另一个四层一维卷积神经网络提取为深层的姿态特征。5.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:文本编码器首先通过预训练的词嵌入层将文本数据t中的所有词转换为词向量,然后,这些词向量被一个四层的时序卷积网络TCN编码为文本特征。6.如权利要求1所述的基于多模态联合嵌入的共语姿势生成方法,其特征在于:风格编码器使用一组全连接层将风格id映射到一个更小维度的样式嵌入空间,并使...

【专利技术属性】
技术研发人员:杜小勤文吾琦周佳爽刘咏琪
申请(专利权)人:武汉纺织大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1