System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于Transformer的音频驱动3D口型的方法技术_技高网

一种基于Transformer的音频驱动3D口型的方法技术

技术编号:40321412 阅读:13 留言:0更新日期:2024-02-09 14:17
本发明专利技术公开了一种基于Transformer的音频驱动3D口型的方法,包括以下步骤,步骤一,输入音频片段和文本信息,将音频和文本数据解析为情绪特征,步骤二,通过Transformer模型分析,在情绪特征输入到Transformer模型后,音频数据随之被输入到Transformer模型以对音频进行编码解码操作,步骤三,3D口型的初次定型,在将音频数据进行编码的过程中,将音频向量进行分割,通过单个向量,对3D口型进行初次定型,步骤四,3D口型的二次定型,分析音频数据中声音特征,对3D口型进行二次定型。本发明专利技术在实施的时候,通过对多种因素进行控制,从而对虚拟人物的口型进行建立,以使得虚拟人物的口型,与现实环境中的口型更加贴合,进而完成虚拟人物的创建。

【技术实现步骤摘要】

本专利技术涉及图像处理,具体涉及一种基于transformer的音频驱动3d口型的方法。


技术介绍

1、随着3d技术的发展,虚拟人物的功能也愈发完善。而在对3d人物进行创建的时候,对于虚拟人物的表情、动作、发音口型,均需要逐一创建,特别是对于一些音乐类的虚拟人物而言,3d口型的创建就显得格外重要。现有的3d人物的口型在创建的时候,大多是根据标准字段的发音进行创建,但在实际的发音过程中,3d口型受各种因素的影响,会有不同的变化,为此本申请提出了一种基于transformer的音频驱动3d口型的方法。


技术实现思路

1、为此,本专利技术提供一种基于transformer的音频驱动3d口型的方法,以解决现有技术中的上述问题。

2、为了实现上述目的,本专利技术提供如下技术方案:

3、根据本专利技术的第一方面,一种基于transformer的音频驱动3d口型的方法,包括以下步骤,

4、步骤一,输入音频片段和文本信息,将音频和文本数据解析为情绪特征,

5、步骤二,通过transformer模型分析,在情绪特征输入到transformer模型后,音频数据随之被输入到transformer模型以对音频进行编码解码操作,

6、步骤三,3d口型的初次定型,在将音频数据进行编码的过程中,将音频向量进行分割,通过单个向量,对3d口型进行初次定型,

7、步骤四,3d口型的二次定型,分析音频数据中声音特征,对3d口型进行二次定型,

8、步骤五,输出最终的blendshape参数,利用blendshape驱动3d口型。

9、进一步地,所述情绪特征包括开心、平静、忧伤的特征。

10、进一步地,所述声音特征为声音的音调。

11、进一步地,所述3d口型的初次定型步骤具体包括以下步骤,

12、s31,将3d口型的闭合状态置于3d模型中,即具有x、y、z的三轴的立体空间模型,

13、s32,在对音频中单个字音确定后,根据单个字的标准发音口型,将闭合状态下的3d口型在三个维度上进行拉伸,使其与标准发音口型进行对应,

14、s33,将s2中得到的口型进行输出,得到初次定型后的3d口型。

15、进一步地,所述3d口型的二次定型步骤具体包括以下步骤,

16、s41,将声音特征输入到三维模型内,

17、s42,根据输入的声音特征,对初次定型后的3d口型进行修正,即根据声音的响度,对初次定型后的3d口型进行缩放,

18、s43,将缩放后的3d口型进行输出,以得到二次定型后的3d口型。

19、进一步地,所述3d口型的三次定型步骤具体包括以下步骤,

20、s51,将情绪特征输入到三维模型内,

21、s52,根据输入的情绪特征,对二次定型后的3d口型进行修正,即根据音频片段的情绪,对二次定型后的3d口型进行调整,

22、s53,将调整后的3d口型进行输出,以得到三次定型后的3d口型,

23、s54,输出三次定型后的3d口型,即为最终口型。

24、本专利技术具有如下优点:本专利技术在实施的时候,通过对多种因素进行控制,从而对虚拟人物的口型进行建立,以使得虚拟人物的口型,与现实环境中的口型更加贴合,进而完成虚拟人物的创建。

本文档来自技高网
...

【技术保护点】

1.一种基于Transformer的音频驱动3D口型的方法,其特征在于,包括以下步骤,

2.根据权利要求1所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述情绪特征包括开心、平静、忧伤的特征。

3.根据权利要求2所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述声音特征为声音的音调。

4.根据权利要求3所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述3D口型的初次定型步骤具体包括以下步骤,

5.根据权利要求4所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述3D口型的二次定型步骤具体包括以下步骤,

6.根据权利要求5所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述3D口型的三次定型步骤具体包括以下步骤,

【技术特征摘要】

1.一种基于transformer的音频驱动3d口型的方法,其特征在于,包括以下步骤,

2.根据权利要求1所述的一种基于transformer的音频驱动3d口型的方法,其特征在于,所述情绪特征包括开心、平静、忧伤的特征。

3.根据权利要求2所述的一种基于transformer的音频驱动3d口型的方法,其特征在于,所述声音特征为声音的音调。

4.根据权利要求3所述的一种基...

【专利技术属性】
技术研发人员:袁海杰
申请(专利权)人:小哆智能科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1