一种基于Transformer的音频驱动3D口型的方法技术

技术编号：40321412 阅读：13 留言：0更新日期：2024-02-09 14:17

本发明专利技术公开了一种基于Transformer的音频驱动3D口型的方法，包括以下步骤，步骤一，输入音频片段和文本信息，将音频和文本数据解析为情绪特征，步骤二，通过Transformer模型分析，在情绪特征输入到Transformer模型后，音频数据随之被输入到Transformer模型以对音频进行编码解码操作，步骤三，3D口型的初次定型，在将音频数据进行编码的过程中，将音频向量进行分割，通过单个向量，对3D口型进行初次定型，步骤四，3D口型的二次定型，分析音频数据中声音特征，对3D口型进行二次定型。本发明专利技术在实施的时候，通过对多种因素进行控制，从而对虚拟人物的口型进行建立，以使得虚拟人物的口型，与现实环境中的口型更加贴合，进而完成虚拟人物的创建。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，具体涉及一种基于transformer的音频驱动3d口型的方法。

技术介绍

1、随着3d技术的发展，虚拟人物的功能也愈发完善。而在对3d人物进行创建的时候，对于虚拟人物的表情、动作、发音口型，均需要逐一创建，特别是对于一些音乐类的虚拟人物而言，3d口型的创建就显得格外重要。现有的3d人物的口型在创建的时候，大多是根据标准字段的发音进行创建，但在实际的发音过程中，3d口型受各种因素的影响，会有不同的变化，为此本申请提出了一种基于transformer的音频驱动3d口型的方法。

技术实现思路

1、为此，本专利技术提供一种基于transformer的音频驱动3d口型的方法，以解决现有技术中的上述问题。

2、为了实现上述目的，本专利技术提供如下技术方案：

3、根据本专利技术的第一方面，一种基于transformer的音频驱动3d口型的方法，包括以下步骤，

4、步骤一，输入音频片段和文本信息，将音频和文本数据解析为情绪特征，

5、步骤二，通过transformer模型分析，在情绪特征输入到transformer模型后，音频数据随之被输入到transformer模型以对音频进行编码解码操作，

6、步骤三，3d口型的初次定型，在将音频数据进行编码的过程中，将音频向量进行分割，通过单个向量，对3d口型进行初次定型，

7、步骤四，3d口型的二次定型，分析音频数据中声音特征，对3d口型进行二次定型，

...

【技术保护点】

1.一种基于Transformer的音频驱动3D口型的方法，其特征在于，包括以下步骤，

2.根据权利要求1所述的一种基于Transformer的音频驱动3D口型的方法，其特征在于，所述情绪特征包括开心、平静、忧伤的特征。

3.根据权利要求2所述的一种基于Transformer的音频驱动3D口型的方法，其特征在于，所述声音特征为声音的音调。

4.根据权利要求3所述的一种基于Transformer的音频驱动3D口型的方法，其特征在于，所述3D口型的初次定型步骤具体包括以下步骤，

5.根据权利要求4所述的一种基于Transformer的音频驱动3D口型的方法，其特征在于，所述3D口型的二次定型步骤具体包括以下步骤，

6.根据权利要求5所述的一种基于Transformer的音频驱动3D口型的方法，其特征在于，所述3D口型的三次定型步骤具体包括以下步骤，

【技术特征摘要】

1.一种基于transformer的音频驱动3d口型的方法，其特征在于，包括以下步骤，

2.根据权利要求1所述的一种基于transformer的音频驱动3d口型的方法，其特征在于，所述情绪特征包括开心、平静、忧伤的特征。

3.根据权利要求2所述的一种基于transformer的音频驱动3d口型的方法，其特征在于，所述声音特征为声音的音调。

4.根据权利要求3所述的一种基...

【专利技术属性】
技术研发人员：袁海杰，
申请(专利权)人：小哆智能科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人