System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及图像处理,具体涉及一种基于transformer的音频驱动3d口型的方法。
技术介绍
1、随着3d技术的发展,虚拟人物的功能也愈发完善。而在对3d人物进行创建的时候,对于虚拟人物的表情、动作、发音口型,均需要逐一创建,特别是对于一些音乐类的虚拟人物而言,3d口型的创建就显得格外重要。现有的3d人物的口型在创建的时候,大多是根据标准字段的发音进行创建,但在实际的发音过程中,3d口型受各种因素的影响,会有不同的变化,为此本申请提出了一种基于transformer的音频驱动3d口型的方法。
技术实现思路
1、为此,本专利技术提供一种基于transformer的音频驱动3d口型的方法,以解决现有技术中的上述问题。
2、为了实现上述目的,本专利技术提供如下技术方案:
3、根据本专利技术的第一方面,一种基于transformer的音频驱动3d口型的方法,包括以下步骤,
4、步骤一,输入音频片段和文本信息,将音频和文本数据解析为情绪特征,
5、步骤二,通过transformer模型分析,在情绪特征输入到transformer模型后,音频数据随之被输入到transformer模型以对音频进行编码解码操作,
6、步骤三,3d口型的初次定型,在将音频数据进行编码的过程中,将音频向量进行分割,通过单个向量,对3d口型进行初次定型,
7、步骤四,3d口型的二次定型,分析音频数据中声音特征,对3d口型进行二次定型,
...【技术保护点】
1.一种基于Transformer的音频驱动3D口型的方法,其特征在于,包括以下步骤,
2.根据权利要求1所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述情绪特征包括开心、平静、忧伤的特征。
3.根据权利要求2所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述声音特征为声音的音调。
4.根据权利要求3所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述3D口型的初次定型步骤具体包括以下步骤,
5.根据权利要求4所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述3D口型的二次定型步骤具体包括以下步骤,
6.根据权利要求5所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述3D口型的三次定型步骤具体包括以下步骤,
【技术特征摘要】
1.一种基于transformer的音频驱动3d口型的方法,其特征在于,包括以下步骤,
2.根据权利要求1所述的一种基于transformer的音频驱动3d口型的方法,其特征在于,所述情绪特征包括开心、平静、忧伤的特征。
3.根据权利要求2所述的一种基于transformer的音频驱动3d口型的方法,其特征在于,所述声音特征为声音的音调。
4.根据权利要求3所述的一种基...
【专利技术属性】
技术研发人员:袁海杰,
申请(专利权)人:小哆智能科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。