System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人机交互领域,特别涉及一种基于语音驱动的数字人唇形同步方法。
技术介绍
1、随着数字人技术的快速发展和应用范围的不断扩大,人们对数字人的真实感和交互自然度提出了更高的要求。在众多影响数字人真实感的因素中,唇形同步技术是至关重要的一环。目前,普遍采用的数字人唇形同步方法主要基于音素识别,通过将语音信号转换为音素序列,再映射到相应的嘴型动作。以上方案存在语言依赖性强、精确度有限、实时性低等问题。特别是在处理汉语等声调语言时,以上方案难以准确捕捉发音的细微变化,导致生成的唇形动作不够自然流畅。
技术实现思路
1、针对现有技术中存在的问题,提供了一种基于语音驱动的数字人唇形同步方法,可以利用基于语音信号的各项特征完成数字人唇形同步。
2、本专利技术采用的技术方案如下:一种基于语音驱动的数字人唇形同步方法,包括:
3、获取语音信号;
4、提取语音信号中与唇形变化相关的语音特征;
5、将提取的语音特征映射为唇形变化数据;
6、将唇形变化数据应用到数字人模型上并进行实时渲染,完成唇形同步。
7、作为一种优选方案,所述提取语音信号中与唇形变化相关的语音特征,具体包括:
8、提取语音信号中的音节信息、音高信息以及音长信息,并整合成综合的语音特征表示。
9、作为一种优选方案,所述音节信息提取方法包括:
10、计算语音信息的短时能量和过零率,并设定音节边界的判断阈值;
1
12、作为一种优选方案,所述音高信息提取方法包括:
13、对语音信号进行自相关分析,完成初步的音高估计;
14、采用倒谱分析进行精确的基频提取;
15、通过中值滤波平滑音高轮廓,得到平滑后的音高变化曲线,即音高信息。
16、作为一种优选方案,所述音长信息提取方法包括:
17、对语音进行音素级别的强制对齐;
18、计算每个音素的精确持续时间,即音长信息。
19、作为一种优选方案,采用线性预测编码和倒谱分析相结合完成共振峰分析。
20、作为一种优选方案,所述将提取的语音特征映射到唇形变化数据,具体包括:
21、直接将提取的语音特征转换为唇形变化数据,或采用深度学习模型将语音特征映射为唇形变化数据。
22、作为一种优选方案,所述直接将提取的语音特征转换为唇形变化数据,具体包括:
23、基于语音学和生理学的知识,将语音特征映射为唇形变化数据,其中,每个音节对应一组基本的唇形变化;音高映射唇形的垂直开合程度;音长映射唇形变化的持续时间;共振峰映射唇形的开合度和圆唇程度;在相邻音素之间生成过度唇形;相邻音素间采用协同发音效应映射;语速特征表征唇形变化速率。
24、作为一种优选方案,所述采用深度学习模型将语音特征映射为唇形变化数据,具体包括:
25、建立基于卷积神经网络与长短期记忆网络的深度学习模型;其中,所述深度学习模型包括连接输入层、cnn模块、lstm模块、全连接层以及输出层;所述cnn模块包括多层卷积层与池化层,卷积层采用多尺度卷积核捕获不同时间跨度的语音特征;所述cnn模块和lstm模块之间添加残差连接;所述lstm模块中引入自注意力机制;
26、采用对抗训练机制对深度学习模型完成训练;
27、通过训练完成的模型完成语音特征到唇形变化数据的映射。
28、作为一种优选方案,还包括,在将唇形变化数据应用到数字人模型之前,对唇形变化数据进行插值处理。
29、与现有技术相比,采用上述技术方案的有益效果为:
30、(1)高精确度和自然度:直接分析语音信号特征,能更准确地捕捉发音的细微变化,生成更自然流畅的唇形动作;
31、(2)语言适应性强:适用于多种语言环境,特别改善了对汉语等声调语言的处理效果;
32、(3)实时性好:优化的信号处理和映射算法提高了唇形同步的速度,满足实时交互需求;
33、(4)实现简单:无需复杂的音素识别过程,降低了技术实现难度和维护成本;
34、(5)增强用户体验:通过更精确、自然的唇形同步,显著提升了数字人的整体表现和交互自然度。
本文档来自技高网...【技术保护点】
1.一种基于语音驱动的数字人唇形同步方法,其特征在于,包括:
2.根据权利要求1所述的基于语音驱动的数字人唇形同步方法,其特征在于,所述提取语音信号中与唇形变化相关的语音特征,具体包括:
3.根据权利要求2所述的基于语音驱动的数字人唇形同步方法,其特征在于,所述音节信息提取方法包括:
4.根据权利要求2或3所述的基于语音驱动的数字人唇形同步方法,其特征在于,所述音高信息提取方法包括:
5.根据权利要求2所述的基于语音驱动的数字人唇形同步方法,其特征在于,所述音长信息提取方法包括:
6.根据权利要求2所述的基于语音驱动的数字人唇形同步方法,其特征在于,采用线性预测编码和倒谱分析相结合完成共振峰分析。
7.根据权利要求2所述的基于语音驱动的数字人唇形同步方法,其特征在于,所述将提取的语音特征映射到唇形变化数据,具体包括:
8.根据权利要求7所述的基于语音驱动的数字人唇形同步方法,其特征在于,所述直接将提取的语音特征转换为唇形变化数据,具体包括:
9.根据权利要求7所述的基于语音驱动的数字人
10.根据权利要求1所述的基于语音驱动的数字人唇形同步方法,其特征在于,还包括,在将唇形变化数据应用到数字人模型之前,对唇形变化数据进行插值处理。
...【技术特征摘要】
1.一种基于语音驱动的数字人唇形同步方法,其特征在于,包括:
2.根据权利要求1所述的基于语音驱动的数字人唇形同步方法,其特征在于,所述提取语音信号中与唇形变化相关的语音特征,具体包括:
3.根据权利要求2所述的基于语音驱动的数字人唇形同步方法,其特征在于,所述音节信息提取方法包括:
4.根据权利要求2或3所述的基于语音驱动的数字人唇形同步方法,其特征在于,所述音高信息提取方法包括:
5.根据权利要求2所述的基于语音驱动的数字人唇形同步方法,其特征在于,所述音长信息提取方法包括:
6.根据权利要求2所述的基于语音驱动的数字人唇形同步方法,其特征在于,采用...
【专利技术属性】
技术研发人员:蒋强,孙于扬,王文锟,
申请(专利权)人:成都橙视传媒科技股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。