System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数字人,尤其涉及一种数字人的生成方法、装置、电子设备及计算机可读存储介质。
技术介绍
1、随着人工智能和机器学习技术的突飞猛进,生成式数字人技术已成为近年来的研究热点。生成式数字人技术依托于深度学习模型,尤其是生成式人工智能的突破,以创造出栩栩如生的人类形象及其行为。同时,大型语言模型,如openai的gpt(generativepre-trained transformer,一种基于互联网的、可用数据来训练的、文本生成的深度学习模型)系列,显著提升了机器对自然语言的理解与生成能力。
2、在数字媒体领域,直播技术始终在追求更高效、更具互动性的解决方案。传统的业务知识问答依赖于文字交互,在一定程度上限制了用户体验的丰富性和问答的实时性。为了突破用户体验的局限,需要开发一种创新的政企业务知识问答技术,即超写实生成式数字人产品。超写实生成式数字人产品融合了生成式数字人技术和大型语言模型的优势,旨在为用户提供一个更自然、更具互动性和多样性的问答体验。
3、目前现有技术中,第一种实现超写实生成式数字人的方法是先对超写实数字人的头部进行三维建模,然后再通过前端系统对其动作进行控制,依赖于手动调整模型的各个部件,并通过预设的动作库或控制逻辑来实现数字人的面部表情和动作。第二种实现超写实生成式数字人的方法是侧重于唇语识别图像和音频数据的优化处理,依赖于多尺度特征提取和双向长短期记忆网络,以生成唇形动作视频。
4、然而,第一种实现超写实生成式数字人的方法,依赖于人工,处理效率低且处理效果差。第二种
技术实现思路
1、本专利技术所要解决的技术问题是针对现有技术的上述不足,提供一种数字人的生成方法、装置、电子设备及计算机可读存储介质,该方法可以实现快速且智能地生成数字人,提升数字人生成效率和生成效果,满足用户问答体验的实时性和互动性需求,提升用户体验的丰富性和问答的实时性。
2、第一方面,本专利技术提供一种数字人的生成方法,包括:获取用户问题,并将用户问题输入知识问答大模型,生成用户问题相应的答案;获取数字人影像,并识别数字人影像的人脸图像;基于所述答案和人脸图像,进行嘴型推理和融合,生成数字人用于回答用户问题。
3、优选地,所述基于所述答案和人脸图像,进行嘴型推理和融合,生成数字人用于回答用户问题,具体包括:基于文字转语音tts模型和所述答案,语音合成用户问题相应的语音回答;基于嘴型推理模型、语音回答和人脸图像,进行嘴型推理,得到嘴型变化图像;融合嘴型变化图像、语音回答和人脸图像,生成数字人用于回答用户问题。
4、优选地,所述嘴型推理模型包括wav2lip模型,所述基于嘴型推理模型、语音回答和人脸图像,进行嘴型推理,得到嘴型变化图像,具体包括:将语音回答转换为相应的梅尔频谱图;根据预设帧率,切分梅尔频谱图,得到梅尔频谱图特征;将梅尔频谱图特征和人脸图像输入wav2lip模型,推理嘴型变化图像。
5、优选地,所述将语音回答转换为相应的梅尔频谱图,具体包括:根据公式(1),将语音回答转换为相应的梅尔频谱图:
6、m(f,t)=log(∑nx(n,t)w(f,n))(1),其中,m(f,t)表示时间t和频率f时的梅尔频谱值,x(n,t)表示语音回答中时间t时第n个语音信号的频谱强度,w(f,n)表示语音回答中频率f时第n个语音信号的梅尔滤波器系数。
7、优选地,所述将梅尔频谱图特征和人脸图像输入wav2lip模型,推理嘴型变化图像,具体包括:根据公式(2),推理嘴型变化图像:
8、其中,表示嘴型变化图像,xface表示人脸图像,xmel表示梅尔频谱图特征。
9、优选地,所述融合嘴型变化图像、语音回答和人脸图像,生成数字人用于回答用户问题,具体包括:从人脸图像中提取嘴型图像,并基于拉普拉斯混合模型,融合嘴型变化图像和嘴型图像,得到回答嘴型;对回答嘴型和人脸图像进行线性加权,生成数字人回答影像;基于推流器,将数字人回答影像和语音回答推流到前端,生成数字人用于回答用户问题。
10、优选地,所述基于拉普拉斯混合模型,融合嘴型变化图像和嘴型图像,得到回答嘴型,具体包括:根据公式(3),融合嘴型变化图像和嘴型图像:
11、其中,ioutput表示回答嘴型,α表示融合系数,表示嘴型变化图像,表示嘴型图像。
12、第二方面,本专利技术还提供一种数字人的生成装置,包括知识问答模块、影像识别模块和生成模块,知识问答模块,用于获取用户问题,并将用户问题输入知识问答大模型,生成用户问题相应的答案,影像识别模块,用于获取数字人影像,并识别数字人影像的人脸图像,生成模块,与知识问答模块和影像识别模块分别连接,用于基于所述答案和人脸图像,进行嘴型推理和融合,生成数字人用于回答用户问题。
13、优选地,所述生成模块采用统一计算设备架构cuda和图形处理器gpu的多线程机制和线程锁机制。
14、第三方面,本专利技术还提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以实现上述第一方面提供的数字人的生成方法。
15、第四方面,本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述第一方面提供的数字人的生成方法。
16、本专利技术提供的一种数字人的生成方法、装置、电子设备及计算机可读存储介质,利用知识问答大模型具备强大的自然语言处理能力,将知识问答大模型应用到数字人生成中,能够在极短的时间内处理用户问题并生成答案,提供实时反馈,提升用户体验,以及能够理解复杂的用户问题,并生成流畅、自然的答案,使得人机交互更加顺畅,使得生成的数字人更加满足用户问答体验;协调知识问答大模型生成的答案和人脸图像,进行嘴型推理和融合,而非简单将答案与人脸图像组合,可以合理地将答案融入数字人生成中,减少数字人生成过程中的不连贯现象,提升数字人动作连贯性和互动体验的自然性。因此,本专利技术能够实现快速且智能地生成数字人,提升数字人生成效率和生成效果,满足用户问答体验的实时性和互动性需求,提升用户体验的丰富性和问答的实时性。
本文档来自技高网...【技术保护点】
1.一种数字人的生成方法,其特征在于,包括:
2.根据权利要求1所述的数字人的生成方法,其特征在于,所述基于所述答案和人脸图像,进行嘴型推理和融合,生成数字人用于回答用户问题,具体包括:
3.根据权利要求2所述的数字人的生成方法,其特征在于,所述嘴型推理模型包括Wav2Lip模型,
4.根据权利要求3所述的数字人的生成方法,其特征在于,所述将语音回答转换为相应的梅尔频谱图,具体包括:
5.根据权利要求3所述的数字人的生成方法,其特征在于,所述将梅尔频谱图特征和人脸图像输入Wav2Lip模型,推理嘴型变化图像,具体包括:
6.根据权利要求2所述的数字人的生成方法,其特征在于,所述融合嘴型变化图像、语音回答和人脸图像,生成数字人用于回答用户问题,具体包括:
7.根据权利要求6所述的数字人的生成方法,其特征在于,所述基于拉普拉斯混合模型,融合嘴型变化图像和嘴型图像,得到回答嘴型,具体包括:
8.一种数字人的生成装置,其特征在于,包括知识问答模块、影像识别模块和生成模块,
9.根据权利要求8所
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以实现如权利要求1至7任一项所述的一种数字人的生成方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7任一项所述的一种数字人的生成方法。
...【技术特征摘要】
1.一种数字人的生成方法,其特征在于,包括:
2.根据权利要求1所述的数字人的生成方法,其特征在于,所述基于所述答案和人脸图像,进行嘴型推理和融合,生成数字人用于回答用户问题,具体包括:
3.根据权利要求2所述的数字人的生成方法,其特征在于,所述嘴型推理模型包括wav2lip模型,
4.根据权利要求3所述的数字人的生成方法,其特征在于,所述将语音回答转换为相应的梅尔频谱图,具体包括:
5.根据权利要求3所述的数字人的生成方法,其特征在于,所述将梅尔频谱图特征和人脸图像输入wav2lip模型,推理嘴型变化图像,具体包括:
6.根据权利要求2所述的数字人的生成方法,其特征在于,所述融合嘴型变化图像、语音回答和人脸图像,生成数字人用于回答用户问题,具体包括:
【专利技术属性】
技术研发人员:陶晓英,魏立钧,姚琳燕,徐文涛,戴荣峰,史玮强,李潇亚,崔宇帆,李冉,杨保光,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。