一种能源数字人交互方法、系统及设备技术方案

技术编号：44077848 阅读：23 留言：0更新日期：2025-01-17 16:12

本申请实施例公开了一种能源数字人交互方法、系统及设备，解决构建高度精细的数字人模型时，数字人模型真实感较低的问题。包括，通过音频和视觉同步音频编码器，对获取到的音频数据进行特征提取，得到音频特征；基于音频特征生成推理数字人头部视频；在推理数字人头部视频中，确定出视频图像对应的第一关键点区域的像素值；其中，第一关键点区域与数字人面部五官以及颈部位置相关；基于像素值，将推理数字人头部视频贴回至数字人模型对应的原数字人视频，得到语音驱动数字人视频；对语音驱动数字人视频中的数字人进行美颜处理，以通过美颜处理后的数字人进行交互。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种能源数字人交互方法、系统及设备。

技术介绍

1、在数字时代的浪潮中，计算机视觉技术正以前所未有的速度革新着我们的视觉体验与交互方式。其中，神经辐射场(neural radiance fields，简称nerf)作为一项革命性的技术，正引领着三维重建领域迈向新的高度。它利用深度学习技术从多个视角的图像中提取出对象的几何形状和纹理信息，然后使用这些信息生成一个连续的三维辐射场，从而可以在任意角度和距离下呈现出高度逼真的三维模型。

2、然而，nerf在数字人模型构建的具体应用中，亦面临着若干亟待解决的技术挑战。首先，现有的er-nerf模型在处理音频时，往往难以达到理想的唇音同步效果，其次，当nerf技术被应用于构建高度精细的数字人模型时，数字人头部往往出现忽大忽小的现象，以致数字人模型真实感较低。

技术实现思路

1、本申请实施例提供了一种能源数字人交互方法、系统及设备，用于解决如下技术问题：当nerf技术被应用于构建高度精细的数字人模型时，由于纯音难以同步，且数字人头部容易出现忽大忽小的现象，以致数字人模型真实感较低。

2、本申请实施例采用下述技术方案：

3、本申请实施例提供一种能源数字人交互方法。包括，通过音频和视觉同步音频编码器，对获取到的音频数据进行特征提取，得到音频特征；基于音频特征生成推理数字人头部视频；在推理数字人头部视频中，确定出视频图像对应的第一关键点区域的像素值；其中，第一关键点区域与数字人面部五官以

4、本申请实施例通过音频特征提取能够捕捉到音频信号中的关键信息，不同的音频内容通过特征提取后，能够实时转换为数字人头部视频，实现音频与视频的同步，提升用户体验。通过确定视频图像中的关键点区域，精准控制这些区域的像素值，将推理数字人头部视频与原数字人视频进行像素级的融合，解决数字人头部忽大忽小的问题，使得生成的数字人模型更为真实，提升用户体验感。

5、在本申请的一种实现方式中，通过音频和视觉同步音频编码器，对获取到的音频数据进行特征提取之前，方法还包括：获取用户文本形式问题信息；通过自然语言处理nlp模块对文本形式问题信息进行回答，得到答复信息；基于答复信息中的符号位置，对答复信息进行切分，并按照语句顺序，将切分后的答复信息依次传输至answers队列，以基于answers队列中的答复信息生成语音驱动数字人视频。

6、在本申请的一种实现方式中，通过音频和视觉同步音频编码器，对获取到的音频数据进行特征提取，得到音频特征，具体包括：基于唇形同步多模态视频数据，训练得到音频和视觉同步音频编码器；将获取到的音频数据输入音频和视觉同步音频编码器，得到音频特征；其中，音频特征包括语音特征与嘴唇动作相同的特征分布；将音频特征输入er-nerf中基于哈希nerf的基本隐式函数；其中，输入音频特征后的基本隐式函数包括3d位置向量、视觉方向向量、音频特征向量以及多分辨哈希编码器向量。

7、在本申请的一种实现方式中，基于像素值，将推理数字人头部视频贴回至数字人模型对应的原数字人视频，得到语音驱动数字人视频，具体包括：将原数字人视频与推理数字人头部视频进行帧图像匹配；在匹配后的原数字人视频图像中，确定出第二关键点区域；基于匹配后的帧图像，将第一关键点区域与第二关键点区域进行匹配，以将第二关键点区域对应的像素值替换为第一关键点区域对应的像素值，得到语音驱动数字人视频。

8、在本申请的一种实现方式中，在匹配后的原数字人视频图像中，确定出第二关键点区域，具体包括：在匹配后的原数字人视频图像中，以预置起始像素点为初始点，绘制出预置视频尺寸的矩形框区域；其中，矩形框区域为数字人头部视频区域；对推理数字人头部视频，进行帧图像人脸解析，确定出第一关键点区域的像素值；其中，第一关键点区域至少包括皮肤、左眉毛、右眉毛、左眼睛、右眼睛、鼻子、上嘴唇、下嘴唇以及颈部区域；基于第一关键点区域的像素坐标值，在矩形框区域确定出第二关键点区域。

9、在本申请的一种实现方式中，对语音驱动数字人视频中的数字人进行美颜处理，以通过美颜处理后的数字人进行交互，具体包括：通过yolo模型检测出数字人脸区域和人脸关键点；通过颜色查找表的方式将肤色映射到符合条件的颜色范围内；和/或通过磨皮高反差保留算法确定出皮肤mask，根据mask中的细节区域，将数字人的帧图像对应区域进行验收减淡处理；和/或基于人脸关键点、大眼算法与局部平移法，对数字人的帧图像进行眼睛区域放大与瘦脸处理。

10、在本申请的一种实现方式中，基于人脸关键点、大眼算法与局部平移法，对数字人的帧图像进行眼睛区域放大与瘦脸处理，具体包括：基于人脸关键点，确定出左眼中心点与右眼中心点；基于人脸关键点，将左眼中心点与第一预置关键点之间的距离，作为第一半径，以及，将右眼中心点与第二预置关键点之间的距离，作为第二半径；基于第一半径对左眼进行放大，基于第二半径对右眼进行放大；基于人脸关键点，确定出第三预置关键点与第四预置关键点之间的距离，以作为瘦左脸距离，并基于瘦左脸距离对数字人的左脸进行瘦脸处理；基于人脸关键点，确定出第五预置关键点与第六预置关键点之间的距离，以作为瘦右脸距离，并基于瘦右脸距离对数字人的右脸进行瘦脸处理。

11、本申请实施例提供一种能源数字人交互系统，包括：文本合成语音tts模块、audiofeature提取音频特征模块、ernerf算法推理模块和后处理模块，多个模块均为独立线程设置；文本合成语音tts模块，用于将获取到的答复信息生成相应的音频数据；audio feature提取音频特征模块，用于对音频数据进行特征提取，以得到嘴唇动作与语音特征一致的音频特征；ernerf算法推理模块，用于对数字人模型进行训练；后处理模块，用于将基于音频数据生成的推理数字人头部视频贴回至数字人模型，以得到语音驱动数字人视频，并对生成的语音驱动数字人视频进行美颜处理。

12、在本申请的一种实现方式中，系统还包括answers队列、audios队列、audiofeatures特征队列、ernerfs队列以及results队列；answers队列，用于存放自然语言处理nlp模块的答复信息；audios队列，用于存放文本合成语音tts模块合成的语音文件；audiofeatures特征队列，用于存放audio feature提取音频特征模块提取的音频特征；ernerfs队列，用于存放生成的推理数字人头部视频；results队列，用于存放贴回原数字人模型的视频。

13、本申请实施例提供一种能源数字人交互设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器本文档来自技高网...

【技术保护点】

1.一种能源数字人交互方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种能源数字人交互方法，其特征在于，所述通过音频和视觉同步音频编码器，对获取到的音频数据进行特征提取之前，所述方法还包括：

3.根据权利要求1所述的一种能源数字人交互方法，其特征在于，所述通过音频和视觉同步音频编码器，对获取到的音频数据进行特征提取，得到音频特征，具体包括：

4.根据权利要求1所述的一种能源数字人交互方法，其特征在于，所述基于所述像素值，将所述推理数字人头部视频贴回至数字人模型对应的原数字人视频，得到语音驱动数字人视频，具体包括：

5.根据权利要求4所述的一种能源数字人交互方法，其特征在于，所述在匹配后的原数字人视频图像中，确定出第二关键点区域，具体包括：

6.根据权利要求1所述的一种能源数字人交互方法，其特征在于，所述对所述语音驱动数字人视频中的数字人进行美颜处理，以通过美颜处理后的数字人进行交互，具体包括：

7.根据权利要求6所述的一种能源数字人交互方法，其特征在于，所述基于所述人脸关键点、大眼算法与局部平移法

8.一种能源数字人交互系统，其特征在于，所述系统包括文本合成语音TTS模块、audiofeature提取音频特征模块、ernerf算法推理模块和后处理模块，多个所述模块均为独立线程设置；

9.根据权利要求8所述的一种能源数字人交互系统，其特征在于，所述系统还包括answers队列、audios队列、audio features特征队列、ernerfs队列以及results队列；

10.一种能源数字人交互设备，其特征在于，所述设备包括：

...

【技术特征摘要】

1.一种能源数字人交互方法，其特征在于，所述方法包括：

5.根据权利要求4所述的一种能源数字人交互方法，其特征在于，所述在匹配后的原数字人视频图像中，确定出第二关键点区域，具体包括：

6.根据权利要求1所述的一种能源数字人交互方法...

【专利技术属性】
技术研发人员：马丽，夏天煜，闵万里，丁鑫，田钿，王云峰，
申请(专利权)人：神思电子技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人