语音实时驱动虚拟人的方法、系统及存储介质技术方案

技术编号：31513261 阅读：16 留言：0更新日期：2021-12-22 23:55

本申请提供了一种语音实时驱动虚拟人的方法、系统及存储介质，语音实时驱动虚拟人的方法包括：获取人脸RGB图像；对人脸RGB图像进行3D人脸重建，得到人脸RGB图像对应的3D人脸参数；预采集一段语音并经去噪处理后保存至缓存队列中；实时采集语音片段并经去噪处理后保存至缓存队列中；读取缓存队列中的所有语音片段并进行拼接，得到拼接后的语音片段，并利用拼接后的语音片段和预训练的神经网络得到预测的3D人脸表情参数；根据预测的3D人脸表情参数和3D人脸参数得到渲染后的RGB图像。本申请能够在不降低虚拟人质量的基础上，达到整个驱动过程的实时性，从而使得语音驱动虚拟人技术能够用于各类实时应用中。能够用于各类实时应用中。能够用于各类实时应用中。

全部详细技术资料下载

【技术实现步骤摘要】
语音实时驱动虚拟人的方法、系统及存储介质

[0001]本申请属于信息安全
，具体涉及一种语音实时驱动虚拟人的方法、系统及存储介质。

技术介绍

[0002]语音驱动虚拟人技术是虚拟人驱动技术的一种，其用语音驱动预设的虚拟人模型，从而生成符合语音内容的动态虚拟人形象。近些年来，随着语音驱动虚拟人技术的发展和成熟，语音驱动虚拟人技术衍生出了相当多的应用，例如虚拟主播、虚拟客服和虚拟偶像等。由于虚拟人形象往往需要直接呈现给用户，因此用户对语音驱动结果的真实性和准确性具有较高的要求。
[0003]然而，现有的语音驱动虚拟人技术无法很好地推广到如虚拟会议这样的实时应用中，其主要原因在于：一方面，目前的语音驱动虚拟人技术均使用离线语音作为输入，没有考虑到语音采集、神经网络计算速度、音画延迟等问题，从而无法满足实时性的需要；另一方面，实时场景下的语音驱动虚拟人技术要求输入的语音片段长度尽可能短，从而满足实时性要求。而语音特征计算过程中，较短的语音片段由于缺乏时序信息以及必要的语义信息，在驱动过程中很容易导致虚拟人形象面部运动的准确度降低，进而降低真实感。

技术实现思路

[0004]为至少在一定程度上克服相关技术中存在的问题，本申请提供了一种语音实时驱动虚拟人的方法、系统及存储介质。
[0005]根据本申请实施例的第一方面，本申请提供了一种语音实时驱动虚拟人的方法，其包括以下步骤：获取人脸RGB图像；对人脸RGB图像进行3D人脸重建，得到人脸RGB图像对应的3D人脸参数；预采集一段语音并经去噪处理...

【技术保护点】

【技术特征摘要】
1.一种语音实时驱动虚拟人的方法，其特征在于，包括以下步骤：获取人脸RGB图像；对人脸RGB图像进行3D人脸重建，得到人脸RGB图像对应的3D人脸参数；预采集一段语音并经去噪处理后保存至缓存队列中；实时采集语音片段并经去噪处理后保存至缓存队列中；读取缓存队列中的所有语音片段并进行拼接，得到拼接后的语音片段，并利用拼接后的语音片段和预训练的神经网络得到预测的3D人脸表情参数；根据预测的3D人脸表情参数和3D人脸参数得到渲染后的RGB图像。2.根据权利要求1所述的语音实时驱动虚拟人的方法，其特征在于，所述对人脸RGB图像进行3D人脸重建，得到人脸RGB图像对应的3D人脸参数的过程为：采用多任务卷积神经网络对人脸RGB图像进行人脸识别，并根据人脸检测框对人脸RGB图像进行裁剪，得到裁剪后的人脸图像；采用人脸重建方法DECA对裁剪后的人脸图像进行3D人脸重建，其过程为：通过DECA将人脸RGB图像拟合到人脸参数化模型FLAME上，得到257维的特定于当前图像的一组3D人脸参数；其中，表示FLAME模型的身份参数，表示FLAME模型的表情参数，表示FLAME模型的光照参数，表示FLAME模型的纹理参数，表示FLAME模型的姿态变换参数，表示257维的向量。3.根据权利要求1所述的语音实时驱动虚拟人的方法，其特征在于，所述预采集一段语音并经去噪处理后保存至缓存队列中的具体过程为：通过语音采集设备预采集一段语音，得到带噪的语音片段；采用谱减法去除带噪的语音片段中的加性噪声，得到去噪的语音片段；将去噪的语音片段添加到预设长度的缓存队列中。4.根据权利要求3所述的语音实时驱动虚拟人的方法，其特征在于，所述实时采集语音片段并经去噪处理后保存至缓存队列中的具体过程为：通过语音采集设备实时采集语音片段；采用谱减法去除实时采集的带噪的语音片段中的加性噪声，得到去噪的语音片段；计算缓存队列的长度，并根据缓存队列的长度与预设的缓存队列的最大长度的比较结果更新缓存队列，其过程为：判断缓存队列的长度是否超过预设的缓存队列的最大长度，如果是，则将缓存队列中的队首元素移除，将实时采集的语音片段添加到缓存队列中；其中，缓存队列中的队首元素即相较于当前时间最早的元素。5.根据权利要求4所述的语音实时驱动虚拟人的方法，其特征在于，所述读取缓存队列中的所有语音片段并进行拼接，得到拼接后的语音片段，并利用拼接后的语音片段和预训练的神经网络得到预测的3D人脸表情参数的具体过程为：读取缓存队列中的所有语音片段并进行拼接，得到拼接后的语音片段；利用开源音频处理工具librosa提取拼接后...

【专利技术属性】
技术研发人员：徐迪，马宜祯，张彦博，常友坚，毛文涛，蔡宝军，
申请(专利权)人：北京影创信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人