一种基于MLU实现实时虚拟主播的方法及系统技术方案

技术编号：41696758 阅读：13 留言：0更新日期：2024-06-19 12:31

本发明专利技术涉及虚拟主播技术领域，具体为一种基于MLU实现实时虚拟主播的方法及系统，包括MLU模块，所述MLU模块包括专家鉴别器模块、口型生成器模块、冻结微调模块以及高清人像模块，所述高清人像模块包括口型同步判别器模块以及视觉质量判别器模块，采用了大规模的收集许多人的阅读视频，获取其读字时嘴部的映射状态，基于MLU训练出数字人模型，根据需求人员的小型微调，用自己的阅读视频拟合大数据数字人模型，再根据文本驱动嘴型，即可生成一比一的虚拟主播，本发明专利技术采用MLU解决大数据训练及基于MLU芯片实现高效数字人响应并发。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及虚拟主播，具体为一种基于mlu实现实时虚拟主播的方法及系统。

技术介绍

1、众所周知，随着人工智能技术的飞速发展，特别是深度学习技术在图像处理和语音识别领域的广泛应用，虚拟主播技术逐渐受到人们的关注。虚拟主播结合了计算机视觉、语音识别、自然语言处理以及虚拟渲染等多种技术，能够生成具有高度逼真度和交互性的虚拟主播形象，为用户提供更加丰富的信息获取和娱乐体验。

2、传统的虚拟主播实现方法主要依赖于高性能计算机图形处理器(gpu)进行图像处理和渲染，以及中央处理器(cpu)进行复杂的数据计算。然而，随着虚拟主播应用场景的多样化，特别是对于实时性要求较高的场景，如新闻播报、在线直播等，传统的实现方法往往难以达到理想的实时性和逼真度，需要强大的gpu算力，及小额的gpu算力无法达到实时数字人直播，因此有必要针对这一技术问题提出解决方案。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本专利技术提供了一种基于mlu实现实时虚拟主播的方法及系统。

3、(二)技术方案

4、为实现上述目的，本专利技术提供如下技术方案：一种基于mlu实现实时虚拟主播的方法，包括以下步骤：

5、步骤1：准备高清素材；

6、步骤2：基于mlu完成预处理；

7、步骤3：基于syncnet-mlu完成专家鉴别器训练；

8、步骤4：基于2d-cnn-mlu完成口型生成器训练；

9、步骤5：基于mlu冻结微调虚拟主播；

10、步骤6：基于gan-mlu网络生成高清人像；

11、步骤7：基于mlu实现实时数字人。

12、进一步的，本专利技术改进有，上述步骤2中，根据高清素材，采用音图分割的形式，图片方面基于mlu使用人脸检测模型，检测出每一帧正脸并抠图保存，基于ffmpeg-mlu驱动视频进行音频分割，最后出现效果为每一帧人脸和音频文件。

13、进一步的，本专利技术改进有，上述步骤3中，基于mlu生成专家音频和口型同步鉴别器，由syncnet改进而来，syncnet包含一个人脸编码器和一个音频编码器，两者都由一系列2d卷积层组成。

14、进一步的，本专利技术改进有，上述步骤4中，基于mlu训练出口型同步判别器后，可以在训练过程中利用它来对生成器进行优化，提高生成器生成口型的准确性之后，使用2d-cnn编码器以及解码器结构，包含三个由卷积网络组成的模块：identity encoder，speechencoder，face decoder，生成器通过最小化来自专家判别器的同步损失来提高生成的帧的口型同步质量，同步损失函数为余弦相似度二元交叉熵损失,通过这种生成器的结构和专家判别器的共同作用，可以生成任意人脸对象。

15、进一步的，本专利技术改进有，上述步骤5中，基于2d-cnn-mlu网络，冻结speechencoder，face decoder层，对identity encoder进行自己的数据生成与真实数据比较，根据计算真实帧与输出帧的嘴部抖动状态，重构identity encoder内参，实现小批量数据微调。

16、进一步的，本专利技术改进有，上述步骤6中，口型同步判别器在gan训练期间保持冻结，视觉质量判别器只对生成的人脸的质量进行监督，不负责口型同步。

17、本专利技术还提供了一种基于mlu实现实时虚拟主播的系统，包括mlu模块，所述mlu模块包括专家鉴别器模块、口型生成器模块、冻结微调模块以及高清人像模块，所述高清人像模块包括口型同步判别器模块以及视觉质量判别器模块。

18、进一步的，本专利技术改进有，所述口型生成器模块包括2d-cnn编码器以及解码器。

19、(三)有益效果

20、与现有技术相比，本专利技术提供了一种基于mlu实现实时虚拟主播的方法及系统，具备以下有益效果：

21、该基于mlu实现实时虚拟主播的方法及系统，采用了大规模的收集许多人的阅读视频，获取其读字时嘴部的映射状态，基于mlu训练出数字人模型，根据需求人员的小型微调，用自己的阅读视频拟合大数据数字人模型，再根据文本驱动嘴型，即可生成一比一的虚拟主播，本专利技术采用mlu解决大数据训练及基于mlu芯片实现高效数字人响应并发。

本文档来自技高网...

【技术保护点】

1.一种基于MLU实现实时虚拟主播的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于MLU实现实时虚拟主播的方法，其特征在于，上述步骤2中，根据高清素材，采用音图分割的形式，图片方面基于mlu使用人脸检测模型，检测出每一帧正脸并抠图保存，基于ffmpeg-mlu驱动视频进行音频分割，最后出现效果为每一帧人脸和音频文件。

3.根据权利要求2所述的一种基于MLU实现实时虚拟主播的方法，其特征在于，上述步骤3中，基于mlu生成专家音频和口型同步鉴别器，由syncNet改进而来，syncNet包含一个人脸编码器和一个音频编码器，两者都由一系列2D卷积层组成。

4.根据权利要求3所述的一种基于MLU实现实时虚拟主播的方法，其特征在于，上述步骤4中，基于mlu训练出口型同步判别器后，可以在训练过程中利用它来对生成器进行优化，提高生成器生成口型的准确性之后，使用2D-CNN编码器以及解码器结构，包含三个由卷积网络组成的模块：Identity Encoder，Speech Encoder，Face Decoder，生成器通过最小化来自专家判别

5.根据权利要求4所述的一种基于MLU实现实时虚拟主播的方法，其特征在于，上述步骤5中，基于2d-cnn-mlu网络，冻结Speech Encoder，Face Decoder层，对Identity Encoder进行自己的数据生成与真实数据比较，根据计算真实帧与输出帧的嘴部抖动状态，重构Identity Encoder内参，实现小批量数据微调。

6.根据权利要求5所述的一种基于MLU实现实时虚拟主播的方法，其特征在于，上述步骤6中，口型同步判别器在GAN训练期间保持冻结，视觉质量判别器只对生成的人脸的质量进行监督，不负责口型同步。

7.一种基于MLU实现实时虚拟主播的系统，其特征在于，包括MLU模块，所述MLU模块包括专家鉴别器模块、口型生成器模块、冻结微调模块以及高清人像模块，所述高清人像模块包括口型同步判别器模块以及视觉质量判别器模块。

8.根据权利要求7所述的一种基于MLU实现实时虚拟主播的系统，其特征在于，所述口型生成器模块包括2D-CNN编码器以及解码器。

...

【技术特征摘要】

1.一种基于mlu实现实时虚拟主播的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于mlu实现实时虚拟主播的方法，其特征在于，上述步骤2中，根据高清素材，采用音图分割的形式，图片方面基于mlu使用人脸检测模型，检测出每一帧正脸并抠图保存，基于ffmpeg-mlu驱动视频进行音频分割，最后出现效果为每一帧人脸和音频文件。

3.根据权利要求2所述的一种基于mlu实现实时虚拟主播的方法，其特征在于，上述步骤3中，基于mlu生成专家音频和口型同步鉴别器，由syncnet改进而来，syncnet包含一个人脸编码器和一个音频编码器，两者都由一系列2d卷积层组成。

4.根据权利要求3所述的一种基于mlu实现实时虚拟主播的方法，其特征在于，上述步骤4中，基于mlu训练出口型同步判别器后，可以在训练过程中利用它来对生成器进行优化，提高生成器生成口型的准确性之后，使用2d-cnn编码器以及解码器结构，包含三个由卷积网络组成的模块：identity encoder，speech encoder，face decoder，生成器通过最小化来自专家判别器的同步损失来提高生成的帧的口型同步质量，...

【专利技术属性】
技术研发人员：周国军，刘晓龙，王宏亮，洪晨曦，
申请(专利权)人：南京中科逆熵科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人