数字人构建方法、装置及计算机设备制造方法及图纸

技术编号：41570990 阅读：3 留言：0更新日期：2024-06-06 23:51

本发明专利技术涉及数字人技术领域，具体涉及数字人构建方法、装置及计算机设备，包括以下步骤：获取用于构建数字人的真人运动视频，以及用于承载数字人的场景视频；对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取，作为数字人的体型外观特征和运动姿态特征；利用孪生神经网络，在场景视频中，将所述数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人。本发明专利技术利用孪生神经网络，在场景视频中，将所述数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人，并利用自适应函数对融于场景的数字人进行自适应调控，提升数字人构建的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字人，具体涉及数字人构建方法、装置及计算机设备。

技术介绍

1、数字人指存在于非物理世界中，由计算机手段创造及使用，并具有多重人类特征(外貌特征、人类表演能力交互能力等)的综合产物。虚拟数字人可按人格象征和图形维度划分，亦可根据人物图形维度划分。人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块构成虚拟数字人通用系统框架。其中，又以数字人的交互应用最广，能够应用至新媒体的各行各业，且简单高效。

2、目前数字人的构建，通常只是对人物体型、姿态的构建，缺乏场景融合考虑，导致生成的数字人特征独立，难以与场景呈现较好的融合效果，影响数字人的构建效果。

技术实现思路

1、本专利技术的目的在于提供数字人构建方法、装置及计算机设备，以解决现有技术中只是对人物体型、姿态的构建，缺乏场景融合考虑，导致生成的数字人特征独立，难以与场景呈现较好的融合效果，影响数字人的构建效果的技术问题。

2、为解决上述技术问题，本专利技术具体提供下述技术方案：

3、在本专利技术的第一方面，本专利技术提供了一种数字人构建方法，包括以下步骤：

4、获取用于构建数字人的真人运动视频，以及用于承载数字人的场景视频，其中，所述真人运动视频包含多个真人运动视频帧，所述场景视频包含多个场景视频帧；

5、对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取，作为数字人的体型外观特征和运动姿态特征；

6、利用孪生神经网络，

7、作为本专利技术的一种优选方案，所述数字人的体型外观特征的提取方法包括：

8、将各个真人运动视频帧进行灰度化处理，得到真人运动视频帧的灰度图像；

9、对所述灰度图像进行hog特征检测，在灰度图像中形成真人体型包围盒；

10、通过canny边缘检测和特征点搜索方法，在所述真人体型包围盒中，自动提取出真人体型外观特征；

11、将真人体型外观特征作为所述数字人的体型外观特征。

12、作为本专利技术的一种优选方案，所述数字人的运动姿态特征的提取方法包括：

13、利用时空图卷积网络st-gcn，基于多个真人运动视频帧进行真人运动姿态估计，得到真人运动姿态特征；

14、将所述真人运动姿态特征作为所述数字人的运动姿态特征。

15、作为本专利技术的一种优选方案，所述数字人重建方法包括：

16、将数字人的体型外观特征和运动姿态特征，以及场景视频帧，作为孪生神经网络中第一神经网络的输入项，由孪生神经网络中第一神经网络输出包含第一数字人的重建场景视频帧；

17、将数字人的体型外观特征和运动姿态特征，作为孪生神经网络中第二神经网络的输入项，由孪生神经网络中第二神经网络输出第二数字人；

18、将第一数字人和第二数字人的均方误差，以及场景视频帧与重建场景视频帧的均方误差进行加权组合，构成孪生神经网络的损失函数；

19、基于所述损失函数，对所述孪生神经网络进行训练，得到用于重建融合于场景的数字人重建模型；

20、所述数字人重建模型为：；式中，h(g1)为包含第一数字人的重建场景视频帧，g1为第一数字人，g2为第二数字人，a为体型外观特征，b为运动姿态特征，c为场景视频帧，net1为第一神经网络，net2为第二神经网络。

21、作为本专利技术的一种优选方案，所述损失函数为：loss=s1*mse(g1,g2)+s2*mse(c,h(g1))；

22、式中，loss为损失函数，s1为第一数字人和第二数字人的均方误差的权重，s2为场景视频帧与重建场景视频帧的均方误差的权重，mse(g1,g2)为第一数字人和第二数字人的均方误差，mse(c,h(g1))为场景视频帧与重建场景视频帧的均方误差，h(g1)为包含第一数字人的重建场景视频帧，g1为第一数字人，g2为第二数字人。

23、作为本专利技术的一种优选方案，所述权重的构建方法包括：

24、获取各个场景视频帧间的场景特征变化率；

25、根据场景特征变化率，利用自适应函数对所述s1和s2进行设置；

26、其中，；；式中，s1为第一数字人和第二数字人的均方误差的权重，s2为场景视频帧与重建场景视频帧的均方误差的权重，p为场景特征变化率，k为常系数。

27、作为本专利技术的一种优选方案，所述场景特征变化率的第一种量化方法为利用相关性系数进行量化，所述场景特征变化率为：；式中，p为场景特征变化率，f i为第 i个场景视频帧，f i+1为第 i+1个场景视频帧，pearson(f i, f i+1)为f i和f i+1的相关性系数，n为场景视频帧的数量。

28、作为本专利技术的一种优选方案，所述场景特征变化率的第二种量化方法为利用数据方差进行量化，所述场景特征变化率为：；

29、式中，p为场景特征变化率，f i为第 i个场景视频帧，f i+1为第 i+1个场景视频帧，n为场景视频帧的数量。在本专利技术的第二方面，本专利技术提供了一种数字人构建装置，应用于所述的一种数字人构建方法，装置包括：

30、数据获取单元，用于获取用于构建数字人的真人运动视频，以及用于承载数字人的场景视频，其中，所述真人运动视频包含多个真人运动视频帧，所述场景视频包含多个场景视频帧；

31、特征提取单元，用于对多个真人运动视频帧中真人的体型外观特征和运动姿态特征进行提取，作为数字人的体型外观特征和运动姿态特征；

32、深度学习单元，用于利用孪生神经网络，在场景视频中，将所述数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人。

33、在本专利技术的第三方面，本专利技术提供了一种计算机设备，包括：至少一个处理器；以及

34、与所述至少一个处理器通信连接的存储器；

35、其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机设备执行数字人构建方法。

36、本专利技术与现有技术相比较具有如下有益效果：

37、本专利技术利用孪生神经网络，在场景视频中，将所述数字人的体型外观特征和运动姿态特征进行数字人重建，得到融合于场景的数字人，并利用自适应函数对融于场景的数字人进行自适应调控，提升数字人构建的效果。

本文档来自技高网...

【技术保护点】

1.一种数字人构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数字人构建方法，其特征在于：所述数字人的体型外观特征的提取方法包括：

3.根据权利要求1所述的一种数字人构建方法，其特征在于：所述数字人的运动姿态特征的提取方法包括：

4.根据权利要求1所述的一种数字人构建方法，其特征在于：所述数字人重建方法包括：

5.根据权利要求4所述的一种数字人构建方法，其特征在于：所述损失函数为：

6.根据权利要求5所述的一种数字人构建方法，其特征在于：所述权重的构建方法包括：

7.根据权利要求6所述的一种数字人构建方法，其特征在于，所述场景特征变化率的第一种量化方法为利用相关性系数进行量化，所述场景特征变化率为：；式中，p为场景特征变化率，Fi为第i个场景视频帧，Fi+1为第i+1个场景视频帧，Pearson(Fi, Fi+1)为Fi和Fi+1的相关性系数，n为场景视频帧的数量。

8.根据权利要求6所述的一种数字人构建方法，其特征在于，所述场景特征变化率的第二种量化方法为利用数据方差进行量化，

9.一种数字人构建装置，其特征在于，应用于权利要求1-8任一项所述的一种数字人构建方法，装置包括：

10.一种计算机设备，其特征在于，包括：

...

【技术特征摘要】

1.一种数字人构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种数字人构建方法，其特征在于：所述数字人的体型外观特征的提取方法包括：

3.根据权利要求1所述的一种数字人构建方法，其特征在于：所述数字人的运动姿态特征的提取方法包括：

4.根据权利要求1所述的一种数字人构建方法，其特征在于：所述数字人重建方法包括：

5.根据权利要求4所述的一种数字人构建方法，其特征在于：所述损失函数为：

6.根据权利要求5所述的一种数字人构建方法，其特征在于：所述权重的构建方法包括：

7.根据权利要求6所述的一种数字人构建方法，其特征在于，所述场景特征变化率的第一种量化...

【专利技术属性】
技术研发人员：请求不公布姓名，请求不公布姓名，
申请(专利权)人：深圳威尔视觉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人