数字人视频时长扩展方法、系统、终端及存储介质技术方案

技术编号：42608409 阅读：9 留言：0更新日期：2024-09-03 18:16

本发明专利技术涉及数字人技术领域，具体提供一种数字人视频时长扩展方法、系统、终端及存储介质，包括：采集原始视频和原声音频；对原始视频进行预处理，并对预处理后的原始视频进行切片处理，得到静止讲解视频片段和走动肢体动作视频；将预先存储的讲解内容文本和原声音频输入声音克隆模型，得到讲解音频，利用梅尔频谱提取函数基于讲解音频获取目标视频帧数目；基于静止讲解视频片段的正倒序参数和截断点参数将相应的静止讲解视频片段的总帧数扩展至目标视频帧数目，得到静止讲解视频；将静止讲解视频与讲解音频和走动肢体动作视频顺序拼接为全量滑轨屏视频。本发明专利技术可实现任意演绎内容的制作，成本低且易扩展。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数字人，具体涉及一种数字人视频时长扩展方法、系统、终端及存储介质。

技术介绍

1、随着科技的不断发展，数字人技术正在逐渐成为人们关注的焦点。数字人技术是一种基于人工智能和计算机图像处理的技术，可以通过模拟并生成人类的语音、姿态和面部表情等，实现真人的高保真、高质量复制。滑轨屏是一种可以沿着轨道移动的大屏幕设备，通常用于展示大型的图片、视频或者信息。将2d数字人技术与滑轨屏相结合，滑轨屏作为2d数字人的可视化载体，形成了滑轨屏2d数字人。

2、现有的滑轨屏2d数字人多为伪数字人技术，即滑轨屏上播放的是提前录制好的2d真人视频，而非通过tfg技术生成的2d数字人，一旦演绎内容需要改动，需要再次拍摄2d真人视频，自主性、可控性较弱且成本较高。滑轨屏2d数字人技术与固定屏幕上的2d数字人技术存在差异，即2d数字人的动作与滑轨屏的运动存在强相关性。滑轨屏沿着滑轨移动，存在个静止讲解点位和个滑动区间，在屏幕移动时，屏幕上的2d数字人应做出与屏幕运动相呼应的走动动作，当屏幕在某个静止讲解点位停止时，屏幕上的2d数字人应停止走动。走动肢体动作视频从预处理后的推理视频中截取即可，而从预处理后的推理视频中截取的静止讲解视频的时长较短且时长固定，但是生产环境中实际使用的讲解视频的时长是自由的、不固定的。

3、如何将固定时长的静止讲解视频扩展到自由时长，并保证扩展后的视频能与后续走动的肢体动作视频自然衔接，成为一个亟需解决的问题。

技术实现思路

1、针对现有技术的上述

2、第一方面，本专利技术提供一种数字人视频时长扩展方法，包括：

3、采集原始视频和原声音频；

4、对原始视频进行预处理，并对预处理后的原始视频进行切片处理，得到多段静止讲解视频片段和多段走动肢体动作视频；

5、将预先存储的讲解内容文本和所述原声音频输入声音克隆模型，得到讲解音频，利用梅尔频谱提取函数基于所述讲解音频获取对应的目标视频帧数目；

6、计算静止讲解视频片段的正倒序参数和截断点参数，基于所述正倒序参数和截断点参数将相应的静止讲解视频片段的总帧数扩展至所述目标视频帧数目，得到静止讲解视频；

7、利用超4k分辨率2d数字人驱动泛化模型将所述静止讲解视频与所述讲解音频合成为有声音驱动的静止讲解视频，将有声音驱动的静止讲解视频与走动肢体动作视频顺序拼接为全量滑轨屏视频。

8、在一个可选的实施方式中，采集原始视频和原声音频，包括：

9、设置讲解点位数量n和滑动区间任务走动步数，其中，估算拍摄的原始视频时长，基于原始视频时长拍摄相应时长的原始视频；

10、的计算公式为，其中，时间单位为秒；每个静止讲解视频的录制时长为5秒左右，每个走动肢体动作视频的录制时长为走动步数的1.5倍；的录制分辨率为像素；

11、采集10秒钟的原声音频。

12、在一个可选的实施方式中，对原始视频进行预处理，并对预处理后的原始视频进行切片处理，得到多段静止讲解视频片段和多段走动肢体动作视频，包括：

13、通过ae工具对原始视频中的人物区域进行动态截取，以使人物处于截取区域的中心位置，利用ae工具消除人物区域中的人物身上的绿光，得到处理后的第一视频，第一视频的分辨率为像素；

14、使用ae工具对第一视频中的人物属性进行调整，所述人物属性包括人物的宽度和高度，并进行整体布局排版，得到第二视频，第二视频的分辨率为像素；

15、将第二视频输入图像超分模型，所述图像超分模型输出2倍超分后的第三视频，所述第三视频的分辨率为像素；

16、使用ffmpeg对第三视频依次进行尺度缩放处理、恒定速率处理、视频编码格式转libx264处理、像素格式转yuv420p处理，处理后的视频为第四视频，第四视频的分辨率为像素；

17、将第四视频和预存的背景图像输入人像抠图换背景模型，所述人像抠图换背景模型输出背景为的第五视频，第五视频的分辨率为像素；

18、使用ffmpeg工具对第五视频进行切片处理，得到个静止讲解视频片段，静止讲解视频片段的帧数为，其中，和个走动肢体动作视频其中。

19、在一个可选的实施方式中，将预先存储的讲解内容文本和所述原声音频输入声音克隆模型，得到讲解音频，利用梅尔频谱提取函数基于所述讲解音频获取对应的目标视频帧数目，包括：

20、利用第三方torchaudio库中的load_wav函数对所述原声音频进行预处理，调整音频采样率sr为16000，声音通道为mono，得到原声音频的波形图；

21、利用第三方torchaudio库中的melspectrogram函数基于所述波形图进行梅尔频谱提取，得到梅尔频谱矩阵；所述梅尔频普矩阵与视频帧的对应关系为；

22、基于梅尔频普矩阵与视频帧的对应关系，和超4k分辨率2d数字人驱动泛化模型中前馈推理使用的视频帧数目，计算每个驱动结果帧对应的梅尔频谱块宽度，并基于每个驱动结果帧对应的梅尔频谱块宽度计算与原声音频长度相等的目标视频帧数目。

23、在一个可选的实施方式中，利用推理视频时长自由扩展函数将相应的静止讲解视频片段的总帧数扩展至所述目标视频帧数目，得到静止讲解视频，包括：

24、构建子函数，所述子函数用于计算正倒序参数ep；所述子函数包括：

25、；

26、；

27、其中，为第i段讲解视频片段对应的目标视频帧数目，为第i段讲解视频片段的图像帧数量，为过程参数；

28、构建子函数，所述子函数用于计算截断点参数，所述子函数包括：

29、；

30、；

31、；

32、；

33、其中，为过程参数，b为固定参数；

34、先正序遍历静止讲解视频片段的所有视频帧，再执行遍倒序加正序遍历静止讲解视频片段的最后个视频帧的操作，将遍历的所有视频帧按照遍历顺序存入视频流中，得到中间视频片段；

35、确认中间视频片段的图像帧总数不小于相应的目标视频帧数目，通过公式，其中，计算得到需要从中间视频片段中抽取的图像帧数量；

36、通过公式，其中，计算得到处理间隔帧数；

37、对中间视频片段按照每帧抽出一个图像帧，得到最终的静止讲解视频。

38、在一个可选的实施方式中，利用超4k分辨率2d数字人驱动泛化模型将所述静止讲解视频与所述讲解音频合成为有声音驱动的静止讲解视频，将有声音驱动的静止讲解视频与走动肢体动作视频顺序拼接为全量滑轨屏视频，包括：

39、将有声音驱动的静止讲解视频输入人脸修复和增强模型，得到牙齿修复后的静止讲解视频；

40、将牙齿修复后的静止讲解视频与走动肢体动作视频按时域顺序进行拼接并置，得到全量滑轨屏视频；所述本文档来自技高网...

【技术保护点】

1.一种数字人视频时长扩展方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，采集原始视频和原声音频，包括：

3.根据权利要求1所述的方法，其特征在于，对原始视频进行预处理，并对预处理后的原始视频进行切片处理，得到多段静止讲解视频片段和多段走动肢体动作视频，包括：

4.根据权利要求1所述的方法，其特征在于，将预先存储的讲解内容文本和所述原声音频输入声音克隆模型，得到讲解音频，利用梅尔频谱提取函数基于所述讲解音频获取对应的目标视频帧数目，包括：

5.根据权利要求1所述的方法，其特征在于，利用推理视频时长自由扩展函数将相应的静止讲解视频片段的总帧数扩展至所述目标视频帧数目，得到静止讲解视频，包括：

6.根据权利要求1所述的方法，其特征在于，利用超4K分辨率2D数字人驱动泛化模型将所述静止讲解视频与所述讲解音频合成为有声音驱动的静止讲解视频，将有声音驱动的静止讲解视频与走动肢体动作视频顺序拼接为全量滑轨屏视频，包括：

7.一种数字人视频时长扩展系统，其特征在于，包括：

8.根据权利要求7

9.一种终端，其特征在于，包括：

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述可读存储介质上存储有数字人视频时长扩展程序，所述数字人视频时长扩展程序被处理器执行时实现如权利要求1-6任一项所述数字人视频时长扩展方法的步骤。

...

【技术特征摘要】

1.一种数字人视频时长扩展方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，采集原始视频和原声音频，包括：

5.根据权利要求1所述的方法，其特征在于，利用推理视频时长自由扩展函数将相应的静止讲解视频片段的总帧数扩展至所述目标视频帧数目，得到静止讲解视...

【专利技术属性】
技术研发人员：王宗增，王培元，尹青山，房兰涛，李洪生，
申请(专利权)人：山东浪潮超高清智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人