一种视频生成方法及装置制造方法及图纸

技术编号：41530864 阅读：8 留言：0更新日期：2024-06-03 23:07

本申请实施例涉及一种视频生成方法及装置。该方法包括：获取音频和包含对象的图像；在图像的对象上提取多个特征点；将多个特征点和音频输入至特征点运动模型，得到与音频适配的第一特征点视频；提取音频表达的情绪；确定情绪对应的至少一个目标特征点；根据所述情绪对应的设定动作对所述第一特征点视频中的至少一个特征点帧中的所述目标特征点的位置进行调整，得到第二特征点视频。对情绪对应的目标特征点进行针对性调整，那么第二特征点帧中的各特征点的位置能够实现设定动作，根据第二特征点视频生成的对象视频能够更好地反映对象的情绪，使对象的情绪表达更加饱满、突出和细腻，更加符合音频中的情绪。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及图像处理，尤其涉及一种视频生成方法、装置、计算设备及计算机可读存储介质。

技术介绍

1、随着深度学习和图像处理技术的不断发展，视频生成成为了一项热门的研究课题。视频生成是指用一张图像生成一段能够配合一段音频的视频的技术。这里的图像是指图像中包含对象的图像，对象可以是人类、动物，也可以是动漫人物等。这样就可以给人一种这段视频中的对象表达出了这段音频的感觉，而无需设计人员根据音频，为这张图像画出多张图像帧，将多张图像帧整合形成一段视频。视频生成技术可运用于动漫、电影、电子游戏以及虚拟现实等领域。

2、现有的视频生成技术中，一般通过视频生成模型来实现一张图像到一段视频的转变。该视频生成模型是由大量的样本数据训练得到的。将一段音频和一张图像输入该训练好的视频生成模型中，就可得到一段该图像配合该音频进行运动的动态视频。

3、然而上述方法只是关注视频中的对象口型与音频内容的适配问题，没有关注其他因素，导致视频中的对象的行为动作缺乏真实感。

技术实现思路

1、本申请实施例提供一种视频生成方法，用以解决现有的视频生成技术得到的视频中的对象的行为动作缺乏真实感的问题。

2、第一方面，本申请实施例提供一种视频生成方法，包括：

3、获取音频和包含对象的图像；在所述图像的对象上提取多个特征点；将所述多个特征点和所述音频输入至特征点运动模型，得到与所述音频适配的第一特征点视频；在所述第一特征点视频的任一特征点帧中，所述多个特征点的位置基于所述特

4、提取所述音频表达的情绪；确定所述情绪对应的至少一个目标特征点；

5、根据所述情绪对应的设定动作对所述第一特征点视频中的至少一个特征点帧中的所述目标特征点的位置进行调整，得到第二特征点视频；所述第二特征点视频用于生成与所述音频适配的对象视频。

6、通过在图像的对象上提取多个特征点，将多个特征点和音频输入至特征点运动模型，可以得到与音频适配的第一特征点视频，在该第一特征点视频中，由于每个特征点帧中的多个特征点的位置有变化，因此在该第一特征点视频中对象的各特征点都运动起来了。通过提取音频表达的情绪，可以确定至少一个目标特征点，那么就可针对第一特征点视频中的至少一个特征点帧，对目标特征点的位置进行调整。如此，并非是将所有特征点统一调整，而是对情绪对应的目标特征点进行针对性调整，并且是按照情绪对应的设定动作进行调整的，那么得到的第二特征点帧中的各特征点的位置能够实现设定动作，更加关注情绪的细节表达，根据第二特征点视频生成的对象视频能够更好地反映对象的情绪，使对象的情绪表达更加饱满、突出和细腻，更加符合音频中的情绪。

7、在一些实施例中，将所述多个特征点和所述音频输入至特征点运动模型，得到与所述音频适配的第一特征点视频，包括：

8、将所述多个特征点和所述音频输入至特征点运动模型，得到与所述音频适配的第三特征点视频；

9、针对所述第三特征点视频中的任一特征点帧中的各特征点，采用德劳内delaunay三角剖分做平滑处理，得到所述第一特征点视频。

10、如此，由于采用德劳内delaunay三角剖分对各特征点做平滑处理，可以保留更多的纹理特征，因此采用德劳内delaunay三角剖分做平滑处理后的第一特征点视频中的各特征点帧所表达出来的情绪更加流畅，更加符合对象的情绪变化，因而更加真实自然。基于这样的第一特征点视频进行目标特征点位置的调整，最终得到的对象视频不仅情绪表达更加准确细腻，而且更加真实自然。

11、在一些实施例中，确定所述情绪对应的至少一个目标特征点，包括：

12、确定所述情绪对应的设定动作；确定所述设定动作对应的至少一个目标特征点；将所述目标特征点划分为单点和成对点；所述单点为不受其他特征点的运动所限制的特征点；所述成对点为运动情况受彼此限制的两个特征点；

13、根据所述情绪对应的设定动作对所述第一特征点视频中的至少一个特征点帧中的所述目标特征点的位置进行调整，包括：

14、将所述单点在所述特征点帧中的原始位置代入单点调整公式，得到所述单点在所述特征点帧中的修正位置；所述单点调整公式用于使所述单点实现所述设定动作；

15、将所述成对点在所述特征点帧中的原始位置代入成对点调整公式，得到所述成对点在所述特征点帧中的修正位置；所述成对点调整公式用于使所述成对点实现所述设定动作。

16、如此，可以对特征点帧中的目标特征点进行针对性的调整，并且这样的调整是能够使所述单点和成对点均实现设定动作，那么这样得到的第二特征点视频更加关注情绪的细节表达，可以使情绪更加饱满和突出。根据第二特征点视频生成的对象视频能够更好地反映对象的情绪，使对象的情绪表达更加饱满、突出和细腻，更加符合音频中的情绪。

17、在一些实施例中，提取所述音频表达的情绪，包括：

18、将所述音频输入音频文本转换模型中，得到所述音频对应的文本；

19、将所述文本输入文本情绪提取模型中，得到所述文本对应的各设定情绪的情绪值；

20、将符合第一预设条件的情绪值对应的设定情绪作为所述音频表达的情绪。

21、如此可以准确地确定音频所要表达的情绪，有利于得到情绪更加饱满突出的对象视频。

22、在一些实施例中，所述单点调整公式中包含单点偏差因子；不同的设定情绪对应的单点偏差因子不同；和/或，

23、所述成对点调整公式中包含成对点偏差因子；不同的设定情绪对应的成对点偏差因子不同。

24、可以对不同的设定情绪对应的目标特征点进行不同的调整，调整更加细微，更加符合音频表达的情绪。

25、在一些实施例中，所述音频表达的情绪对应的单点偏差因子的取值是根据所述音频表达的情绪对应的情绪值确定；和/或，

26、所述音频表达的情绪对应的成对点偏差因子的取值是根据所述音频表达的情绪对应的情绪值确定。

27、考虑到了当前的这个音频所表达的情绪的情绪值，根据音频表达的情绪的情绪值确定单点偏差因子的取值和成对点偏差因子的取值，如此得到的单点调整公式和成对点调整公式更加准确。那么对目标特征点的位置进行调整就会更加准确。能够更好地反映对象的情绪，使对象的情绪表达更加饱满、突出和细腻，更加符合音频中的情绪。

28、在一些实施例中，根据所述情绪对应的设定动作对所述第一特征点视频中的至少一个特征点帧中的所述目标特征点的位置进行调整，得到第二特征点视频，包括：

29、在所述第一特征点视频的各特征点帧中，确定情绪饱满度符合第二预设条件的目标特征点帧；

30、根据所述情绪对应的设定动作对所述第一特征点视频中的目标特征点帧中的所述目标特征点的位置进行调整，得到所述第二特征点视频。

31、不是对第一特征点视频中的所有的特征点帧均进行目标特征点的位置调整，而是只针对情绪饱满度符合第二预设本文档来自技高网...

【技术保护点】

1.一种视频生成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，将所述多个特征点和所述音频输入至特征点运动模型，得到与所述音频适配的第一特征点视频，包括：

3.如权利要求1所述的方法，其特征在于，确定所述情绪对应的至少一个目标特征点，包括：

4.如权利要求3所述的方法，其特征在于，提取所述音频表达的情绪，包括：

5.如权利要求4所述的方法，其特征在于，所述单点调整公式中包含单点偏差因子；不同的设定情绪对应的单点偏差因子不同；和/或，

6.如权利要求5所述的方法，其特征在于，所述音频表达的情绪对应的单点偏差因子的取值是根据所述音频表达的情绪对应的情绪值确定；和/或，

7.如权利要求1所述的方法，其特征在于，根据所述情绪对应的设定动作对所述第一特征点视频中的至少一个特征点帧中的所述目标特征点的位置进行调整，得到第二特征点视频，包括：

8.一种视频生成装置，其特征在于，包括：

9.一种计算设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计

...

【技术特征摘要】

1.一种视频生成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，将所述多个特征点和所述音频输入至特征点运动模型，得到与所述音频适配的第一特征点视频，包括：

3.如权利要求1所述的方法，其特征在于，确定所述情绪对应的至少一个目标特征点，包括：

4.如权利要求3所述的方法，其特征在于，提取所述音频表达的情绪，包括：

5.如权利要求4所述的方法，其特征在于，所述单点调整公式中包含单点偏差因子；不同的设定情绪对应的单点偏差因子不同；和/或，

6.如权利要求5所述的方法，其特征在...

【专利技术属性】
技术研发人员：杜兆臣，贲晛烨，姚云鹏，李柏岩，孟卫明，高雪松，
申请(专利权)人：海信集团控股股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人