定制化形象动作生成方法、装置、设备以及存储介质制造方法及图纸

技术编号：41094845 阅读：26 留言：0更新日期：2024-04-25 13:53

本公开的实施例提供了定制化形象动作生成方法、装置、设备以及存储介质，应用于定制化生成技术领域。所述方法包括接收用户需要定制的主体形象，以及姿态参考图；根据所述主体形象获取对应的文本控制和初始骨骼节点；对所述姿态参考图进行骨骼点检测，得到姿态骨骼节点；将所述初始骨骼节点映射到所述姿态骨骼节点，得到新骨骼节点；根据所述新骨骼节点构建出目标骨骼图；将所述文本控制和所述目标骨骼图输入预先训练好的定制化形象动作生成模型，输出符合用户需求的定制化动作图片。以此方式，可以定制化生成特定形象的动作控制，生成满足用户需求的定制化形象的动作姿态的图片。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及定制化生成，尤其涉及定制化形象动作生成方法、装置、设备以及存储介质。

技术介绍

1、aigc(人工智能生成内容)中的定制化生成技术是一种通过训练人工智能模型来生成特定主体内容的方法。该方法对比通用的aigc生成技术来说，可以使用用户提供的3-5张特定主体的图片，训练模型，使得模型生成该特定主体的图片。例如该特定主体在世界各地游玩的图片。即，定制化生成。常见的定制化生成技术以图像扩散模型dreambooth为代表。该技术使用用户提供的3-5张特定主体的图片，微调基础aigc模型。在微调的过程中，使用“图片-文本对”进行训练。其中，图片来自于用户提供的3-5张图片，文本应当为用户设定的某一个稀有词汇，例如“sks”，用该稀有词汇代表特定主体。这样，在训练过程中，模型学会了理解“sks”即表示当前特定主体的形象。模型训练完毕后，通过文本的控制。例如，给定文本为“sks在金字塔前”，模型会生成特定主体在金字塔的照片。

2、然而，现有技术只能生成只对场景类图片生成效果较好，对于动作类场景效果很差。例如，当前技术可以较好的生成“主体在埃菲尔铁塔”。但是，难以生成“主体在网球场打网球”。一般来说，定制化的主体大多数都是吉祥物等拟人化的形象。但是，这类拟人化形象在神经网络的识别中，和人体相差很远。故而，类似于“打网球”这一类只有人类才有的动作，很难被神经网络识别并且精准控制在特定化主体上。故而，动作类的定制化主体生成是一个难题。另外一个现有技术，为图像扩散模型dreambooth加上控制网controlnet来实现。即，使

技术实现思路

1、本公开提供了一种定制化形象动作生成方法、装置、设备以及存储介质。

2、根据本公开的第一方面，提供了一种定制化形象动作生成方法。该方法包括：接收用户需要定制的主体形象，以及姿态参考图；

3、根据所述主体形象获取对应的文本控制和初始骨骼节点；

4、对所述姿态参考图进行骨骼点检测，得到姿态骨骼节点；

5、将所述初始骨骼节点映射到所述姿态骨骼节点，得到新骨骼节点；根据所述新骨骼节点构建出目标骨骼图；

6、将所述文本控制和所述目标骨骼图输入预先训练好的定制化形象动作生成模型，输出符合用户需求的定制化动作图片。

7、如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述主体形象获取对应的文本控制和初始骨骼节点，包括：

8、从预设的主体形象库中获取与所述主体形象对应的文本控制和初始骨骼节点；

9、其中，所述主体形象库预设有多个主体形象、主体形象对应的文本控制，以及主体形象对应的初始骨骼节点；

10、所述文本控制包含了对主体形象的具体文字描述；所述初始骨骼节点是通过对对应的主体形象进行人工标注得到的。

11、如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述对所述姿态参考图进行骨骼点检测，得到姿态骨骼节点，包括：

12、使用骨骼点检测器，对所述姿态参考图进行骨骼点检测，得到姿态骨骼节点。

13、如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，各骨骼节点由欧几里得坐标构成；

14、所述将所述初始骨骼节点映射到所述姿态骨骼节点，得到新骨骼节点，包括：

15、分别将所述姿态骨骼节点和所述初始骨骼节点的多个欧几里得坐标转换为极坐标；所述极坐标包括姿态骨骼节点的长度、姿态骨骼节点的角度、初始骨骼节点的长度和初始骨骼节点的角度；

16、将所述姿态骨骼节点的角度和所述初始骨骼节点的长度进行组合，组成新的极坐标；

17、将新的极坐标转换为欧几里得坐标，作为新骨骼节点。

18、如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，骨骼节点的欧几里得坐标和极坐标还包括与其对应的相对点；所述相对点用于标识对应坐标所属骨骼类型；

19、将所述姿态骨骼节点的角度和所述初始骨骼节点的长度进行组合，组成新的极坐标，包括：

20、将属于同一相对点的所述姿态骨骼节点的角度和所述初始骨骼节点的长度进行组合，得到新的极坐标。

21、如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，对所述定制化形象动作生成模型进行预先训练的过程，包括：

22、获取第一输入图片，其中，所述第一输入图片为多张主体形象图片和对应的文本控制；

23、将所述第一输入图片作为dreambooth模型的输入，迭代次数达第一预设次数时，完成对dreambooth模型的训练，并输出第一主体形象图；

24、获取第二输入图片，其中所述第二输入图片包括所述第一主体形象图、与所述第一主体形象图对应主体形象的多张图片、与所述第一主体形象图对应的文本控制，以及第一主体形象图进行人工标注的骨骼图；

25、将所述第二输入图片作为controlnet模型的输入，迭代次数达第二预设次数时，完成对controlnet模型的训练；

26、将完成训练的dreambooth模型和controlnet模型作为定制化形象动作生成模型；其中，所述第一预设次数小于所述第二预设次数。

27、根据本公开的第二方面，提供了一种定制化形象动作生成装置。该装置包括：信息接收模块，用于接收用户需要定制的主体形象，以及姿态参考图；

28、数据获取模块，用于根据所述主体形象获取对应的文本控制和初始骨骼节点；

29、骨骼点检测模块，用于对所述姿态参考图进行骨骼点检测，得到姿态骨骼节点；

30、骨骼图构建模块，用于将所述初始骨骼节点映射到所述姿态骨骼节点，得到新骨骼节点；根据所述新骨骼节点构建出目标骨骼图；

31、定制化生成模块，用于将所述文本控制和所述目标骨骼图输入预先训练好的定制化形象动作生成模型，输出符合用户需求的定制化动作图片。

32、根据本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

33、根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面所述的方法。

34、本公开提供的定制化形象动作生成方法、装置、设备以及存储介质，通过接收用户的定制化需求，即用户需要定制的主体形象以及需要其表现出的姿态(特定动作)的姿态参考图，对其进行骨骼节点的融合之后，得到的骨骼图输入预先训练的定制化形象动作生成本文档来自技高网...

【技术保护点】

1.一种定制化形象动作生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述主体形象获取对应的文本控制和初始骨骼节点，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述姿态参考图进行骨骼点检测，得到姿态骨骼节点，包括：

4.根据权利要求1所述的方法，其特征在于，

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求1所述的方法，其特征在于，

7.一种定制化形象动作生成装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

9.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一权利要求所述的方法。

【技术特征摘要】

1.一种定制化形象动作生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述主体形象获取对应的文本控制和初始骨骼节点，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述姿态参考图进行骨骼点检测，得到姿态骨骼节点，包括：

4.根据权利要求1所述的方法，其特征在于，

5.根据...

【专利技术属性】
技术研发人员：郭天楚，李鹏宇，汪彪，华先胜，
申请(专利权)人：特斯联科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人