一种由文字和动作引导视频生成数字人的装置、方法及设备制造方法及图纸

技术编号：41433879 阅读：4 留言：0更新日期：2024-05-28 20:29

本发明专利技术涉及人工智能技术领域，具体地说是一种由文字和动作引导视频生成数字人的装置、方法及设备，其装置包括：用户接口UI，用于为用户提供一个直观、易于使用的操作平台；骨架图解析器，用于接收用户上传的骨架图，处理和分析用户上传的骨架图数据，并将其转换成精确的动作，以便控制数字人物的动画；文字描述解析器，用于接收用户输入的文字描述，解析衣着、背景等视觉元素的信息；融合引擎模块，用于结合骨架图解析器和文字描述解析器的输出，生成数字人的动作和外观；输出模块，用于允许用户即时查看生成的视频效果，并进行调整；本发明专利技术同现有技术相比，用户可以轻松地制作出具有丰富动作和精美视觉效果的数字人视频，大大提高了制作效率。

全部详细技术资料下载

【技术实现步骤摘要】

[]本专利技术涉及人工智能，具体地说是一种由文字和动作引导视频生成数字人的装置、方法及设备。

技术介绍

0、[
技术介绍
]

1、在数字媒体产业中，尤其是在游戏、影视和虚拟现实领域，数字人物的生成和动作设计是一个非常关键的环节。传统的方法通常需要借助专业的3d建模和动画工具，通过人工模型建立、贴图、设定动作等环节，来制作出高质量的数字人视频。这种方法除了需要大量的人力物力，专业知识和技术能力外，其繁琐的步骤和高昂的成本也使得普通用户难以参与和独立完成。

2、此外，任何细微的调整和改动都可能需要重新进行上述繁杂的步骤，这极大地限制了创作的灵活性。在实际应用中，加上复杂的渲染计算，这更加剧了普通用户在生成数字人视频方面的困难。同时，最后的输出只能是固定的预设动作，对于用户个人化需求的满足和即时性反馈上，现有技术也表现得非常有限。如具体的动作、环境布置或者服装搭配等要求，都需要回到复杂的制作环节，重新开始。这无疑增加了创作的时间成本，制约了个人创作和商业应用的发展。

3、以上这些都是现有技术中存在的问题，针对这些问题，本专利技术提供了一种由文字和动作引导视频生成数字人的装置，以充分解决现有技术存在的问题。

技术实现思路

0、[
技术实现思路
]

1、本专利技术的目的在于提供一种由文字和动作引导视频生成数字人的装置、方法及设备，以解决上述
技术介绍
中提出的问题。

2、本专利技术一方面，提供了一种由文字和动作引导视频生成数字人的装置，包括：</p>

3、用户接口ui，用于为用户提供一个直观、易于使用的操作平台；

4、骨架图解析器，用于接收用户上传的骨架图，处理和分析用户上传的骨架图数据，并将其转换成精确的动作，以便控制数字人物的动画；

5、文字描述解析器，用于接收用户输入的文字描述，解析衣着、背景等视觉元素的信息；

6、融合引擎模块，用于结合骨架图解析器和文字描述解析器的输出，生成数字人的动作和外观；

7、输出模块，用于允许用户即时查看生成的视频效果，并进行调整。

8、作为一种实施例，所述文字描述解析器的文本涵盖数字人物的服装、表情、肤色、发型以及周围环境的细节描述。

9、作为一种实施例，所述融合引擎模块整合解析过的骨架动作和视觉元素描述，生成协调一致的数字人形象，并确保最终视频中的动作与外观相匹配且自然流畅。

10、作为一种实施例，所述输出模块提供有反馈界面，反馈界面供用户在视频生成完毕后查看当前的成果，并根据结果调整骨架图和文字描述，以达到最佳的视觉效果和动作表现。

11、本专利技术另一方面，提供了一种由文字和动作引导视频生成数字人的方法，包括以下步骤：

12、1)用户通过comfyui上传具体的骨架图，骨架图展现了预想动作的关键帧，每帧由一系列节点和连线组成，代表数字人物的各个身体部位的位置和姿态；

13、2)骨架图解析器解析用户的骨架图，生成一系列动作数据，用于后续的数字人动作模拟；

14、3)用户在界面中输入衣着和背景的文字描述；

15、4)文字描述解析器采用自然语言处理技术，提取关键词，将描述转化为数字人的衣着风格、颜色、配饰和背景环境的详细信息；

16、5)融合引擎模块将动作数据和视觉描述合成一体，形成所有制作元素的完整表示；

17、6)用户通过输出模块查看效果，并根据结果对动作或描述进行调整；当用户满意后，保存生成最终视频。

18、作为一种实施例，步骤1)中，用户通过上传骨架图来规划数字人的动作时，该骨架图被看作一个复杂的节点网络，每个节点代表人体的某一个关节，而节点之间的连线则代表了身体的骨骼和肌肉；在该框架中，用户通过调整每一个节点的位置和角度，来控制数字人的姿态和动作。

19、作为一种实施例，步骤3)和步骤4)中，用户添加文字提示来控制数字人的衣着和背景，这些文字提示被设计成了另一套节点，其通过特定的语法和词汇描述数字人的外观和环境，将这些文字提示解析成一组视觉属性，然后将这些属性应用到数字人和背景的渲染中。

20、作为一种实施例，步骤5)中，动作节点和文字提示节点被有效地连接在一起，每当一个节点发生变化，无论是动作节点还是文字提示节点，装置都会实时地更新视频的内容，使得数字人的动作和外观能够完美地符合用户的预设。

21、作为一种实施例，步骤6)中，用户根据需要选择生成一段对应的视频，或者将其导出为动画gif或静态图像，即完成整个过程。

22、本专利技术第三方面，提出了一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的程序，当所述程序被所述处理器执行时，使得所述电子设备实现上述方法。

23、本专利技术同现有技术相比，具有如下优点：

24、(1)简化用户操作：本专利技术采用了用户友好的comfyui界面，基本无需专业技术和知识，用户只需要上传骨架图和输入文字描述，就能够生成具有复杂行为和精美视觉效果的数字人视频，极大降低了用户使用的门槛，普通用户也可以轻松初步实现数字人视频创作。

25、(2)提高生产效率：本专利技术相比于传统的数字人视频制作方式，不需经历复杂的3d建模、动作捕捉和渲染等繁琐步骤，通过骨架图和文字描述即可自动生成数字人视频，大大节省了制作时间，提高了生产效率。

26、(3)提升个性化体验：本专利技术使得用户可以通过输入不同的骨架图和文字描述，生成各种个性化的数字人视频，让制作成果更符合用户的个性化需求；同时，本专利技术还支持实时预览和调整功能，用户可以在生成过程中随时进行修改，增强了用户创作的灵活性。

27、(4)扩展使用场景：本专利技术实现了用户可以创造出各式各样的数字人视频，这些视频可以广泛应用于游戏、电影、虚拟现实、在线教育、娱乐、广告等多种场景，大大扩展了动画视频的使用场景。

28、(5)强化虚拟现实技术：本专利技术运用了人工智能技术和自然语言处理技术，意味着可在更多领域发挥技术优势；例如在虚拟现实中，用户可以利用简单的文字根据场景需求自行生成专属数字人，并实现其复杂行为。

29、(6)孵化新兴产业：在大数据和ai的驱动下，由本专利技术衍生的数字娱乐和数字模型设计等新兴行业会进一步发展，有望促进数字经济的繁荣来的生产模式提供了足够的可能性，从而可使得企业有更多计划未来发展的策略和灵活性。

本文档来自技高网...

【技术保护点】

1.一种由文字和动作引导视频生成数字人的装置，其特征在于，包括：

2.如权利要求1所述的装置，其特征在于：所述文字描述解析器的文本涵盖数字人物的服装、表情、肤色、发型以及周围环境的细节描述。

3.如权利要求1所述的装置，其特征在于：所述融合引擎模块整合解析过的骨架动作和视觉元素描述，生成协调一致的数字人形象，并确保最终视频中的动作与外观相匹配且自然流畅。

4.如权利要求1所述的装置，其特征在于：所述输出模块提供有反馈界面，反馈界面供用户在视频生成完毕后查看当前的成果，并根据结果调整骨架图和文字描述，以达到最佳的视觉效果和动作表现。

5.一种由文字和动作引导视频生成数字人的方法，其特征在于，包括以下步骤：

6.如权利要求5所述的方法，其特征在于：步骤1)中，用户通过上传骨架图来规划数字人的动作时，该骨架图被看作一个复杂的节点网络，每个节点代表人体的某一个关节，而节点之间的连线则代表了身体的骨骼和肌肉；在该框架中，用户通过调整每一个节点的位置和角度，来控制数字人的姿态和动作。

7.如权利要求6所述的方法，其特征在

8.如权利要求7所述的方法，其特征在于：步骤5)中，动作节点和文字提示节点被有效地连接在一起，每当一个节点发生变化，无论是动作节点还是文字提示节点，装置都会实时地更新视频的内容，使得数字人的动作和外观能够完美地符合用户的预设。

9.如权利要求8所述的方法，其特征在于：步骤6)中，用户根据需要选择生成一段对应的视频，或者将其导出为动画GIF或静态图像，即完成整个过程。

10.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的程序，当所述程序被所述处理器执行时，使得所述电子设备实现如权利要求5至9中任一项所述的方法。

...

【技术特征摘要】

1.一种由文字和动作引导视频生成数字人的装置，其特征在于，包括：

2.如权利要求1所述的装置，其特征在于：所述文字描述解析器的文本涵盖数字人物的服装、表情、肤色、发型以及周围环境的细节描述。

5.一种由文字和动作引导视频生成数字人的方法，其特征在于，包括以下步骤：

6.如权利要求5所述的方法，其特征在于：步骤1)中，用户通过上传骨架图来规划数字人的动作时，该骨架图被看作一个复杂的节点网络，每个节点代表人体的某一个关节，而节点之间的连线则代表了身体的骨骼和肌肉；在该框架中，用户通过调整每一个节点的...

【专利技术属性】
技术研发人员：田玉鑫，
申请(专利权)人：上海数珩信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人