一种基于大模型的数字人生成方法、系统、装置制造方法及图纸

技术编号：42131548 阅读：11 留言：0更新日期：2024-07-25 00:45

本发明专利技术公开一种基于大模型的数字人生成方法、系统、装置，包括以下步骤：定义数字人模型，所述数字人模型包括多个维度的标准数字人模型；获取定制数据；所述定制数据至少包括形象图片、应用场景、多媒体素材；处理所述定制数据，根据所述定制数据生成基于形象图片的自定义数字人形象以及多媒体素材。本发明专利技术可以根据实际应用情况自定义视频场景，满足不同场景以及不同内容的业务需求。基于形象图片生成自定义数字人，使用户感受到更为生动的视听效果，能够快速生成生动直观的数字人播报视频，使用户更容易理解和接受相关内容提高信息传达效果和用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字交互，尤其涉及一种基于大模型的数字人生成方法、系统、存储介质。

技术介绍

1、传统的信息传达方式主要依赖于文字、图片等形式，在信息传递效果方面不够生动直观、用户体验相对较弱。在视频领域，需要专业技术，生产效率无法大幅提升。

2、当下互联网产业已经来到了一个新的临界点，无论是用户的使用时间还是手机上的硬件水平，都即将达到现有技术条件下的生物和物理极限。互联网需要新的突破，既要增加空间上的体验维度，又要大幅增加既定时间的使用价值，这一变化又必然是长周期的，长期演化过程中，虚拟世界需要有一个抓手，通过数字人进行交互。

3、由于支持数字人的应用场景以及需求不尽相同，为了满足不同应用场景的要求，媒体内容创作者对于不同数字人的形象或者内容，通常需要进行多次创作，例如，通过不同模态对应的媒体工具，分别创作不同模态的媒体内容，这样会增加媒体内容创作者的工作量，降低媒体内容的创作效率。

技术实现思路

1、为克服
技术介绍
的问题，本申请提供了一种基于大模型的数字人生成方法、系统、装置，满足不同场景以及不同内容的业务需求，使用户更容易理解和接受相关内容提高信息传达效果和用户体验。

2、本专利技术提供一种基于大模型的数字人生成方法，包括以下步骤：

3、定义数字人模型，所述数字人模型包括多个维度的标准数字人模型；

4、获取定制数据；所述定制数据至少包括形象图片、应用场景、多媒体素材；

5、处理所述定制数据，根据所述定制数

6、在一些实施方式中，处理所述定制数据，根据所述定制数据生成基于形象图片的自动机数字人形象以及多媒体素材，包括：

7、提取定制数据中的应用场景、产品名称、文案数据和/或数字人数据；

8、根据变量映射表确定文案数据对应的文案变量以及ai指令模板；

9、根据文案变量以及ai指令模板、产品名称，通过大语言模型生成文案素材；

10、根据所述文案素材与视频类型、名称生成视频数据；

11、结合形象图片、所述数字人数据以及视频数据，生成基于形象图片的自定义数字人形象以及包含自定义数字人形象的多媒体素材。

12、在一些实施方式中，根据变量映射表确定文案数据对应的文案变量以及ai指令模板，包括：

13、确定文案数据中变量名称、变量编码以及成果物类型，通过变量映射表确定对应的ai指令模板；所述变量映射表包括变量名称、变量编码、成果物类型以及变量状态；所述ai指令模板包括模板名称、指令内容以及成果物变量。

14、在一些实施方式中，根据文案变量以及ai指令模板、产品名称，通过大语言模型生成文案素材，包括：

15、将产品名称替换ai指令模板中的变量名称，获取产品名称对应的提示词内容，通过llm大模型根据提示词内容进行文案优化，生成文案素材。

16、在一些实施方式中，结合形象图片、所述数字人数据以及视频数据，生成基于形象图片的自定义数字人形象以及包含自定义数字人形象的多媒体素材包括：

17、所述数字人数据包括数字人性别、形象、音色的至少一项确定数字人的性别、音色，根据性别及音色合成声音；

18、将形象图片通过ai绘图模型生成数字人形象。

19、在一些实施方式中，包含该数字人形象的多媒体素材，还包括：

20、获取视频场景模板，通过fmpeg工具对视频数据进行去背景、整合所述视频场景模板，在所述视频场景模板中添加数字人形象，生成多媒体素材。

21、在一些实施方式中，还包括：

22、存储所述数字人形象以及多媒体素材，所述多媒体素材包括文案素材以及视频素材。

23、本专利技术还提供一种基于大模型的数字人生成系统，包括：

24、数字人模型管理模块，定义数字人模型，所述数字人模型包括多个维度的标准数字人模型；

25、应用定制模块，基于应用场景信息以及定制信息生成获取定制数据；所述定制数据至少包括形象图片、应用场景、类型、多媒体素材；

26、多媒体素材生成模块，处理所述定制数据，基于所述定制数据生成数字人形象以及多媒体素材。

27、本专利技术还提供一种基于大模型的数字人生成装置，包括：

28、存储有可执行程序代码的存储器；

29、与所述存储器耦合的处理器；

30、所述处理器调用所述存储器中存储的所述可执行程序代码，执行如上任一项所述的一种基于大模型的数字人生成方法。

31、本申请提供了一种基于大模型的数字人生成方法、系统、装置，可以根据实际应用情况自定义视频场景，满足不同场景以及不同内容的业务需求。同时基于形象图片生成自定义数字人，使用户感受到更为生动的视听效果，能够快速生成生动直观的数字人播报视频，使用户更容易理解和接受相关内容提高信息传达效果和用户体验。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的数字人生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于大模型的数字人生成方法，其特征在于，处理所述定制数据，根据所述定制数据生成基于形象图片的自动机数字人形象以及多媒体素材，包括：

3.根据权利要求2所述的一种基于大模型的数字人生成方法，其特征在于，根据变量映射表确定文案数据对应的文案变量以及AI指令模板，包括：

4.根据权利要求1-3任一项所述的一种基于大模型的数字人生成方法，其特征在于，根据文案变量以及AI指令模板、产品名称，通过大语言模型生成文案素材，包括：

5.根据权利要求2所述的一种基于大模型的数字人生成方法，其特征在于，结合形象图片、所述数字人数据以及视频数据，生成基于形象图片的自定义数字人形象以及包含自定义数字人形象的多媒体素材包括：

6.根据权利要求1-3任一项所述的一种基于大模型的数字人生成方法，其特征在于，包含该数字人形象的多媒体素材，还包括：

7.根据权利要求1-3任一项所述的一种基于大模型的数字人生成方法，其特征在于，还包括：

9.一种基于大模型的数字人生成装置，其特征在于，包括：

...

【技术特征摘要】

1.一种基于大模型的数字人生成方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种基于大模型的数字人生成方法，其特征在于，根据变量映射表确定文案数据对应的文案变量以及ai指令模板，包括：

4.根据权利要求1-3任一项所述的一种基于大模型的数字人生成方法，其特征在于，根据文案变量以及ai指令模板、产品名称，通过大语言模型生成文案素材，包括：

<...

【专利技术属性】
技术研发人员：王梓羽，柳进，赵杨，
申请(专利权)人：广东钰顺数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人