基于多模态大语言模型的任意骨架运动生成方法及系统技术方案

技术编号：43641850 阅读：24 留言：0更新日期：2024-12-13 12:39

本发明专利技术公开一种基于多模态大语言模型的任意骨架运动生成方法及系统，涉及计算机技术领域，解决基于文本驱动骨架动画难以保证运动自然性和连贯性，准确性和效率较低的技术问题。该方法包括：基于多模态大语言模型理解给定的骨架结构；将给定的抽象运动描述细化为关键帧的每个关节的具体运动描述；将每个关键帧的运动描述和标准姿势进行对比，生成关键帧；对关键帧进行可视化，对可视化结果进行评价并反馈；根据关键帧的信息以及运动描述生成剩余帧；对骨架结构的全部帧进行可视化，再进行评价并反馈；将对象表面和骨架结构进行绑定，生成骨架运动。本发明专利技术通过多模态大语言模型推理并细化抽象运动描述，提高了生成任意骨架运动的准确性和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种基于多模态大语言模型的任意骨架运动生成方法及系统。

技术介绍

1、近年来，随着计算机技术的发展，大型语言模型（large language model，llm）取得了显著的进展。通过扩大数据规模和模型规模，这些llm展现出了非凡的涌现能力，通常包括指令跟随、上下文学习和思维链。尽管llm在大多数自然语言处理（natural languageprocessing，nlp）任务上展示了惊人的零样本/少样本推理性能，但它们本质上对视觉是“盲目”的，因为它们只能理解离散的文本，由此出现了多模态大型语言模型，指基于llm的模型，具有接收、推理和输出多模态信息（如文本、图像、视频等）能力的大规模神经网络模型。

2、在多模态大型语言模型出现的同时，也出现了文本驱动任意骨架动作生成技术，该技术利用一段对虚拟对象进行描述的运动描述信息来生成虚拟对象动作。基于文本驱动的任意骨架运动生成是文本与结构化运动对齐的问题，需要模型理解不同骨架之间的差异性以及统一性，并对不同的骨架采用统一的结构表示进行时序上的驱动。

3、现有技术主要有两种解决方案。一是避开驱动骨架而直接驱动表面，先预测对象的表面的关键点，以及其余表面点关于这些关键点的权重，接着通过文本来驱动这些关键点，再根据驱动后的关键点以及权重来得到其余表面点的位置。二是通过将有限的文本-骨架运动对的数据集来训练生成模型，直接通过文本为条件得到相应的骨架的运动，再通过骨骼绑定技术得到运动的表面。

4、然而，通过驱动表面关键点方案的误差

5、在实现本专利技术过程中，发现现有技术中至少存在如下问题：

6、基于文本驱动任意骨架动画难以保证未出现过的骨架运动的自然性和连贯性，生成非人骨架运动的准确性和效率较低。

技术实现思路

1、本专利技术的目的在于提供基于多模态大语言模型的任意骨架运动生成方法及系统，以解决现有技术中存在的基于文本驱动任意骨架动画难以保证骨架运动的自然性和连贯性，生成非人骨架运动的准确性和效率较低的技术问题。本专利技术提供的诸多技术方案中的优选技术方案所能产生的诸多技术效果详见下文阐述。

2、为实现上述目的，本专利技术提供了以下技术方案：

3、本专利技术提供的一种基于多模态大语言模型的任意骨架运动生成方法，包括以下步骤：s100：基于多模态大语言模型理解给定的骨架结构；s200：多模态大语言模型将给定的抽象运动描述细化为关键帧的每个关节的具体运动描述；s300：将每个关键帧的运动描述和标准姿势进行对比，生成关键帧；s400：对关键帧进行可视化，通过多模态大语言模型对可视化结果进行评价；s500：多模态大语言模型根据关键帧的信息以及运动描述生成剩余帧；s600：对骨架结构的全部帧进行可视化，多模态大语言模型再对全部帧的可视化进行评价；s700：通过骨骼绑定技术将对象表面和骨架结构进行绑定，生成骨架运动。

4、优选的，所述s400、s500步骤之间还包括：s450：根据多模态大语言模型的评价结果，调整关键帧中的关节xyz旋转轴角度。

5、优选的，所述s600、s700步骤之间还包括：s650：根据全部帧的可视化评价结果，调整非关键帧中的关节xyz旋转轴角度。

6、优选的，所述s100步骤具体包括：s110：通过多模态大语言模型提取骨架的hierarchy信息中的关节层级结构和每个关节相对于其父节点的位置信息，并通过blender软件渲染骨架的标准姿势对应的图像；s120：结合骨架的物种描述及关节层级结构，多模态大语言模型推理出每个关节的三个运动轴的物理意义；s130：多模态大语言模型将每个关节的三个运动轴和blender软件中的xyz三个旋转轴对齐；s140：多模态大语言模型对标准姿态进行自然语言描述并记忆。

7、优选的，所述s200步骤中，多模态大语言模型解析每个关键帧包含关节的详细运动，并提供三个运动轴的详细动作说明。

8、优选的，所述s300步骤中，通过推理出每个关键帧所有关节的具体xyz旋转轴角度生成关键帧。

9、优选的，所述s400步骤中，评价内容包括关节运动姿态的自然度以及整体运动的合理性，多模态大语言模型输出评价结果后还指出需要改进的地方。

10、优选的，所述s500步骤中，多模态大语言模型推理出在关键帧之间的过渡帧，以确保骨架运动的连续性和自然性，所有关节的xyz旋转轴角度将在每一帧中具体化。

11、优选的，所述s600步骤中，全部帧通过blender软件进行可视化，多模态大语言模型的评价内容包括检查整个运动序列的连贯性、每一帧的姿态合理性以及整体运动效果，并给出具体的修改意见。

12、一种基于多模态大语言模型的任意骨架运动生成系统，所述骨架运动生成系统用于运行以上任一项所述的基于多模态大语言模型的任意骨架运动生成方法。

13、实施本专利技术上述技术方案中的一个技术方案，具有如下优点或有益效果：

14、本申请通过多模态大语言模型推理并细化抽象运动描述，将抽象运动描述细化为每个关键帧的具体运动描述，对比现有基于文本驱动的骨架运动生成技术方案，更容易实现对骨架运动的对齐和理解，从而更易生成未出现过的非人骨架运动。本申请先生成关键帧的关节xyz旋转轴角度，再生成所有帧的关节xyz旋转轴角度，确保运动的自然性和连贯性，在保证准确性的基础上，有效简化了任意骨架动画生成的流程，有效提高了生成任意骨架运动的准确性和效率。

本文档来自技高网...

【技术保护点】

1.一种基于多模态大语言模型的任意骨架运动生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述S400、S500步骤之间还包括：

3.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述S600、S700步骤之间还包括：

4.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述S100步骤具体包括：

5.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述S200步骤中，多模态大语言模型解析每个关键帧包含关节的详细运动，并提供三个运动轴的详细动作说明。

6.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述S300步骤中，通过推理出每个关键帧所有关节的具体XYZ旋转轴角度生成关键帧。

7.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述S400步骤中，评价内容包括关节运动姿态的自然度以及整体运动的

8.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述S500步骤中，多模态大语言模型推理出在关键帧之间的过渡帧，以确保骨架运动的连续性和自然性，所有关节的XYZ旋转轴角度将在每一帧中具体化。

9.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述S600步骤中，全部帧通过Blender软件进行可视化，多模态大语言模型的评价内容包括检查整个运动序列的连贯性、每一帧的姿态合理性以及整体运动效果，并给出具体的修改意见。

10.一种基于多模态大语言模型的任意骨架运动生成系统，其特征在于，所述骨架运动生成系统用于运行权利要求1-9中任一项所述的基于多模态大语言模型的任意骨架运动生成方法。

...

【技术特征摘要】

1.一种基于多模态大语言模型的任意骨架运动生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述s400、s500步骤之间还包括：

3.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述s600、s700步骤之间还包括：

4.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述s100步骤具体包括：

5.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述s200步骤中，多模态大语言模型解析每个关键帧包含关节的详细运动，并提供三个运动轴的详细动作说明。

6.根据权利要求1所述的基于多模态大语言模型的任意骨架运动生成方法，其特征在于，所述s300步骤中，通过推理出每个关键帧所有关节的具体xyz旋转轴角度生成关键帧。

7.根据权利要求1所述...

【专利技术属性】
技术研发人员：段立新，徐国威，黄野，梁梓熙，蒋飞宇，李文，
申请(专利权)人：电子科技大学深圳高等研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人