感知模型的生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：38667709 阅读：22 留言：0更新日期：2023-09-02 22:47

本公开提出一种感知模型的生成方法、装置、计算机设备及存储介质，涉及人工智能技术领域，具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙等场景。包括：获取训练数据集，对图像序列中的每个图像帧进行特征提取及分割，得到每个图像帧对应的图像特征序列，然后分别输入初始感知模型中的时空特征提取网络，获取对应的时空特征序列，之后输入到初始感知模型中的感知网络，获取感知结果，然后再基于感知结果与训练数据集中的标注数据间的差异，对时空特征提取网络及感知网络进行修正，直至获取训练后的感知模型。由此，感知模型可以一次性对多个主体分别进行感知，提高了生成的感知模型在多主体场景下的效率和感知速度。下的效率和感知速度。下的效率和感知速度。

全部详细技术资料下载

【技术实现步骤摘要】
感知模型的生成方法、装置、计算机设备及存储介质

[0001]本公开涉及人工智能
，尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等
，可应用于元宇宙等场景，具体涉及一种感知模型的生成方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着短视频、直播、在线教育等行业的不断兴起，在各种交互场景中，基于人体模型重建信息进行互动的功能需求越来越多，因此需要一种更能精准地对人体模型进行3D姿态和形态感知的方法。

技术实现思路

[0003]本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]本公开第一方面实施例，提出了一种感知模型的生成方法，包括：
[0005]获取训练数据集，其中，所述训练数据集中包括多个图像序列及每个所述图像序列对应的3D姿态及形态标注数据；
[0006]对所述图像序列中的每个图像帧进行特征提取及分割，以获取每个所述图像帧对应的图像特征序列，其中所述图像特征序列中包括多个图像块的特征；
[0007]将每个所述图像特征序列，分别输入初始感知模型中的时空特征提取网络，以获取所述图像序列对应的时空特征序列；
[0008]将所述时空特征序列输入所述初始感知模型中的感知网络，以获取所述图像序列对应的感知结果；
[0009]基于所述感知结果与所述标注数据间的差异，对所述时空特征提取网络及所述感知网络进行修正，直至获取训练后的感知模型。
[0010]本公开第二方面实施例，提出了一种感知模型的生成装置，包括：/>[0011]第一获取模块，用于获取训练数据集，其中，所述训练数据集中包括多个图像序列及每个所述图像序列对应的3D姿态及形态标注数据；
[0012]第二获取模块，用于对所述图像序列中的每个图像帧进行特征提取及分割，以获取每个所述图像帧对应的图像特征序列，其中所述图像特征序列中包括多个图像块的特征；
[0013]第三获取模块，用于将每个所述图像特征序列，分别输入初始感知模型中的时空特征提取网络，以获取所述图像序列对应的时空特征序列；
[0014]第四获取模块，用于将所述时空特征序列输入所述初始感知模型中的感知网络，以获取所述图像序列对应的感知结果；
[0015]第五获取模块，用于基于所述感知结果与所述标注数据间的差异，对所述时空特征提取网络及所述感知网络进行修正，直至获取训练后的感知模型。
[0016]本公开第三方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在存
储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本公开第一方面实施例提出的感知模型的生成方法。
[0017]本公开第四方面实施例提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现如本公开第一方面实施例提出的感知模型的生成方法。
[0018]本公开第五方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，实现如本公开第一方面实施例提出的感知模型的生成方法。
[0019]本公开提供的感知模型的生成方法、装置、计算机设备及存储介质，存在如下有益效果：
[0020]本公开实施例中，首先获取训练数据集，对图像序列中的每个图像帧进行特征提取及分割，得到每个图像帧对应的图像特征序列，然后将每个图像特征序列分别输入初始感知模型中的时空特征提取网络，获取图像序列对应的时空特征序列，之后将时空特征序列输入到初始感知模型中的感知网络，获取图像序列对应的感知结果，然后再基于感知结果与训练数据集中的标注数据间的差异，对时空特征提取网络及感知网络进行修正，直至获取训练后的感知模型。由此，感知模型可以一次性对多个主体分别进行感知，提高了生成的感知模型在多主体场景下的效率和感知速度。
[0021]本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。
附图说明
[0022]本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
[0023]图1为本公开一实施例所提供的一种感知模型的生成方法的流程示意图；
[0024]图2为本公开另一实施例所提供的一种感知模型的生成方法的流程示意图
[0025]图3为本公开一实施例所提供的一种3D姿态及形态感知方法的流程示意图；
[0026]图4为本公开一实施例所提供的一种感知模型的生成装置的结构示意图；
[0027]图5为本公开一实施例所提供的一种3D姿态及形态感知装置的结构示意图；
[0028]图6示出了适于用来实现本公开实施方式的示例性计算机设备的框图。
具体实施方式
[0029]下面详细描述本公开的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。
[0030]本公开实施例涉及计算机视觉、深度学习、图像处理等人工智能

[0031]人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
[0032]深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。
[0033]计算机视觉，指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
[0034]图像处理(image processing)，通常指用计算机对图像进行分析，以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组，该数组的元素称为像素，其值称为灰度值。图像处理技术一般包括图像压缩，增强和复原，匹配、描述和识别3个部分。
[0035]本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
[0036]本公开实施例中的感知模型的生成方法，可以由本公开实施例中的感知模型的生成装置执行，该装置可以配置到计算机设备中，本公开对此不做限定。其中，计算机设备可以为任一具有计算能力的设备，例如可以为手机、平板电脑、个人电脑、个人数字助理等具有各种操作系统、触摸屏和/或显示屏的硬件设备。本公开实施例以感知模型的生成装置被配置到感知模型的生成系统中为例。
[0037]下面参考附图描述本公开实施例的感知模型的生成方法、装置、计算机设备和存储介质。
[0038]图1为本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种感知模型的生成方法，包括：获取训练数据集，其中，所述训练数据集中包括多个图像序列及每个所述图像序列对应的3D姿态及形态标注数据；对所述图像序列中的每个图像帧进行特征提取及分割，以获取每个所述图像帧对应的图像特征序列，其中所述图像特征序列中包括多个图像块的特征；将每个所述图像特征序列，分别输入初始感知模型中的时空特征提取网络，以获取所述图像序列对应的时空特征序列；将所述时空特征序列输入所述初始感知模型中的感知网络，以获取所述图像序列对应的感知结果；基于所述感知结果与所述标注数据间的差异，对所述时空特征提取网络及所述感知网络进行修正，直至获取训练后的感知模型。2.如权利要求1所述的方法，其中，还包括：在任一图像序列中包含的图像数量大于第一数量，且所述任一图像序列中包含的图像数量与所述第一数量的第一差值大于第一阈值的情况下，将所述任一图像序列分为所述第一数量个子序列，其中，每两个子序列中包含的图像数量间的第二差值小于第二阈值；从每个所述子序列中抽取一张图像，以生成新的图像序列。3.如权利要求1所述的方法，其中，还包括：在任一图像序列中包含的图像数量大于第一数量，且所述任一图像序列中包含的图像数量与所述第一数量的第一差值小于或于第一阈值的情况下，从所述任一图像序列中随机抽取所述第一数量张图像，以生成新的图像序列；或者，在任一图像序列中包含的图像数量大于第一数量的情况下，将所述任一图像序列分割为多个图像子序列，其中，分割后的每个图像子序列中包含的图像数量等于所述第一数量。4.如权利要求1所述的方法，其中，所述基于所述感知结果与所述标注数据间的差异，对所述时空特征提取网络及所述感知网络进行修正，包括：确定所述标注数据中的目标块与所述感知结果中的预测块间的第一差异、及所述标注数据中的第一姿态及形态参数与所述感知结果中的第二姿态及形态参数间的第二差异；基于所述第一差异及所述第二差异，确定修正梯度；基于所述修正梯度对所述时空特征提取网络及所述感知网络分别进行修正。5.如权利要求4所述的方法，其中，所述基于所述第一差异及所述第二差异，确定修正梯度，包括：基于所述第一差异、所述第二差异及第一权重对，确定所述感知网络对应的第一修正梯度；基于所述第一差异、所述第二差异及第二权重对，确定所述时空特征提取网络对应的第二修正梯度。6.一种3D姿态及形态感知方法，包括：获取待处理的图像序列；对所述图像序列中的每个图像帧进行特征提取及分割，以获取每个所述图像帧对应的图像特征序列，其中所述图像特征序列中包括多个图像块的特征；将每个所述图像特征序列，输入预设的感知模型，以获取所述图像序列中包含的主体
的3D姿态及形态参数，其中，所述预设的感知模型为利用如权利要求1
‑
5任一所述的方法生成的。7.如权利要求6所述的方法，其中，所述对所述图像序列中的每个图像帧进行特征提取及分割，包括：在所述图像序列中包含的图像数量大于第一数量，且所述图像序列中包含的图像数量与所述第一数量的第一差值大于第一阈值的情况下，将所述图像序列分为所述第一数量个子序列，其中，每两个子序列中包含的图像数量间的第二差值小于第二阈值；从每个所述子序列中抽取一张图像，以生成新的待处理的图像序列；将所述新的待处理的图像序列中的每个图像帧进行特征提取及分割。8.如权利要求6所述的方法，其中，所述对所述图像序列中的每个图像帧进行特征提取及分割，包括：在任一图像序列中包含的图像数量大于第一数量的情况下，将所述任一图像序列分割为多个图像子序列，其中，分割后的每个图像子序列中包含的图像数量等于所述第一数量；将每个所述图像子序列中的每个图像帧进行特征提取及分割。9.一种感知模型的生成装置，包括：第一获取模块，用于获取训练数据集，其中，所述训练数据集中包括多个图像序列及每个所述图像序列对应的3D姿态及形态标注数据；第二获取模块，用于对所述图像序列中的每个图像帧进行特征提取及分割，以获取每个所述图像帧对应的图像特征序列，其中所述图像特征序列中包括多个图像块的特征；第三获取模块，用于将每个所述图像特征序列，分别输入初始感知模型中的时空特征提取网络，以获取所述图像序列对应的时空特征序列；第四获取模块，用于将所述时空特征序列输入所述初始感知模型中的感知网络，以获取所述图像序列对应的感知结果；第五获取模块，用于基于所述感知结果与所述标注数据间的差异，对所述时空特...

【专利技术属性】
技术研发人员：杨黔生，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人