一种半监督动物三维姿态估计方法、设备及存储介质技术

技术编号：42039109 阅读：9 留言：0更新日期：2024-07-16 23:24

本发明专利技术提供了一种半监督动物三维姿态估计方法、设备及存储介质，涉及视频图像处理技术领域，其方法包括：搭建多视图拍摄平台，由多视图拍摄平台拍摄获取动物视频、将动物视频进行数据集划分，并标记训练集中数据、建立具有时空约束的半监督动物三维姿态估计模型，使用训练集训练获取初始模型、使用初始模型对测试集进行姿态预测，基于时空约束条件优化模型性能获取最终的半监督动物三维姿态估计模、将待预测视频输入最终的半监督动物三维姿态估计模型，获取三维姿态估计结果设备及存储介质，用于实现方法；本发明专利技术的有益效果是：具有更高的准确性、更好的泛化能力，数据标注成本更低。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频图像处理，尤其涉及一种半监督动物三维姿态估计方法、设备及存储介质。

技术介绍

1、动物三维姿态估计是一种研究动物行为的关键技术，广泛应用于神经科学、生物学和动物行为学等领域。其目标是从动物的二维视频数据中恢复出其在三维空间中的姿态信息。

2、然而，由于动物的形态多样性、复杂的背景环境以及视角、光照等因素的影响，动物的三维姿态估计具有极高的挑战性。在现有的技术中，大多数动物三维姿态估计方法都依赖于深度学习技术，尤其是卷积神经网络。这些方法通常需要大量标记的训练数据，以训练模型预视频帧中的动物关键点。然而，获取大量标记的训练样本是一项耗时且昂贵的任务，这在很大程度上限制了这些方法的应用。此外，现有的动物三维姿态估计方法大多数都是完全监督的，这意味着它们在训练过程中完全依赖于标记的训练数据。这种方法忽略了大量未标记的数据，这些数据可能包含有用的信息，可以提高模型的泛化能力和性能。

技术实现思路

1、本专利技术的目的在于：为了解决动物三维姿态估计中模型训练样本耗时且成本高的问题，本专利技术提供了一种半监督动物三维姿态估计方法、设备及存储介质，方法的具体步骤包括：

2、s1、搭建多视图拍摄平台，由多视图拍摄平台拍摄获取动物视频；

3、s2、将动物视频进行数据集划分，并标记训练集中数据；

4、s3、建立具有时空约束的半监督动物三维姿态估计模型，使用训练集训练获取初始模型；

5、s4、使用初始模型对测试集进行姿态预测，

6、s5、将待预测视频输入最终的半监督动物三维姿态估计模型，获取三维姿态估计结果。

7、进一步地，多视图拍摄平台为相机的组合，相机位置按照不同的拍摄视角来布设，布设完成后同步拍摄，得到动物视频；

8、搭建步骤具体为：

9、建立标准坐标系统，在标准坐标系统中布设相机并记录相机位置关系，由棋盘格标定法校正相机参数，校正完成后得到多视图拍摄平台。

10、进一步地，数据集划分的具体过程为：

11、将多视图拍摄平台同一时间拍摄获取的动物视频中所有视角的2d视频帧集合组成动物的3d视频帧，以3d视频帧为最小单位将动物视频划分为训练集和测试集。

12、进一步地，标记训练集数据采取的3d标记，将训练集中的3d视频帧中的2d视频帧根据动物的姿态关键点进行标记，并利用校正的相机参数对标记进行三角测量，得到三维的标记数据。

13、进一步地，具有时空约束的半监督动物三维姿态估计模型由多视图体积三维姿态估计网络和时间与空间约束的无监督框架两个部分组成；

14、多视图体积三维姿态估计网络是3d卷积神经网络，工作过程为：

15、s31、以3d视频帧为处理单元，使用标准2d unet检测出单个3d视频帧中所有2d视频帧中的动物2d质心，通过三角测量结合动物2d质心得出该3d视频帧的3d质心；

16、s32、以3d质心作为为视频帧中动物体积的集中点，结合相机位置关系与3d质心获取动物的3d体积框架；

17、s33、将动物的3d体积框架输入3d卷积神经网络，获取预测的3d坐标。

18、进一步地，时间与空间约束框架根据半监督的时间平滑度约束和空间距离约束构建；

19、时间平滑度约束的对象为同一关键点的相邻帧，函数表达式如下：

20、

21、其中，表示时间约束函数；为训练集中3d视频帧的帧数；表示关键点的数量；表示标记的3d视频帧，表示被标记的第帧，表示被标记帧中的关键点序号；表示关键点的三维坐标；

22、空间距离约束的对象为同一视频帧中不同的关键点，函数表达式如下：

23、

24、其中，表示空间距离约束函数；为距离权重因子，为取最大值函数；r为关键点i与关键点j的实际距离；

25、在搭建好的时间与空间约束框架的基础上设定监督姿态回归损失，表达式如下：

26、

27、其中，表示监督回归损失；表示三维关键点数量；为权重参数；和分别代表标记得到的关键点的真实坐标与预测的关键点的3d坐标。

28、进一步地，步骤s4具体为：

29、将测试集数据输入获得的初始模型获取预测结果，将测试集数据的预测标签和训练集的真实标记一起用于训练，将空间距离约束的对象换成同一关键点在不同帧的表现后，利用修改后的空间距离约束来过滤和修正，最后保留满足修改后的空间距离约束的预测标签，在过程中不断迭代来优化模型。

30、进一步地，步骤s5具体为：

31、将待预测视频输入优化好的模型，得到每帧的三维关键点的预测结果，并利用视频中三维关键点的相对位置变化关系，获取动物的三维姿态估计结果。

32、一种存储介质，所述存储介质存储指令及数据用于实现一种半监督动物三维姿态估计方法。

33、一种计算机设备，包括：处理器及所述存储介质；所述处理器加载并执行所述存储介质中的指令及数据用于实现一种半监督动物三维姿态估计方法。

34、本专利技术提供的技术方案带来的有益效果是：本专利技术通过建立具有时空约束的半监督动物三维姿态估计模型，使用训练集训练获取初始模型、使用初始模型对测试集进行姿态预测，基于空间约束条件优化模型性能获取最终的半监督动物三维姿态估计模型，具有更高的准确性、更好的泛化能力，数据标注成本更低。

本文档来自技高网...

【技术保护点】

1.一种半监督动物三维姿态估计方法，其特征在于，具体步骤包括：

2.如权利要求1所述的一种半监督动物三维姿态估计方法，其特征在于，所述多视图拍摄平台为相机的组合，相机位置按照不同的拍摄视角来布设，布设完成后同步拍摄，得到动物视频；

3.如权利要求2所述的一种半监督动物三维姿态估计方法，其特征在于，所述数据集划分的具体过程为：

4.如权利要求3所述的一种半监督动物三维姿态估计方法，其特征在于，所述标记训练集数据采取的3D标记，将训练集中的3D视频帧中的2D视频帧根据动物的姿态关键点进行标记，并利用校正的相机参数对标记进行三角测量，得到三维的标记数据。

5.如权利要求4所述的一种半监督动物三维姿态估计方法，其特征在于，在搭建好的时间与空间约束框架的基础上设定监督姿态回归损失，表达式如下：

6.如权利要求5所述的一种半监督动物三维姿态估计方法，其特征在于，步骤S4具体为：

7.如权利要求6所述的一种半监督动物三维姿态估计方法，其特征在于，步骤S5具体为：

8.一种存储介质，其特征在于：所述存储介质存储指

9.一种计算机设备，其特征在于：包括：处理器及存储介质；所述处理器加载并执行存储介质中的指令及数据用于实现权利要求1~7任一项所述的一种半监督动物三维姿态估计方法。

...

【技术特征摘要】

1.一种半监督动物三维姿态估计方法，其特征在于，具体步骤包括：

3.如权利要求2所述的一种半监督动物三维姿态估计方法，其特征在于，所述数据集划分的具体过程为：

4.如权利要求3所述的一种半监督动物三维姿态估计方法，其特征在于，所述标记训练集数据采取的3d标记，将训练集中的3d视频帧中的2d视频帧根据动物的姿态关键点进行标记，并利用校正的相机参数对标记进行三角测量，得到三维的标记数据。

5.如权利要求4所述...

【专利技术属性】
技术研发人员：张晶晶，樊子阳，邬钧文，任泰锟，
申请(专利权)人：中国地质大学武汉，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人