一种基于视频流传输的实时多人人体姿态估计方法及系统技术方案

技术编号：44259541 阅读：14 留言：0更新日期：2025-02-14 22:05

本发明专利技术公开了一种基于视频流传输的实时多人人体姿态估计方法及系统，该方法包括搭建客户端和服务端，并建立服务端和客户端之间的WebRTC通信连接，基于所述WebRTC通信连接客户端将获得的视频流发送至服务端；服务端对接收到的视频流按照时间顺序进行缓存、根据光流的变化进行关键帧选取、从缓存的关键帧中进行人体检测、对检测到的人体逐帧进行人体姿态估计、将人体姿态估计结果绘制在原始视频帧上进行可视化表现构成完整的骨架结构，并通过WebRTC通信连接将姿态估计结果回传至客户端。本发明专利技术提供一个高效普适且动态可变的框架进行视频流传输，能够实现高效、低延迟的姿态估计结果回传，确保客户端能够实时查看到处理后的视频流和姿态信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉与实时通信，尤其涉及一种基于视频流传输的实时多人人体姿态估计方法及系统。

技术介绍

1、人体姿态估计是计算机视觉领域的一个重要研究方向。人体姿态估计的目的是从图像或视频中检测和识别人体的关键点，如头部、肩膀、手腕、膝盖等，并根据这些关键点推断出人体的姿态和动作。人体姿态估计可以用于人机交互、运动分析、虚拟现实、安防监控等多种应用场景。

2、但人体姿态估计任务往往需要消耗大量的计算资源，对每一帧视频(图像)的处理都会带来不小的时间开销。虽然利用图形计算单元(gpu)的并行计算能力可以基本满足实时处理的要求，但是这依赖于大量的硬件资源，无法简单便捷地部署。在许多场景中实时估计和简单部署是必要的，例如，自动驾驶场景中需要实时估计行人的动作状态，以预测行人路径并避免碰撞；远程教育中需要实时估计学生的姿态，以分析学生的注意力情况并评估教学效果；视频监控中需要实时估计人的姿态和行为，以评估潜在危险并预警。这些场景中，视频流实时人体姿态估计是一项关键技术。

3、视频流实时人体姿态估计的目的是从视频流中估计人体的姿态，并实现姿态估计前后视频流以及姿态估计结果的高效实时传输。视频流实时人体姿态估计的应用场景非常广泛，可以应用于自动驾驶、远程教育、视频监控等领域。随着计算机视觉技术的发展，视频流实时人体姿态估计的应用场景越来越多，对视频流实时人体姿态估计的需求也越来越大。

4、但是视频流实时人体姿态估计是一项技术密集型工作，需要使用一个高效普适且动态可变的框架进行视频流传输，同时从视频流中

技术实现思路

1、本专利技术为了克服现有技术的缺陷,提供了一种基于视频流传输的实时多人人体姿态估计方法及系统，实现从视频流中实时且高效地估计高精度人体姿态。

2、为了解决上述技术问题，本专利技术提供如下技术方案。

3、一方面，本专利技术提供一种基于视频流传输的实时多人人体姿态估计方法，包括，

4、搭建客户端和服务端，并建立服务端和客户端之间的webrtc通信连接，基于所述webrtc通信连接客户端将获得的视频流发送至服务端；

5、服务端对接收到的视频流按照时间顺序进行缓存，并根据光流的变化进行关键帧选取；

6、服务端包括人体姿态估计模型，从缓存的关键帧中检测出所有人体，并对每个检测到的人体逐帧进行包含时序信息的人体姿态估计，预测人体关键骨骼点的位置信息；

7、服务端将预测出的骨骼关键点的位置信息绘制在原始视频帧上进行可视化表现，构成完整的骨架结构；

8、服务端通过webrtc通信连接将姿态估计结果回传至客户端。

9、进一步的，所述建立服务端和客户端之间的webrtc通信连接包括，

10、搭建网络服务器，网络服务器包括web网页服务器和信令服务器；

11、客户端通过浏览器或带有浏览器内核的轻量级客户端访问web网页服务器所提供的网页地址，web网页服务器返回一个包含webrtc相关功能的网页，客户端解析并执行该网页对应的代码，从而开始建立webrtc连接；

12、客户端获取本地媒体，并创建对应的对象关联本地媒体数据；

13、客户端和服务器之间通过信令服务器进行信息交换，确定媒体流的编解码器、格式，以及网络传输方式，从而完成客户端和服务器之间的webrtc点对点连接。

14、进一步的，所述客户端和服务器之间通过信令服务器进行的信息交换包括sdp描述、候选项以及网络信息，所述候选项包括客户端和服务端各自需要传输的媒体类型、支持的媒体流编解码器、格式和/或网络传输协议；所述网络信息包括ip地址和/或端口号。

15、进一步的，所述webrtc通信连接中包括建立的媒体信道和数据信道，所述媒体信道用于传输媒体流，所述数据信道用于数据信息。

16、进一步的，所述服务端对接收到的视频流按照时间顺序进行缓存，并根据光流的变化进行关键帧选取包括，

17、在服务端内存中预设一个队列作为缓存结构，该缓存结构最多能缓存nmax帧图像；

18、预设定基础的帧数量n和输入姿态估计模型的最小帧数量nmin，基于光流计算姿态估计需要使用的视频帧的数量nnew并进行缓存；

19、创建一个累计光流计数器flowcounter并预设定光流阈值tf，该计数器用于累加每帧与前一帧之间的光流平均大小，当flowcounter的累计值超过预设定光流阈值tf时，标记当前帧为关键帧，并将flowcounter清零。

20、进一步的，所述基于光流计算姿态估计需要使用的视频帧数量nnew包括，

21、通过nnew＝n+α(m(o)-t)计算需要使用的视频帧数量；其中，t为光流变化的阈值，用于调整对光流变化的敏感度；α为比例系数，用于调整帧数量变化的幅度；

22、通过nadjusted＝max(nmin，min(nmax，nnew))对视频帧数量进行约束，其中nadjusted为最终确定的视频帧数量，根据nadjusted缓存当前帧并删除超过该数量的最早缓存的帧；

23、将nadjusted作为基础帧数量重新计算nnew＝nadjusted，prev+α(m(o)-t)，得到最终的视频帧数量nnew。

24、进一步的，所述服务端包括人体姿态估计模型，从缓存的关键帧中检测出所有人体，并对每个检测到的人体逐帧进行包含时序信息的人体姿态估计，预测人体关键骨骼点的位置信息包括，

25、当新的视频关键帧被接收并缓存后，对缓存的关键帧通过现有的人体对象检测模型进行人体检测，获取每一帧图像中所有人体对象的像素坐标与范围，并将结果进行缓存；

26、利用现有的单人姿态估计模型分别对关键帧中的所有人体对象进行姿态估计，将图像的水平和垂直方向分成若干个等宽的区间，根据单人姿态估计模型判断每个关键点所属区间，从而获得位置信息。

27、进一步的，所述服务端将预测出的骨骼关键点的位置信息绘制在原始视频帧上进行可视化表现，构成完整的骨架结构包括，

28、通过图像处理库在关键帧上每个关键点的位置上绘制标记；

29、根据关键点连接关系，在相应的两个关键点标记之间绘制直线，形成完整的人体骨架；

30、将绘制的关键点标记和人体骨架图层叠加到原始视频帧图像上，使姿态估计结果与视频帧融合。

31、进一步的，所述服务端通过webrtc通信连接将姿态估计结果回传至客户端包括，

32、通过webrtc中的数据信道将姿态估计结果以数据包的形式发送回客户端；

3本文档来自技高网...

【技术保护点】

1.一种基于视频流传输的实时多人人体姿态估计方法，包括，

2.根据权利要求1所述的基于视频流传输的实时多人人体姿态估计方法，其特征在于，所述建立服务端和客户端之间的WebRTC通信连接包括，

3.根据权利要求2所述的基于视频流传输的实时多人人体姿态估计方法，其特征在于，所述客户端和服务器之间通过信令服务器进行的信息交换包括SDP描述、候选项以及网络信息，所述候选项包括客户端和服务端各自需要传输的媒体类型、支持的媒体流编解码器、格式和/或网络传输协议；所述网络信息包括IP地址和/或端口号。

4.根据权利要求1所述的基于视频流传输的实时多人人体姿态估计方法，其特征在于，所述WebRTC通信连接中包括建立的媒体信道和数据信道，所述媒体信道用于传输媒体流，所述数据信道用于数据信息。

5.根据权利要求1所述的基于视频流传输的实时多人人体姿态估计方法，其特征在于，所述服务端对接收到的视频流按照时间顺序进行缓存，并根据光流的变化进行关键帧选取包括，

6.根据权利要求5所述的基于视频流传输的实时多人人体姿态估计方法，其特征在于，所述基于

7.根据权利要求1所述的基于视频流传输的实时多人人体姿态估计方法，其特征在于，所述服务端包括人体姿态估计模型，从缓存的关键帧中检测出所有人体，并对每个检测到的人体逐帧进行包含时序信息的人体姿态估计，预测人体关键骨骼点的位置信息包括，

8.根据权利要求1所述的基于视频流传输的实时多人人体姿态估计方法，其特征在于，所述服务端将预测出的骨骼关键点的位置信息绘制在原始视频帧上进行可视化表现，构成完整的骨架结构包括，

9.根据权利要求4所述的基于视频流传输的实时多人人体姿态估计方法，其特征在于，所述服务端通过WebRTC通信连接将姿态估计结果回传至客户端包括，

10.根据权利要求1所述的基于视频流传输的实时多人人体姿态估计系统，其特征在于，包括，

...

【技术特征摘要】

1.一种基于视频流传输的实时多人人体姿态估计方法，包括，

2.根据权利要求1所述的基于视频流传输的实时多人人体姿态估计方法，其特征在于，所述建立服务端和客户端之间的webrtc通信连接包括，

3.根据权利要求2所述的基于视频流传输的实时多人人体姿态估计方法，其特征在于，所述客户端和服务器之间通过信令服务器进行的信息交换包括sdp描述、候选项以及网络信息，所述候选项包括客户端和服务端各自需要传输的媒体类型、支持的媒体流编解码器、格式和/或网络传输协议；所述网络信息包括ip地址和/或端口号。

4.根据权利要求1所述的基于视频流传输的实时多人人体姿态估计方法，其特征在于，所述webrtc通信连接中包括建立的媒体信道和数据信道，所述媒体信道用于传输媒体流，所述数据信道用于数据信息。

5.根据权利要求1所述的基于视频流传输的实时多人人体姿态估计方法，其特征在于，所述服务端对接收到的视频流按照时间顺序进行缓存，并根据光流的...

【专利技术属性】
技术研发人员：陈诚，潘楚文，张宏鑫，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人