当前位置: 首页 > 专利查询>北京大学专利>正文

基于网络的视觉分析制造技术

技术编号:33762732 阅读:14 留言:0更新日期:2022-06-12 14:12
本申请提供了一种用于基于网络的视觉分析的视觉数据传输方法。所述方法包括:在成像设备处获得与场景相关的传感器数据;基于所述传感器数据从深度学习模型的中间层提取中间深层特征;基于所述中间深层特征生成编码视频数据;以及将所述编码视频数据传送至视觉分析装置,以根据所述编码视频数据进行视觉分析。本申请还提供了相应的基于网络的可视化分析方法。所述方法包括:在视觉分析装置处接收来自成像装置的编码视频数据,所述成像装置被配置为获得与场景相关的传感器数据;基于所述编码视频数据生成解码视频数据;基于所述解码视频数据生成深度学习模型的中间深层特征;并基于所述中间深层特征进行视觉分析。本申请还相应地提供了一种用于基于网络的视觉分析的视觉数据传输的成像设备和一种用于基于网络的视觉分析的视觉分析设备。视觉分析的视觉分析设备。视觉分析的视觉分析设备。

【技术实现步骤摘要】
【国外来华专利技术】基于网络的视觉分析
[0001]相关申请的交叉引用
[0002]本申请要求于2019年9月11日提交的新加坡专利申请第10201908371Q号的优先权,其内容通过整体引入的方式并入本文以用于所有目的。


[0003]本申请总体上涉及基于网络的视觉分析,更具体地,涉及一种用于基于网络的视觉分析的视觉数据传输方法、用于基于网络的视觉分析的视觉数据传输的相应成像设备、相应的基于网络的视觉分析方法、相应的基于网络的视觉分析的视觉分析装置以及相应的基于网络的视觉分析系统。
[0004]专利技术背景
[0005]随着网络基础设施的进步,近年来基于网络(如基于云)的视觉分析应用呈现爆炸式增长,如监控分析、智慧城市、视觉定位、自动驾驶等。在基于云的视觉分析中,视觉信号由前端(在本文中可互换地称为前端设备、前侧设备、边缘侧设备、边缘设备等)获取,并且分析在服务器端(其可互换称为服务器、云端、云服务器、云端服务器、云端侧服务器等)完成。例如,如图1所示,前端设备可以从用户或物理世界获取信息,这些信息随后可以通过无线网络传输到服务器端(例如,数据中心)以进行进一步的处理和分析。特别地,图1描绘了示例性基于网络的视觉分析应用的示意图。图像和视频可以在前端获取,分析可以在服务器端(例如,云端)进行。随着深度学习模型在计算机视觉(例如各种计算机视觉任务)中表现出无与伦比的性能,视觉分析应用程序(例如基于云的视觉分析)越来越依赖于深层神经网络(DNNs),例如对象检测、车辆和人员重识别(ReID)、车牌识别、人脸识别、行人检测、地标检索、自动驾驶等。
[0006]对于前端和服务器端之间的数据通信,最传统的范例可以被称为“压缩

然后

分析”,例如,如图2A所示。特别地,图2A图示了与传统的“压缩

然后

分析”方法相关的视觉信号传输。通过传输视觉信号,可以在云端执行一系列视觉分析任务。因此,包括特征提取和分析在内的计算负载被强加在云端。因此,视觉信号在前端设备中被捕获和压缩,然后编码比特流被传送到云端服务器。随后,可以根据解码的视觉信号在云端服务器中执行特征提取和视觉分析任务。作为范例的基础架构,图像/视频压缩已经得到了很好的发展和成熟。作为当前一代的视频编码标准,与上一代H.264/MPEG

4高级视频编码(AVC)相比,高效视频编码(HEVC)在相同的感知视觉质量水平下实现了一半的比特率降低。下一代视频编码标准化,多功能视频编码(VVC)正在进行中,并且已经实现了优于HEVC的性能。
[0007]尽管得到了完善的标准和基础设施的支持,但当系统扩大规模时,“压缩

然后

分析”的范例是有问题的。例如,在物联网(IoT)和视频监控等应用场景中,成千上万的前端摄像头可以同时生成大量的视觉信号。传输带宽可能是一个瓶颈,因为信号级压缩受到高传输负担的影响。此外,视觉信号的特征提取是计算密集型的,尤其是使用深层神经网络,这使得在云端服务器中同时分析大规模视觉数据变得难以承受。也就是说,信号级视觉压缩带来了很高的传输负担,同时为特征提取而同时执行的众多深度学习模型的计算负载也成
为云端的一个重要瓶颈。
[0008]图2B描绘了用于前端和服务器端之间的数据通信的另一种策略“分析

然后

压缩”。特别地,图2B说明了与传统的“分析

然后

压缩”方法相关的最终特征(即顶层特征,例如来自深层神经网络的全连接层的深层特征)传输。计算负载可以分配到前端设备。使用这种策略,数据采集和特征提取都发生在前端设备中,并且只有最终使用的特征(即顶层特征,在本文中可以互换地称为最终特征)而不是视觉信号被压缩并传输到云端。特别是,图2B说明了与传统的“分析

然后

压缩”方法相关的最终特征传输。通过这种方法,可以将计算负载分配到前端设备。但是,根据前端使用的深度模型,只能在服务器端执行特定类型的分析。它为大规模的基于云的可视化分析系统提供了一个可行的解决方案,因为它的终极特性是紧凑的,能够在云端直接用于分析。此外,可以提取最终特征以反映抽象语义,这在很大程度上消除了输入信号中的可见信息。
[0009]因此,可以通过传达最终特征而不是信号级数据通信来控制隐私泄露的风险。这种范例也得到了一些手工制作的终极特征的特征编码标准的支持。在图像检索应用的背景下,运动图像专家组(MPEG)于2015年发布了用于视觉搜索的紧凑描述符(CDVS)。基于CDVS、MPEG提出了用于视频分析的紧凑描述符标准化(CDVA)来处理视频检索应用程序。
[0010]对于手工制作的终极特征,来自MPEG的包括MPEG

CDVS和MPEG

CDVA的标准可以指定特征提取和压缩过程。对于深度学习特征,将深度学习模型的顶层特征(最终特征,例如来自深层神经网络的全连接层的深层特征)传输到云端,因为深度模型的顶层特征是结构紧凑,可以直接用于分析。例如,在人脸识别任务中,人脸的终极特征可能只有脸书换脸软件中的4K、谷歌人脸识别系统中的128、商汤科技DeepID3中的300。在这种场景下,只需要在云服务器上进行特征比较等轻量级操作,而将特征提取的繁重工作量分散到前端。此外,传输终极特征也可能有利于隐私保护。特别是,与其直接传递容易暴露隐私的视觉信号,最终的特征通信可以在很大程度上避免暴露可见信息。
[0011]尽管传达最终特征的数据传输策略可能具有许多优点,但可能阻碍最终特征通信的实际实施的一个障碍是最终特征通常位于特定任务的,这使得传输的特征(最终特征)难以应用于各种分析任务。也就是说,可能阻碍深度学习特征压缩应用的一个障碍是,深度学习模型通常是为特定任务设计和训练的,最终特征非常抽象和任务特定,使得这种压缩特征(最终特征)难于通用。这也可能阻碍深层特征编码的进一步标准化,因为标准化的深层特征可能需要很好地泛化以确保在各种应用场景中的互操作性。
[0012]因此存在提供基于网络的视觉分析的需要,例如用于基于网络的视觉分析的视觉数据传输方法和基于网络的视觉分析的相应方法,其寻求克服或至少改善传统的基于网络的可视化分析中的一个或多个缺陷,例如但不限于在执行可视化分析时减少服务器端的计算负载,而不会过度或不令人满意地限制不同类型的可视化分析范围内的服务器端的可用性或可应用性的应用程序或任务。正是在这种背景下开发了本申请。

技术实现思路

[0013]根据本申请的第一方面,提供了一种用于基于网络的视觉分析的视觉数据传输方法,所述方法包括:
[0014]在成像设备处获得与场景相关的传感器数据;
[0015]基于所述传感器数据从深度学习模型的中间层提取中间深层特征;
[0016]基于所述中间深层特征生成编码视频数据;和
[0017]将所述编码视频数据传输到视觉分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种基于网络的视觉分析的视觉数据传输方法,所述方法包括:在成像设备处获得与场景相关的传感器数据;基于所述传感器数据从深度学习模型的中间层提取中间深层特征;基于所述中间深层特征生成编码视频数据;和将所述编码视频数据传输到视觉分析设备,用于基于所述编码视频数据进行视觉分析。2.根据权利要求1所述的方法,其特征在于,所述编码视频数据是基于一视频编解码器生成的。3.根据权利要求2所述的方法,其特征在于,所述中间深层特征包括多个特征图,所述方法还包括基于所述多个特征图生成视频格式数据,以及所述生成编码视频数据包括使用视频编解码器编码视频格式数据以生成所述生编码视频数据。4.根据权利要求3所述的方法,其特征在于,所述生成视频格式数据包括基于重新打包技术重新打包多个特征图以生成所述视频格式数据。5.根据权利要求4所述的方法,其特征在于,所述重新打包技术基于信道级联或信道平铺。6.根据权利要求5所述的方法,其特征在于,所述重新打包技术基于所述信道级联,所述信道级联包括确定与所述多个特征图相关联的多个信道间距离,每个信道间距离与所述多个特征图的一对特征图相关联,以及所述重新打包多个特征图包括通过基于确定的多个信道间距离对所述多个特征图进行排序来形成多个重新打包的特征图,以生成包括多个重新打包的特征图的视频格式数据。7.根据权利要求5所述的方法,其特征在于,所述重新打包技术基于所述信道平铺,所述信道平铺包括基于所述多个特征图形成一个或多个重新打包的特征图以生成所述视频格式数据,所述视频格式包括一个或多个重新打包的特征图,每个重新打包的特征图是放大的特征图。8.根据权利要求3至7中任一项所述的方法,还包括:对所述多个特征图进行量化,以分别获得多个量化特征图,其中,所述视频格式数据是基于所述多个量化特征图生成的。9.根据权利要求3至7中任一项所述的方法,还包括:判断所述多个特征图是浮点格式还是整数格式;和当确定所述多个特征图为浮点格式,则对所述多个特征图分别进行量化,其中,当确定所述多个特征图为整数格式,则基于所述多个特征图生成视频格式数据,而无需对所述多个特征图进行量化,或者当确定所述多个特征图为浮点格式,则基于所述多个量化的特征图生成视频格式数据。10.根据权利要求8或9所述的方法,其中,所述多个特征图基于均匀量化技术、对数量化技术或基于学习的自适应量化技术进行量化。11.一种基于网络的视觉分析方法,所述方法包括:在视觉分析装置处接收来自成像装置的编码视频数据,所述成像装置被配置为获得与
场景相关的传感器数据;基于所述编码视频数据生成解码视频数据;基于所述解码视频数据生成深度学习模型的中间深层特征;和基于所述中间深层特征进行视觉分析。12.根据权利要求11所述的方法,其特征在于,所述生成解码视频数据包括使用视频编解码器解码所述编码视频数据以生成包括视频格式数据的所述解码视频数据。13.根据权利要求12所述的方法,其特征在于,所述中间深层特征包括多个特征图。14.根据权利要求13所述的方法,其特征在于,所述生成中间深层特征包括基...

【专利技术属性】
技术研发人员:陈卓范逵林维斯段凌宇葛治中
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1