用于高效对象检测的基于显著性的输入重采样制造技术

技术编号：41770811 阅读：4 留言：0更新日期：2024-06-21 21:47

一种使用进行视频处理的处理器实现的方法包括经由人工神经网络(ANN)接收包括第一帧和第二帧的视频。基于该视频的该第一帧来生成显著性图。基于该显著性图来对该视频的该第二帧进行采样。以第一分辨率对该第二帧的第一部分进行采样，并且以第二分辨率对该第二帧的第二部分进行采样。该第一分辨率不同于该第二分辨率。基于该第二帧的该采样来生成经重采样的第二帧。该经重采样的第二帧被处理以确定与该视频相关联的推断。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开的各方面总体涉及经由人工神经网络的视频处理。

技术介绍

1、人工神经网络可以包括互连的人工神经元组(例如，神经元模型)。人工神经网络可以是计算设备或表示为由计算设备执行的方法。

2、神经网络由消耗张量和产生张量的操作数组成。神经网络可以被用来解决复杂问题；然而，由于网络大小和可被执行以产生解决方案的运算量可能是浩繁的，因此网络完成任务的时间可能很长。此外，由于这些任务可在移动设备(其可能具有有限的计算能力)上执行，因此深度神经网络的计算成本可能会有问题。

3、卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合，其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(cnn)(诸如深度卷积神经网络(dcn))具有众多应用。具体而言，这些神经网络架构被用于各种技术，诸如图像识别、模式识别、语音识别、自动驾驶和其他分类任务。

4、神经网络在基于图像的视频或视频流处理方面也有众多应用，诸如人体姿态估计、对象检测、语义表义以及视频压缩和去噪。遗憾的是，此类视频处理是计算密集型的，这可能会导致大量的处理时间以及增加的存储器成本和功率消耗。

5、当神经网络被部署在具有有限计算资源和功率资源的设备上时，这些挑战可能会加剧。例如，用于任务关键系统(诸如自主驾驶和视频监视)的此类神经网络的许多当前具体实施可仅针对任务准确性进行优化且可不考虑设备上的计算成本或运行时间。

6、另外，4k相机技术的出现通过使得能够在场景中发现更详细的内容而呈现了新的机会，这可以使得能

技术实现思路

1、本公开在独立权利要求中分别阐述。本公开的一些方面在从属权利要求中描述。

2、在本公开的各方面，一种使用人工神经网络(ann)进行视频处理的处理器实现的方法包括：接收包括第一帧和第二帧的视频。该方法还包括基于该视频的该第一帧来生成显著性图。该方法还包括基于该显著性图来对该视频的该第二帧进行采样。以第一分辨率对该第二帧的第一部分进行采样，并且以第二分辨率对该第二帧的第二部分进行采样。该第一分辨率不同于该第二分辨率。该方法附加包括基于该采样来生成经重采样的第二帧。该方法更进一步包括处理该经重采样的第二帧以确定与该视频相关联的推断。

3、在本公开的其他方面，提供了一种用于使用人工神经网络(ann)进行视频处理的装置。该装置具有存储器以及耦合到该存储器的一个或多个处理器。该处理器被配置为接收包括第一帧和第二帧的视频。该处理器还被配置为基于该视频的该第一帧来生成显著性图。该处理器被进一步配置为基于该显著性图来对该视频的该第二帧进行采样。以第一分辨率对该第二帧的第一部分进行采样，并且以第二分辨率对该第二帧的第二部分进行采样。该第一分辨率不同于该第二分辨率。该处理器另外被配置为基于该采样来生成经重采样的第二帧。该处理器进一步被配置为处理该经重采样的第二帧以确定与该视频相关联的推断。

4、在本公开的其他方面，公开了一种非暂态计算机可读介质。该非暂态计算机可读介质具有用于使用人工神经网络进行视频处理的程序代码。该程序代码由处理器执行并且包括用于接收包括第一帧和第二帧的视频的程序代码。该程序代码还包括用于基于该视频的该第一帧来生成显著性图的程序代码。该程序代码还包括用于基于该显著性图来对该视频的该第二帧进行采样的程序代码。以第一分辨率对该第二帧的第一部分进行采样，并且以第二分辨率对该第二帧的第二部分进行采样。该第一分辨率不同于该第二分辨率。该程序代码附加包括用于基于该采样来生成经重采样的第二帧的程序代码。此外，该程序代码包括用于处理该经重采样的第二帧以确定与该视频相关联的推断的程序代码。

5、在本公开的又其他方面，提供了一种用于使用人工神经网络(ann)进行视频处理的装置。该装置包括用于接收包括第一帧和第二帧的视频的装置。该装置还包括用于基于该视频的该第一帧来生成显著性图的装置。该装置还包括用于基于该显著性图来对该视频的该第二帧进行采样的装置。以第一分辨率对该第二帧的第一部分进行采样，并且以第二分辨率对该第二帧的第二部分进行采样。该第一分辨率不同于该第二分辨率。该装置附加包括用于基于该采样来生成经重采样的第二帧的装置。该装置还包括用于处理该经重采样的第二帧以确定与该视频相关联的推断的装置。

6、本公开的附加特征和优点将在下文描述。本领域技术人员应当理解，本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到，此类等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而，要清楚理解的是，提供附图中的每一幅附图均仅用于解说和描述目的，并且无意作为对本公开的限定的定义。

本文档来自技高网...

【技术保护点】

1.一种使用人工神经网络(ANN)进行视频处理的处理器实现的方法，所述方法包括：

2.根据权利要求1所述的处理器实现的方法，其中所述第一部分对应于所述显著性图中包括的多个边界框中的一个边界框的位置。

3.根据权利要求2所述的处理器实现的方法，其中所述第一部分的所述第一分辨率大于所述第二分辨率。

4.根据权利要求1所述的处理器实现的方法，所述方法进一步包括：

5.根据权利要求4所述的处理器实现的方法，其中基于学习到的缩放行为来生成所述经重采样的第二帧。

6.根据权利要求1所述的处理器实现的方法，所述方法还包括基于所述显著性图来以第三分辨率对所述第二帧的第三部分进行采样，所述第三分辨率不同于所述第一分辨率和所述第二分辨率。

7.根据权利要求1所述的处理器实现的方法，其中所述ANN包括第一神经网络模型和第二神经网络模型，所述第一神经网络模型被配置为具有比所述第二神经网络模型更大的处理能力，并且所述方法还包括：

8.一种用于使用人工神经网络(ANN)进行视频处理的装置，所述装置包括：

9.根据

10.根据权利要求9所述的装置，其中所述第一部分的所述第一分辨率大于所述第二分辨率。

11.根据权利要求8所述的装置，其中所述至少一个处理器被进一步配置为：

12.根据权利要求11所述的装置，其中所述至少一个处理器被进一步配置为基于学习到的缩放行为来生成所述经重采样的第二帧。

13.根据权利要求8所述的装置，其中所述至少一个处理器被进一步配置为基于所述显著性图来以第三分辨率对所述第二帧的第三部分进行采样，所述第三分辨率不同于所述第一分辨率和所述第二分辨率。

14.根据权利要求8所述的装置，其中所述ANN包括第一神经网络模型和第二神经网络模型，所述第一神经网络模型被配置为具有比所述第二神经网络模型更大的处理能力，并且所述至少一个处理器被进一步配置为：

15.一种非暂态计算机可读介质，所述非暂态计算机可读介质上记录有用于使用人工神经网络(ANN)进行视频处理的程序代码，所述程序代码由处理器执行并且包括：

16.根据权利要求15所述的非暂态计算机可读介质，其中所述第一部分对应于所述显著性图中包括的多个边界框中的一个边界框的位置。

17.根据权利要求16所述的非暂态计算机可读介质，其中所述第一部分的所述第一分辨率大于所述第二分辨率。

18.根据权利要求15所述的非暂态计算机可读介质，所述非暂态计算机可读介质还包括：

19.根据据权利要求18所述的非暂态计算机可读介质，所述非暂态计算机可读介质还包括用于基于学习到的缩放行为来生成所述经重采样的第二帧的程序代码。

20.根据权利要求15所述的非暂态计算机可读介质，所述非暂态计算机可读介质还包括用于基于所述显著性图来以第三分辨率对所述第二帧的第三部分进行采样的程序代码，所述第三分辨率不同于所述第一分辨率和所述第二分辨率。

21.根据权利要求15所述的非暂态计算机可读介质，其中所述ANN包括第一神经网络模型和第二神经网络模型，所述第一神经网络模型被配置为具有比所述第二神经网络模型更大的处理能力，并且所述非暂态计算机可读介质还包括：

22.一种用于使用人工神经网络(ANN)进行视频处理的设备，所述设备包括：

23.根据权利要求22所述的设备，其中所述第一部分对应于所述显著性图中包括的多个边界框中的一个边界框的位置。

24.根据权利要求23所述的设备，其中所述第一部分的所述第一分辨率大于所述第二分辨率。

25.根据权利要求22所述的设备，所述设备还包括：

26.根据权利要求25所述的设备，所述设备还包括用于基于学习到的缩放行为来生成所述经重采样的第二帧的装置。

27.根据权利要求22所述的设备，所述设备还包括用于基于所述显著性图来以第三分辨率对所述第二帧的第三部分进行采样的装置，所述第三分辨率不同于所述第一分辨率和所述第二分辨率。

28.根据权利要求22所述的设备，其中所述ANN包括第一神经网络模型和第二神经网络模型，所述第一神经网络模型被配置为具有比所述第二神经网络模型更大的处理能力，并且所述设备还包括：

...

【技术特征摘要】
【国外来华专利技术】

1.一种使用人工神经网络(ann)进行视频处理的处理器实现的方法，所述方法包括：

2.根据权利要求1所述的处理器实现的方法，其中所述第一部分对应于所述显著性图中包括的多个边界框中的一个边界框的位置。

3.根据权利要求2所述的处理器实现的方法，其中所述第一部分的所述第一分辨率大于所述第二分辨率。

4.根据权利要求1所述的处理器实现的方法，所述方法进一步包括：

5.根据权利要求4所述的处理器实现的方法，其中基于学习到的缩放行为来生成所述经重采样的第二帧。

7.根据权利要求1所述的处理器实现的方法，其中所述ann包括第一神经网络模型和第二神经网络模型，所述第一神经网络模型被配置为具有比所述第二神经网络模型更大的处理能力，并且所述方法还包括：

8.一种用于使用人工神经网络(ann)进行视频处理的装置，所述装置包括：

9.根据权利要求8所述的装置，其中所述第一部分对应于所述显著性图中包括的多个边界框中的一个边界框的位置。

10.根据权利要求9所述的装置，其中所述第一部分的所述第一分辨率大于所述第二分辨率。

11.根据权利要求8所述的装置，其中所述至少一个处理器被进一步配置为：

12.根据权利要求11所述的装置，其中所述至少一个处理器被进一步配置为基于学习到的缩放行为来生成所述经重采样的第二帧。

14.根据权利要求8所述的装置，其中所述ann包括第一神经网络模型和第二神经网络模型，所述第一神经网络模型被配置为具有比所述第二神经网络模型更大的处理能力，并且所述至少一个处理器被进一步配置为：

15.一种非暂态计算机可读介质，所述非暂态计算机可读介质上记录有用于使用人工神...

【专利技术属性】
技术研发人员：B·艾特沙米·贝诺狄，A·歌德拉蒂，F·M·波利克里，A·哈比比安，
申请(专利权)人：高通股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人