一种基于强化学习的机器视觉多尺度方法及系统技术方案

技术编号：40444985 阅读：13 留言：0更新日期：2024-02-22 23:06

本发明专利技术公开了一种基于强化学习的机器视觉多尺度方法及系统，包括：利用五层不同尺度特征图像，构建多尺度金字塔模型；使用多尺度金字塔模型进行特征提取与升维，将原始图像量化为高维矩阵；利用强化学习算法训练第二、三、四图层的尺度选择策略，在训练好的尺度选择策略下，选择合适的尺度图层；对改进的强化学习算法进行环境设置，引入到多尺度金字塔模型中；将选定的尺度图层与原始图像的高维矩阵进行特征融合，实现图像目标精准检测。本发明专利技术针对不同的检测目标数据进行不同的尺度选择，使得选取的特征尺度可以尽可能包括多的特征进行融合，方便后续的检测，并且减少特征信息的重叠降低计算量，更有利于图像目标精准检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，尤其涉及一种基于强化学习的机器视觉多尺度方法及系统。

技术介绍

1、近年来，机器视觉多尺度方法是一种用于处理图像和视频数据的技术，它旨在从不同尺度上获取有关图像内容的信息。这种方法在处理不同尺度的特征、对象和结构时非常有用，可以提高视觉任务的准确性和稳健性。以下是机器视觉中常见的多尺度方法的介绍：

2、1.金字塔方法(pyramid methods)：金字塔方法是一种通过在不同尺度下生成图像的分辨率级别来处理图像的方法。高斯金字塔是其中一种常见形式，它通过不断对图像进行平滑和降采样来构建图像金字塔。这可以帮助检测不同尺度下的对象和特征。

3、2.小波变换(wavelet transform)：小波变换是一种将图像分解为不同频率分量的方法，从而能够捕获不同尺度下的信息。小波变换可以分析图像的局部特征，提取细节信息，并在不同尺度上进行分析。

4、3.多尺度滤波器(multiscale filters)：多尺度滤波器是一种应用于图像的滤波器，它可以在不同尺度下检测和增强图像中的特征。这些滤波器可以用于边缘检测、纹理分析等任务。

5、4.卷积神经网络中的多尺度方法：在卷积神经网络(cnn)中，多尺度方法常用于处理不同大小的对象。例如，多尺度卷积核可以同时捕获不同尺度的特征。此外，池化层可以降低特征图的尺寸，从而捕获不同层次的信息。

6、机器视觉中的多尺度金字塔虽然在许多情况下非常有用，但也存在一些局限性。

7、尺度选择挑战：选择合适的尺度层数

8、尺度变形问题：在多尺度金字塔中，图像在不同尺度下可能发生变形，特别是对于形状和结构相关的任务。这可能会影响目标的形状识别和定位。

9、现有的金字塔在不同尺度的变化过程中都是固定的倍数关系，对于不同的数据集应用效果较差。

技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊，而这种简化或省略不能用于限制本专利技术的范围。

2、鉴于上述现有存在的问题，提出了本专利技术。

3、因此，本专利技术提供了一种基于强化学习的机器视觉多尺度方法解决现有的多尺度处理图像的方法目标检测准确性较差的问题。

4、为解决上述技术问题，本专利技术提供如下技术方案：

5、第一方面，本专利技术提供了一种基于强化学习的机器视觉多尺度方法，包括：

6、利用五层不同尺度特征图像，构建多尺度金字塔模型；

7、其中第一图层为原始尺度，第五图层为目标尺度，第二、三、四图层经过强化学习算法进行训练。

8、使用多尺度金字塔模型进行特征提取与升维，将原始图像量化为高维矩阵；

9、利用强化学习算法训练第二、三、四图层的尺度选择策略，在训练好的尺度选择策略下，选择合适的尺度图层；

10、对改进的强化学习算法进行环境设置，引入到多尺度金字塔模型中；

11、将选定的尺度图层与原始图像的高维矩阵进行特征融合，实现图像目标精准检测。

12、作为本专利技术所述的基于强化学习的机器视觉多尺度方法的一种优选方案，其中：所述第二、三、四图层经过强化学习算法进行训练，在当前状态下选择一个尺度，以图层所对应的高维矩阵与第一图层和第五图层的高维矩阵之间的相似度作为奖励信号，选择能够在特定任务中最小化相似度的尺度。

13、作为本专利技术所述的基于强化学习的机器视觉多尺度方法的一种优选方案，其中：所述对改进的强化学习算法进行环境设置，引入到多尺度金字塔模型中，包括以下步骤：

14、注册新环境：创建一个新的python类来定义环境，新的python类继承自gym.env类，并使用实现环境的必要方法；

15、强化学习算法中的状态设置：先将输入的图像通过卷积进行特征提取转化为特征图，再通过全连接层进行特征升维，将图像的高度和宽度设置为强化学习环境中的状态；

16、强化学习算法中的动作设置：根据当前状态来选择一个动作，其中动作0表示增大分辨率，动作1表示减小分辨率；

17、当选择增大分辨率的动作时，采用双线性插值算法进行图像的放大；

18、当选择减小分辨率的动作时，采用下采样方法来减少图像中的像素数量；

19、强化学习算法中的奖励设置：针对高维矩阵之间的相似度计算，选择最适合的相似度度量方法；

20、将卷积得到的n*n的高征矩阵降维成一维向量，再进行后续的相似度计算；

21、将高维矩阵转换为一维向量后，将采取相似度度量策略，以衡量不同尺度图层之间的差异；

22、作为本专利技术所述的基于强化学习的机器视觉多尺度方法的一种优选方案，其中：所述高征矩阵降维成一维向量，采用高维矩阵展开方法，按维度展开像素点，将n*n的高维矩阵m转化为1*m的一维向量v，一维向量公式表示为：

23、v＝[m1，1，m1，2，...，m1，n，m2，1，m2，2，...，m2，n，...，mn，1，mn，2，...，mn，n]

24、其中，v中的每个元素对应矩阵m中的一个像素点。

25、作为本专利技术所述的基于强化学习的机器视觉多尺度方法的一种优选方案，其中：所述相似度度量策略采用改进的最大体积策略，包括以下步骤：

26、将原始图层对应的一维向量即norm1，与目标尺度对应的一维向量norm5进行归一化；

27、第一个训练尺度也就是第二图层对应转化的一维向量为norm2，将norm1、norm2、norm5统一到同一个笛卡尔坐标系，计算构成的三棱锥体积；

28、当norm2与norm1和norm5均垂直的时候构成最大体积，针对第二图层训练过程设置奖励函数；

29、第二个训练尺度，也就是图像金字塔的第三图层对应转换的一维向量norm3，将四个向量归一化，将norm1、norm2、norm3、norm5统一在一个坐标系下，求得四个向量构成的最大体积，针对第三图层训练过程设置奖励函数；

30、第四图层训练图像对应的一维向量norm4，将五个向量归一化，并统一坐标系，计算五个向量构成的最大体积，针对第四图层训练过程设置奖励函数。

31、作为本专利技术所述的基于强化学习的机器视觉多尺度方法的一种优选方案，其中：所述针对第二图层训练过程设置奖励函数表示为：

32、reward1∝v1(norm1，norm2，norm5)

33、所述针对第三图层训练过程设置奖励函数表示为：

34、reward2∝v2(norm1，norm2，norm3，norm5)

35、所述针对第四图层训练本文档来自技高网...

【技术保护点】

1.一种基于强化学习的机器视觉多尺度方法，其特征在于，包括：

2.如权利要求1所述的基于强化学习的机器视觉多尺度方法，其特征在于：所述第二、三、四图层经过强化学习算法进行训练，在当前状态下选择一个尺度，以图层所对应的高维矩阵与第一图层和第五图层的高维矩阵之间的相似度作为奖励信号，选择能够在特定任务中最小化相似度的尺度。

3.如权利要求1或2所述的基于强化学习的机器视觉多尺度方法，其特征在于：所述对改进的强化学习算法进行环境设置，引入到多尺度金字塔模型中，包括以下步骤：

4.如权利要求3所述的基于强化学习的机器视觉多尺度方法，其特征在于：所述高征矩阵降维成一维向量，采用高维矩阵展开方法，按维度展开像素点，将N*N的高维矩阵M转化为1*M的一维向量V，一维向量公式表示为：

5.如权利要求4所述的基于强化学习的机器视觉多尺度方法，其特征在于：所述相似度度量策略采用改进的最大体积策略，包括以下步骤：

6.如权利要求5所述的基于强化学习的机器视觉多尺度方法，其特征在于：所述针对第二图层训练过程设置奖励函数表示为：

8.一种基于强化学习的机器视觉多尺度系统，其特征在于：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其存储有程序，其特征在于，所述程序被处理器执行时，实现如权利要求1-7任一项所述的基于强化学习的机器视觉多尺度方法。

...

【技术特征摘要】

1.一种基于强化学习的机器视觉多尺度方法，其特征在于，包括：

4.如权利要求3所述的基于强化学习的机器视觉多尺度方法，其特征在于：所述高征矩阵降维成一维向量，采用高维矩阵展开方法，按维度展开像素点，将n*n的高维矩阵m转化为1*m的一维向量v，一维向量公式表示为：<...

【专利技术属性】
技术研发人员：宋智功，牛云腾，
申请(专利权)人：江南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人