用于检测对象的系统和方法技术方案

技术编号：43485484 阅读：10 留言：0更新日期：2024-11-29 16:56

本文描述的技术涉及用于检测图像中的对象的计算机化方法和设备。本文描述的技术还涉及使用预训练的机器学习模型和可以在现场训练过程中训练的一个或多个其他机器学习模型来检测一个或多个对象的计算机化方法和装置。预训练的机器学习模型可以是深度机器学习模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本技术涉及机器视觉系统和方法，尤其涉及用于检测对象的系统和方法。

技术介绍

1、可能需要检测图像中的对象，例如字符。可以使用各种技术来检测图像中的对象。例如，光学字符识别(ocr)技术经常用于许多机器视觉系统中，以便检测与各种制造过程相关的文本，例如印刷和/或粘贴在机器零件上的文本。然而，为给定的ocr应用程序设置参数可能很困难，尤其是对于新用户。例如，对于字符识别，用户可以选择ocr字符串周围的区域，以向机器视觉系统指示用于进行ocr处理的字符在哪里。如果系统不能正确识别字符，用户很难手动解决问题。此外，与这些问题可以提前解决(例如，通过系统集成商)的一些应用程序不同，作为制造过程一部分的参数调整通常需要技术人员或工程师在实际生产现场解决这些问题(例如，训练或修改运行时间参数以提供更好的ocr)。例如，当制造新零件或使用新的印刷或标签时，可能需要这种训练或调整。

技术实现思路

1、本公开涉及用于检测图像中诸如字符的对象的技术。所描述的技术的一些方面提供了用于识别图像中的一个或多个对象的计算机化方法、非暂时性计算机可读介质和/或系统。该方法包括确定图像的特征图。该方法可以使用预训练的机器学习模型来确定特征图。预训练的机器学习模型可以是深度机器学习模型。该方法还包括使用第一机器学习模型处理图像的特征图，以生成该图像的对象中心热图，其中该对象中心热图包括多个样本，每个样本具有一个值，该值指示该图像中的对应样本是对象中心的可能性。该方法还包括基于该对象中心热图确定图像中一个或多个对象的位

2、在一些实施例中，识别该一个或多个对象中的至少一个对象包括：使用该图像的该特征图的一部分生成对象特征向量，其中该特征图的一部分是基于该对象位置周围的区域；使用该第二机器学习模型来处理该对象特征向量以生成类别向量，其中该类别向量包括多个值，每个值对应于多个已知标签中的一个；以及使用该类别向量将该对象分类到该多个已知标签中的一个标签。

3、在一些实施例中，类别向量的每个值指示与多个已知标签中对应的一个标签相关联的预测分数，并且对对象进行分类包括在该类别向量的多个值中选择最大值，其中所选择的值对应于该标签。

4、在一些实施例中，该多个已知标签包括多个文本字符标签。

5、在一些实施例中，该多个已知标签还包括背景标签。

6、在一些实施例中，该方法还包括使用相应的机器学习方法并使用相应的一组现场训练数据来训练该第一机器学习模型和该第二机器学习模型中的每一个。

7、在一些实施例中，该一个或多个对象包括包含在该图像中的零件上的一个或多个印刷文本字符；并且该方法还包括使用从该一个或多个文本字符中已识别的至少一个文本字符来跟踪该零件。

8、在一些实施例中，确定该一个或多个对象的位置包括：平滑该对象中心热图以生成被平滑的对象中心热图；以及选择该一个或多个对象的位置，其中该被平滑的对象中心热图中的每个相应位置处的值高于该位置的邻近区域中的值。

9、在一些实施例中，平滑对象中心热图包括应用具有与对象大小成比例的标准偏差的高斯滤波器。

10、在一些实施例中，选择位置还包括过滤其在该被平滑的对象中心热图中的值低于阈值的一个或多个位置。

11、在一些实施例中，该第一机器学习模型包括权重向量；该图像的该特征图包括多个样本，每个样本与相应的特征向量相关联；并且该对象中心热图中每个样本的值是该特征图中相应样本的特征向量和权重向量的点积。

12、在一些实施例中，确定该图像的该特征图包括：使用预训练的神经网络模型处理该图像，以生成该图像的该特征图。

13、在一些实施例中，该方法还包括使用1d条形码扫描仪或2d条形码扫描仪捕获该图像。

14、在一些实施例中，提供了一种非暂时性计算机可读介质，其包括指令，当由计算设备上的一个或多个处理器执行时，所述指令可操作来使得该一个或多个处理器执行上述任何方法。

15、在一些实施例中，提供了一种系统，该系统包括：扫描仪，该扫描仪包括配置成捕获检查站上的零件的图像的图像捕获设备；以及处理器，配置成执行编程指令以执行包括上述任何方法的操作。

16、所描述的技术的一些方面提供了用于识别图像中的一个或多个字符的计算机化方法、非暂时性计算机可读介质和/或系统。在一些实施例中，一种方法包括使用预训练的机器学习模型来处理图像，以生成图像的特征图；使用第一机器学习模型处理该图像的该特征图，以生成该图像的字符中心热图，其中该字符中心热图包括多个样本，每个样本具有指示该图像中的对应样本是字符中心的可能性的值；以及使用第二机器学习模型处理该图像的该特征图和该图像的该字符中心热图，以识别该图像中的一个或多个字符。

17、在一些实施例中，识别一个或多个字符中的至少一个字符包括：使用该图像的该特征图和该图像的该字符中心热图生成字符特征向量；使用该第二机器学习模型处理该字符特征向量，以生成类别向量，其中该类别向量包括多个值，每个值对应于多个已知标签中的一个；以及使用该类别向量将字符分类到该多个已知标签中的一个标签。

18、在一些实施例中，该类别向量的每个值指示与该多个已知标签中对应的一个标签相关联的预测分数，并且对该字符进行分类包括在该类别向量的多个值中选择最大值，其中所选择的值对应于该标签。

19、在一些实施例中，该多个已知标签还包括背景标签。

20、在一些实施例中，该方法还包括基于字符中心热图来确定一个或多个字符在图像中的位置，其中为至少一个字符生成字符特征向量包括使用图像的特征图的一部分来生成字符特征向量，其中特征图的一部分是基于字符位置周围的区域。

21、在一些实施例中，确定该一个或多个字符的位置包括：平滑该字符中心热图以生成被平滑的字符中心热图；以及选择该一个或多个字符的位置，其中该被平滑的字符中心热图中的每个相应位置处的值高于该位置的邻近区域中的值。

22、在一些实施例中，平滑该字符中心热图包括应用具有与字符大小成比例的标准偏差的高斯滤波器。

23、在一些实施例中，选择位置还包括过滤其在该被平滑的字符中心热图中的值低于阈值的一个或多个位置。

24、在一些实施例中，第一机器学习模型包括权重向量；图像的特征图包括多个样本，每个样本与相应的特征向量相关联；并且字符中心热图中每个样本的值是特征图中相应样本的特征向量和权重向量的点积。

25、在一些实施例中，该方法包括通过以下步骤训练该第二机器学习模型：获得多个训练图像和多个训练标签，该多个训练标签中的每一个与该多个训练图像中的相应一个中的字符相关联；分别使用该多个训练图像之一和该预训练机器学习模型来确定多个训练特征图；以及使用该多个训练特征图本文档来自技高网...

【技术保护点】

1.一种计算机化方法，用于检测图像中的一个或多个对象，所述方法包括：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求2所述的方法，其中识别所述一个或多个对象中的对象包括：

4.根据权利要求3所述的方法，其中：

5.根据权利要求3和4中任一项所述的方法，其中所述多个已知标签包括多个文本字符标签。

6.根据权利要求3和4中任一项所述的方法，其中所述多个已知标签还包括背景标签。

7.根据权利要求2-6中任一项所述的方法，还包括使用相应的机器学习方法并使用相应的一组现场训练数据来训练所述第一机器学习模型和所述第二机器学习模型中的每一个。

8.根据权利要求2-6中任一项所述的方法，其中：

9.根据权利要求1-8中任一项所述的方法，其中确定所述一个或多个对象的位置包括：

10.根据权利要求9所述的方法，其中平滑所述对象中心热图包括应用具有与对象大小成比例的标准偏差的高斯滤波器。

11.根据权利要求9和10中任一项所述的方法，其中选择所述位置还包括过滤其在所述被平滑

12.根据权利要求1-11中任一项所述的方法，其中：

13.根据权利要求1-12中任一项所述的方法，其中确定所述图像的所述特征图包括：

14.根据权利要求1-13中任一项所述的方法，还包括使用1D条形码扫描仪或2D条形码扫描仪捕获所述图像。

15.一种非暂时性计算机可读介质，包括指令，当由计算设备上的一个或多个处理器执行时，所述指令可操作来使所述一个或多个处理器执行权利要求1-14中任一项所述的方法。

16.一种系统，包括：

17.一种计算机化方法，用于识别图像中的一个或多个字符，所述方法包括：

18.根据权利要求17所述的方法，其中识别所述一个或多个字符中的至少一个字符包括：

19.根据权利要求18所述的方法，其中：

20.根据权利要求18和19中任一项所述的方法，其中所述多个已知标签还包括背景标签。

21.根据权利要求18-20中任一项所述的方法，还包括基于所述字符中心热图来确定所述一个或多个字符在所述图像中的多个位置，其中生成所述至少一个字符的所述字符特征向量包括使用所述图像的特征图的一部分来生成所述字符特征向量，其中所述特征图的一部分是基于所述字符的所述位置周围的区域。

22.根据权利要求21所述的方法，其中确定所述一个或多个字符的位置包括：

23.根据权利要求22所述的方法，其中平滑所述字符中心热图包括应用具有与字符大小成比例的标准偏差的高斯滤波器。

24.根据权利要求22和23中任一项所述的方法，其中选择所述位置还包括过滤其在所述被平滑的字符中心热图中的值低于阈值的一个或多个位置。

25.根据权利要求17-24中任一项所述的方法，其中：

26.根据权利要求17-25中任一项所述的方法，还包括通过以下方式训练所述第二机器学习模型：

27.根据权利要求26所述的方法，其中确定所述第二机器学习模型的所述权重包括：

28.根据权利要求27所述的方法，其中确定所述第二机器学习模型的权重包括对所述字符特征向量和所述目标向量使用机器学习方法。

29.根据权利要求27和28中任一项所述的方法，还包括：

30.根据权利要求29所述的方法，其中所述特征图的所述部分由以相应训练图像中的训练标签的位置为中心的边界框表示。

31.根据权利要求29和30中任一项所述的方法，其中，确定对应的字符特征向量包括连接多个子特征向量，每个子特征向量是基于所述特征图的所述部分中的相应位置而形成的。

32.根据权利要求17-31中任一项所述的方法，还包括通过以下方式训练所述第二机器学习模型：

33.根据权利要求32所述的方法，确定所述第一机器学习模型的权重包括使用机器学习方法确定所述第一机器学习模型的权重。

34.根据权利要求32和33中任一项所述的方法，其中确定所述多个真实字符中心热图包括多个样本，每个样本具有基于到所述训练图像中的训练标签的最近真实位置的距离的值。

35.根据权利要求17至34中任一项所述的方法，还包括：

36.根据权利要求35所述的方法，还包括：

37.根据权利要求17-36中任一项所述的方法，其中：

38.一种非暂时性计算机可读介质，包括指令，当由计算设备上的一个或多个处理器执行时，所述...

【技术特征摘要】
【国外来华专利技术】