基于机器视觉的场景预测性拟合方法和系统技术方案

技术编号:39675299 阅读:9 留言:0更新日期:2023-12-11 18:41
本发明专利技术提供一种基于机器视觉的场景预测性拟合方法和系统,利用机器视觉前端,获得包含目标的场景图像;采用卷积神经网络抽取场景特征图并矢量化,并行输出场景图像中每个目标的识别类型和位置识别框;输入响应控制模块,获得针对控制目标的适应所述场景的响应控制量;本发明专利技术面向包含多类型目标和非预设类型目标且各个目标的位置和空间形态呈现高动态性变化的场景,本发明专利技术能够有效提升在以上场景下基于机器视觉实现目标识别

【技术实现步骤摘要】
基于机器视觉的场景预测性拟合方法和系统


[0001]本专利技术涉及机器视觉
,特别涉及一种基于机器视觉的场景预测性拟合方法和系统


技术介绍

[0002]机器视觉是以机器替代人类眼睛和大脑执行观察

测量

分析

判断的任务,其是当前人工智能技术发展的一个重要分支,在制造工业

道路交通

物流运输

建筑工程

机器人

视频安全监控乃至智慧家庭等领域都具备广泛的应用前景

[0003]机器视觉是一项综合性工程,包括光学成像

图像信息分析处理

目标识别

自动控制等软硬件技术相互结合

当前,机器视觉系统在效率

精确度以及对各种光线环境适应性方面,都已经远远胜于人类自身

机器视觉对于单一目标或预设类型的多种目标识别,以及对目标特征的提取分析判断和自动控制响应方面,也都已经趋于成熟

[0004]然而,在制造工厂

交通道路

物流仓储场地

建筑工地

室内空间等应用环境中,往往面临着高动态性和综合性场景,这些场景往往包含多类型目标和非预设类型目标,且面临着各个目标的位置和空间形态呈现高动态性变化的情况

[0005]在针对这些高动态性和综合性场景应用机器视觉技术时候,往往存在目标未识别率

漏识别率或误判率高

时间延迟大的问题,进而导致对于当前场景无法做出实时

正确的判断和自动控制响应

例如,道路交通领域,基于机器视觉的自动驾驶目前比较成熟的应用仍然局限于高速公路

主干道等目标比较单一

稳定的简单场景,而在机动车

非机动车

行人

动植物

各类设施等目标混杂且高度变化的非主干道路

社区内部道路等场景下则基本无法应用

又例如,对于标准化程度高的制造工厂

物流仓储场地或建筑工地,存在类型简单

固定且分布规则有序的各类目标的场景下,各种基于机器视觉的自动化控制设备和智能机器人易于应用,但对于非标准化的场景,由于各类目标的类型多样且不明确

分布规则无序性和变化性大,则现有技术中还难以提供基于机器视觉实现自动响应控制的实用解决方案


技术实现思路

[0006]本专利技术提供一种基于机器视觉的场景预测性拟合方法和系统

面向包含多类型目标和非预设类型目标且各个目标的位置和空间形态呈现高动态性变化的场景,本专利技术能够有效提升在以上场景下基于机器视觉实现目标识别

分析

判断的效率和准确率;进而,本专利技术执行适应以上场景特征的自主性的响应控制,提高了在以上场景下基于机器视觉实现的各种自动化功能的可靠性与稳定性

[0007]本专利技术提供一种基于机器视觉的场景预测性拟合方法,包括以下步骤:
[0008]步骤
S1
,利用机器视觉前端,获得包含目标的场景图像;
[0009]步骤
S2
,对于所述场景图像,采用卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,
实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框;
[0010]步骤
S3
,将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量,输入响应控制模块,获得针对控制目标的适应所述场景的响应控制量;所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的

[0011]优选的是,所述步骤
S2
具体包括:
[0012]步骤
S2A、
构造由样本场景图像和目标标签成对组成的训练集合,并构造初始化的卷积神经网络,将所述样本场景图像输入卷积神经网络进行训练,由所述卷积神经网络抽取样本场景图像的场景特征图并矢量化;
[0013]步骤
S2B、
构造并初始化用于对场景全局特征进行张量编码的编码器以及将识别目标组与场景全局特征张量执行自注意力交互解码的解码器;并将场景特征图输入所述编码器,获得场景全局特征的张量编码,再将识别目标组与场景全局特征张量执行自注意力交互解码;
[0014]步骤
S2C
,构造并初始化进行场景全局多目标并行识别的目标类型识别模型和目标位置框识别模型;再将识别目标组的目标预测解码特征输入所述目标类型识别模型和目标位置框识别模型,并行输出场景图像中每个目标的识别类型和位置识别框;
[0015]步骤
S2D、
针对训练集合的样本场景图像,目标类型识别模型和目标位置框识别模型输出的
N
个目标识别类型和位置识别框的集合,与该训练集合的目标标签的偏差计算损失函数,并获得对模型参数的估计;
[0016]步骤
S2E、
完成训练后,针对机器视觉前端提供的场景图像,采用所述卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框

[0017]优选的是,所述步骤
S2A
中,所述样本场景图像和目标标签成对组成的训练集合表示为:
[0018]其中是训练集合的训练样本总量
, 是训练样本的第张样本场景图像,是该图像的图像高度,是该图像的图像宽度;是训练集合的第张样本场景图像中最多个目标类型和目标位置框定位向量共同构成的目标标签,是预先设定的一个整数,且该整数显著大于样本场景图像中可能存在的目标个数;其中 ,是第个样本场景图像中第个目标的目标类型,是第个样本场景图像中第个目标的目标位置框的中心点坐标

框高度值和框宽度值构成的4维向量

[0019]优选的是,所述步骤
S2A
中,所述初始化的卷积神经网络是由预训练
ResNet
模型的卷积层结构以及全卷积网络构成的,该预训练
ResNet
模型的卷积层结构表示为,其中是预训练
ResNet
模型卷积层所有参数构成的参数张量,为输入该卷积神经网络的场景图像;该全卷积网络表示为,其中参数张量初始化为,且 ,表示所述卷积神经网络所生成的低分辨率的场本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于机器视觉的场景预测性拟合方法,其特征在于,包括以下步骤:步骤
S1
,利用机器视觉前端,获得包含目标的场景图像;步骤
S2
,对于所述场景图像,采用卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框;步骤
S3
,将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量,输入响应控制模块,获得针对控制目标的适应所述场景的响应控制量;所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的
。2.
根据权利要求1所述的基于机器视觉的场景预测性拟合方法,其特征在于,所述步骤
S2
具体包括:步骤
S2A、
构造由样本场景图像和目标标签成对组成的训练集合,并构造初始化的卷积神经网络,将所述样本场景图像输入卷积神经网络进行训练,由所述卷积神经网络抽取样本场景图像的场景特征图并矢量化;步骤
S2B、
构造并初始化用于对场景全局特征进行张量编码的编码器以及将识别目标组与场景全局特征张量执行自注意力交互解码的解码器;并将场景特征图输入所述编码器,获得场景全局特征的张量编码,再将识别目标组与场景全局特征张量执行自注意力交互解码;步骤
S2C
,构造并初始化进行场景全局多目标并行识别的目标类型识别模型和目标位置框识别模型;再将识别目标组的目标预测解码特征输入所述目标类型识别模型和目标位置框识别模型,并行输出场景图像中每个目标的识别类型和位置识别框;步骤
S2D、
针对训练集合的样本场景图像,目标类型识别模型和目标位置框识别模型输出的
N
个目标识别类型和位置识别框的集合,与该训练集合的目标标签的偏差计算损失函数,并获得对模型参数的估计;步骤
S2E、
完成训练后,针对机器视觉前端提供的场景图像,采用所述卷积神经网络抽取场景特征图并矢量化,进而进行场景全局特征的张量编码,将识别目标组与场景全局特征张量执行自注意力交互解码,实现场景全局多目标并行识别,并行输出场景图像中每个目标的识别类型和位置识别框
。3.
根据权利要求2所述的基于机器视觉的场景预测性拟合方法,其特征在于,所述步骤
S2A
中,所述样本场景图像和目标标签成对组成的训练集合表示为:其中是训练集合的训练样本总量
, 是训练样本的第张样本场景图像,是该图像的图像高度,是该图像的图像宽度;是训练集合的第张样本场景图像中最多个目标类型和目标位置框定位向量共同构成的目标标签,是预先设定的一个整数,且该整数显著大于样本场景图像中可能存在的目标个数;其中 ,是第个样本场景图像中第个目标的目标类型,是第个样本场景图像中第个目标的目标位置框的中心点坐标

框高度值和框宽度值构成的4维向量
。4.
根据权利要求3所述的基于机器视觉的场景预测性拟合方法,其特征在于,所述步骤
S2A
中,所述初始化的卷积神经网络是由预训练
ResNet
模型的卷积层结构以及全卷积网络构成的,该预训练
ResNet
模型的卷积层结构表示为,其中是预训练
ResNet
模型卷积层所有参数构成的参数张量,为输入该卷积神经网络的场景图像;该全卷积网络表示为,其中参数张量初始化为,且 ,表示所述卷积神经网络所生成的低分辨率的场景特征图
。5.
根据权利要求4所述的基于机器视觉的场景预测性拟合方法,其特征在于,所述步骤
S2A
中,将样本场景图像作为场景图像,输入初始化的卷积神经网络,得到低分辨率的场景特征图;所述场景...

【专利技术属性】
技术研发人员:李岩霍树义叶云鹏宋春初郭连建张薇吉庆昌
申请(专利权)人:河北省南运河河务中心
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1