基于机器视觉的场景预测性拟合方法和系统技术方案

技术编号：39675299 阅读：9 留言：0更新日期：2023-12-11 18:41

本发明专利技术提供一种基于机器视觉的场景预测性拟合方法和系统，利用机器视觉前端，获得包含目标的场景图像；采用卷积神经网络抽取场景特征图并矢量化，并行输出场景图像中每个目标的识别类型和位置识别框；输入响应控制模块，获得针对控制目标的适应所述场景的响应控制量；本发明专利技术面向包含多类型目标和非预设类型目标且各个目标的位置和空间形态呈现高动态性变化的场景，本发明专利技术能够有效提升在以上场景下基于机器视觉实现目标识别

全部详细技术资料下载

【技术实现步骤摘要】
基于机器视觉的场景预测性拟合方法和系统

[0001]本专利技术涉及机器视觉
，特别涉及一种基于机器视觉的场景预测性拟合方法和系统
。

技术介绍

[0002]机器视觉是以机器替代人类眼睛和大脑执行观察
、
测量
、
分析
、
判断的任务，其是当前人工智能技术发展的一个重要分支，在制造工业
、
道路交通
、
物流运输
、
建筑工程
、
机器人
、
视频安全监控乃至智慧家庭等领域都具备广泛的应用前景
。
[0003]机器视觉是一项综合性工程，包括光学成像
、
图像信息分析处理
、
目标识别
、
自动控制等软硬件技术相互结合
。
当前，机器视觉系统在效率
、
精确度以及对各种光线环境适应性方面，都已经远远胜于人类自身
。
机器视觉对于单一目标或预设类型的多种目标识别，以及对目标特征的提取分析判断和自动控制响应方面，也都已经趋于成熟
。
[0004]然而，在制造工厂
、
交通道路
、
物流仓储场地
、
建筑工地
、
室内空间等应用环境中，往往面临着高动态性和综合性场景，这些场景往往包含多类型目标和非预设类型目标，且面临着各个目标的位置和空间形态呈现高动态性变化的情况
。
[0005]...

【技术保护点】

【技术特征摘要】
1.
一种基于机器视觉的场景预测性拟合方法，其特征在于，包括以下步骤：步骤
S1
，利用机器视觉前端，获得包含目标的场景图像；步骤
S2
，对于所述场景图像，采用卷积神经网络抽取场景特征图并矢量化，进而进行场景全局特征的张量编码，将识别目标组与场景全局特征张量执行自注意力交互解码，实现场景全局多目标并行识别，并行输出场景图像中每个目标的识别类型和位置识别框；步骤
S3
，将场景图像中表示每个目标的识别类型和位置识别框的向量作为场景特征向量，输入响应控制模块，获得针对控制目标的适应所述场景的响应控制量；所述响应控制量是通过将所述场景特征向量与期望场景特征向量预测性拟合所得的
。2.
根据权利要求1所述的基于机器视觉的场景预测性拟合方法，其特征在于，所述步骤
S2
具体包括：步骤
S2A、
构造由样本场景图像和目标标签成对组成的训练集合，并构造初始化的卷积神经网络，将所述样本场景图像输入卷积神经网络进行训练，由所述卷积神经网络抽取样本场景图像的场景特征图并矢量化；步骤
S2B、
构造并初始化用于对场景全局特征进行张量编码的编码器以及将识别目标组与场景全局特征张量执行自注意力交互解码的解码器；并将场景特征图输入所述编码器，获得场景全局特征的张量编码，再将识别目标组与场景全局特征张量执行自注意力交互解码；步骤
S2C
，构造并初始化进行场景全局多目标并行识别的目标类型识别模型和目标位置框识别模型；再将识别目标组的目标预测解码特征输入所述目标类型识别模型和目标位置框识别模型，并行输出场景图像中每个目标的识别类型和位置识别框；步骤
S2D、
针对训练集合的样本场景图像，目标类型识别模型和目标位置框识别模型输出的
N
个目标识别类型和位置识别框的集合，与该训练集合的目标标签的偏差计算损失函数，并获得对模型参数的估计；步骤
S2E、
完成训练后，针对机器视觉前端提供的场景图像，采用所述卷积神经网络抽取场景特征图并矢量化，进而进行场景全局特征的张量编码，将识别目标组与场景全局特征张量执行自注意力交互解码，实现场景全局多目标并行识别，并行输出场景图像中每个目标的识别类型和位置识别框
。3.
根据权利要求2所述的基于机器视觉的场景预测性拟合方法，其特征在于，所述步骤
S2A
中，所述样本场景图像和目标标签成对组成的训练集合表示为：其中是训练集合的训练样本总量
, 是训练样本的第张样本场景图像，是该图像的图像高度，是该图像的图像宽度；是训练集合的第张样本场景图像中最多个目标类型和目标位置框定位向量共同构成的目标标签，是预先设定的一个整数，且该整数显著大于样本场景图像中可能存在的目标个数；其中，是第个样本场景图像中第个目标的目标类型，是第个样本场景图像中第个目标的目标位置框的中心点坐标
、
框高度值和框宽度值构成的4维向量
。4.
根据权利要求3所述的基于机器视觉的场景预测性拟合方法，其特征在于，所述步骤
S2A
中，所述初始化的卷积神经网络是由预训练
ResNet
模型的卷积层结构以及全卷积网络构成的，该预训练
ResNet
模型的卷积层结构表示为，其中是预训练
ResNet
模型卷积层所有参数构成的参数张量，为输入该卷积神经网络的场景图像；该全卷积网络表示为，其中参数张量初始化为，且，表示所述卷积神经网络所生成的低分辨率的场景特征图
。5.
根据权利要求4所述的基于机器视觉的场景预测性拟合方法，其特征在于，所述步骤
S2A
中，将样本场景图像作为场景图像，输入初始化的卷积神经网络，得到低分辨率的场景特征图；所述场景...

【专利技术属性】
技术研发人员：李岩，霍树义，叶云鹏，宋春初，郭连建，张薇，吉庆昌，
申请(专利权)人：河北省南运河河务中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人