多模态目标检测方法技术

技术编号:39814047 阅读:4 留言:0更新日期:2023-12-22 19:31
本发明专利技术实施例公开了多模态目标检测方法

【技术实现步骤摘要】
多模态目标检测方法、装置、计算机设备及存储介质


[0001]本专利技术涉及多模态大模型处理方法,更具体地说是指多模态目标检测方法

装置

计算机设备及存储介质


技术介绍

[0002]近年来,多模态生成式大模型在机器学习领域引起了广泛的关注和研究,并取得了显著的突破,已广泛应用于各行各业

然而,当前多模态大模型仅可实现针对不同模态的文字描述,缺乏对关注目标的定位能力,无法准确输出框或掩码

多模态生成式大模型的定位方式有两种,一种是将图片切分成多个子图,每个子图分别进入多模态生成式大模型进行判断,最终依靠子图在原图的位置进行目标粗定位,这种方法的定位精度不高,同时由于缺乏全图信息,可能造成模型的误判;第二种是将多模态生成式大模型与传统的目标检测框架串联,先用多模态生成式大模型判断目标是否存在,再调用目标检测模型进行定位,然而,引入传统的目标检测模型增加了计算负担,并且传统的目标检测模型的性能经常较差,误检漏检频繁,无法满足电力行业高标准的业务需求

[0003]对于上述的两种定位方式存在以下的问题,一是已存在的定位方法仅仅是对预设种类的定位,如预设种类为苹果,那么对于西瓜是无法做到准确定位的;二是已存在的定位方法是没有和用户指令联动的,如检测苹果的模型会将图中所有的苹果检测出来,如果用户发出的指令为仅仅检测桌子上的苹果,那么已存在的方法就会失效,因为它们无法理解用户的精细化指令

而在电力设备缺陷运维

通道安全监测

人员行为监控的应用领域需要对设备缺陷位置

通道隐患位置

违规人员位置进行精准定位,辅助人员快速聚焦目标区域,当前的大模型无法满足这些业务需求

[0004]因此,有必要设计一种新的方法,实现采用改进后的多模态生成式大模型进行多模态目标检测,对设备缺陷

环境隐患

人员违规行为进行精准描述和精准定位


技术实现思路

[0005]本专利技术的目的在于克服现有技术的缺陷,提供多模态目标检测方法

装置

计算机设备及存储介质

[0006]为实现上述目的,本专利技术采用以下技术方案:多模态目标检测方法,包括:
[0007]获取待检测图像以及文本指令;
[0008]将所述待检测图像以及文本指令输入至目标检测模型中进行目标检测,以得到检测结果;
[0009]输出所述检测结果;
[0010]其中,所述目标检测模型包括编码模型

向量变换模型

大语言模型以及位置解码模型;
[0011]所述目标检测模型是通过带有标注的图像以及文本指令作为样本集训练编码模型

向量变换模型

大语言模型以及位置解码模型形成的

[0012]其进一步技术方案为:所述将所述待检测图像以及文本指令输入至目标检测模型中进行目标检测,以得到检测结果,包括:
[0013]对所述待检测图像通过编码模型进行编码处理,以得到特征图;
[0014]对所述文本指令进行标注化操作,以得到标记序列;
[0015]将所述特征图以及所述标记序列通过向量变换模型结合后,输入至训练后的大语言模型中进行文本指令的回复,以得到文本回复结果;
[0016]将所述文本回复结果进行标注化操作后,形成新标记序列;
[0017]将所述特征图

所述标记序列以及所述新标记序列输入至位置解码模型中进行目标位置信息的识别,以得到监测结果

[0018]其进一步技术方案为:所述目标检测模型是通过带有标注的图像以及文本指令作为样本集训练编码模型

向量变换模型

大语言模型以及位置解码模型形成的,包括:
[0019]获取初始图像,并对所述初始图像中相同背景的图像进行去除,以得到训练图像;
[0020]对所述训练图像进行文字描述标注以及目标定位信息标注,以得到标注结果;
[0021]获取训练时的文本指令;
[0022]构建编码模型

向量变换模型

大语言模型以及位置解码模型;
[0023]将所述标注结果以及训练时的文本指令对所述编码模型

向量变换模型

大语言模型以及位置解码模型进行前向传播训练,以得到目标的种类和位置信息;
[0024]构建损失函数;
[0025]利用损失函数以及目标的种类和位置信息采用回传梯度方式更新所述大语言模型以及位置解码模型,并将更新后的所述大语言模型以及位置解码模型与所述编码模型

向量变换模型结合,以得到目标检测模型

[0026]其进一步技术方案为:所述将所述标注结果以及训练时的文本指令对所述编码模型

向量变换模型

大语言模型以及位置解码模型进行前向传播训练,以得到目标的种类和位置信息,包括:
[0027]对所述标注结果通过编码模型进行编码处理,以得到相关特征图;
[0028]对训练时的文本指令进行标注化操作,以得到训练时的标记序列;
[0029]将所述相关特征图以及所述训练时的标记序列通过向量变换模型结合后,输入至所述大语言模型中进行文本指令的回复,以得到训练时的文本回复结果;
[0030]将训练时的文本回复结果进行标注化操作后,形成训练时的新标记序列;
[0031]将相关特征图

训练时的标记序列以及训练时的新标记序列输入至位置解码模型中进行目标位置信息的识别,以得到目标的种类和位置信息

[0032]其进一步技术方案为:所述损失函数包括语言大模型的输出与标注结果中文本描述内容的损失函数

位置解码模型的输出与标注结果中目标定位信息的损失函数

[0033]其进一步技术方案为:所述利用损失函数以及目标的种类和位置信息采用回传梯度方式更新所述大语言模型以及位置解码模型,并将更新后的所述大语言模型以及位置解码模型与所述编码模型

向量变换模型结合,以得到目标检测模型,包括:
[0034]对所述损失函数求梯度信息;
[0035]利用所述梯度信息更新所述大语言模型以及位置解码模型;
[0036]将更新后的所述大语言模型以及位置解码模型与所述编码模型

向量变换模型结
合,以得到目标检测模型

[0037]本专利技术还提供了多模态目标检测装置,包括:
[0038]获取单元,用于获取待检测图像以及文本指令;
[0039]目标检测单元,用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
多模态目标检测方法,其特征在于,包括:获取待检测图像以及文本指令;将所述待检测图像以及文本指令输入至目标检测模型中进行目标检测,以得到检测结果;输出所述检测结果;其中,所述目标检测模型包括编码模型

向量变换模型

大语言模型以及位置解码模型;所述目标检测模型是通过带有标注的图像以及文本指令作为样本集训练编码模型

向量变换模型

大语言模型以及位置解码模型形成的
。2.
根据权利要求1所述的多模态目标检测方法,其特征在于,所述将所述待检测图像以及文本指令输入至目标检测模型中进行目标检测,以得到检测结果,包括:对所述待检测图像通过编码模型进行编码处理,以得到特征图;对所述文本指令进行标注化操作,以得到标记序列;将所述特征图以及所述标记序列通过向量变换模型结合后,输入至训练后的大语言模型中进行文本指令的回复,以得到文本回复结果;将所述文本回复结果进行标注化操作后,形成新标记序列;将所述特征图

所述标记序列以及所述新标记序列输入至位置解码模型中进行目标位置信息的识别,以得到监测结果
。3.
根据权利要求1所述的多模态目标检测方法,其特征在于,所述目标检测模型是通过带有标注的图像以及文本指令作为样本集训练编码模型

向量变换模型

大语言模型以及位置解码模型形成的,包括:获取初始图像,并对所述初始图像中相同背景的图像进行去除,以得到训练图像;对所述训练图像进行文字描述标注以及目标定位信息标注,以得到标注结果;获取训练时的文本指令;构建编码模型

向量变换模型

大语言模型以及位置解码模型;将所述标注结果以及训练时的文本指令对所述编码模型

向量变换模型

大语言模型以及位置解码模型进行前向传播训练,以得到目标的种类和位置信息;构建损失函数;利用损失函数以及目标的种类和位置信息采用回传梯度方式更新所述大语言模型以及位置解码模型,并将更新后的所述大语言模型以及位置解码模型与所述编码模型

向量变换模型结合,以得到目标检测模型
。4.
根据权利要求3所述的多模态目标检测方法,其特征在于,所述将所述标注结果以及训练时的文本指令对所述编码模型

向量变换模型
、...

【专利技术属性】
技术研发人员:豆泽阳庞磊蒋阳
申请(专利权)人:珠高智能科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1