【技术实现步骤摘要】
多模态目标检测方法、装置、计算机设备及存储介质
[0001]本专利技术涉及多模态大模型处理方法,更具体地说是指多模态目标检测方法
、
装置
、
计算机设备及存储介质
。
技术介绍
[0002]近年来,多模态生成式大模型在机器学习领域引起了广泛的关注和研究,并取得了显著的突破,已广泛应用于各行各业
。
然而,当前多模态大模型仅可实现针对不同模态的文字描述,缺乏对关注目标的定位能力,无法准确输出框或掩码
。
多模态生成式大模型的定位方式有两种,一种是将图片切分成多个子图,每个子图分别进入多模态生成式大模型进行判断,最终依靠子图在原图的位置进行目标粗定位,这种方法的定位精度不高,同时由于缺乏全图信息,可能造成模型的误判;第二种是将多模态生成式大模型与传统的目标检测框架串联,先用多模态生成式大模型判断目标是否存在,再调用目标检测模型进行定位,然而,引入传统的目标检测模型增加了计算负担,并且传统的目标检测模型的性能经常较差,误检漏检频繁,无法满足电力行业高标准的业务需求
。
[0003]对于上述的两种定位方式存在以下的问题,一是已存在的定位方法仅仅是对预设种类的定位,如预设种类为苹果,那么对于西瓜是无法做到准确定位的;二是已存在的定位方法是没有和用户指令联动的,如检测苹果的模型会将图中所有的苹果检测出来,如果用户发出的指令为仅仅检测桌子上的苹果,那么已存在的方法就会失效,因为它们无法理解用户的精细化指令
。
而在电力设备缺陷 ...
【技术保护点】
【技术特征摘要】
1.
多模态目标检测方法,其特征在于,包括:获取待检测图像以及文本指令;将所述待检测图像以及文本指令输入至目标检测模型中进行目标检测,以得到检测结果;输出所述检测结果;其中,所述目标检测模型包括编码模型
、
向量变换模型
、
大语言模型以及位置解码模型;所述目标检测模型是通过带有标注的图像以及文本指令作为样本集训练编码模型
、
向量变换模型
、
大语言模型以及位置解码模型形成的
。2.
根据权利要求1所述的多模态目标检测方法,其特征在于,所述将所述待检测图像以及文本指令输入至目标检测模型中进行目标检测,以得到检测结果,包括:对所述待检测图像通过编码模型进行编码处理,以得到特征图;对所述文本指令进行标注化操作,以得到标记序列;将所述特征图以及所述标记序列通过向量变换模型结合后,输入至训练后的大语言模型中进行文本指令的回复,以得到文本回复结果;将所述文本回复结果进行标注化操作后,形成新标记序列;将所述特征图
、
所述标记序列以及所述新标记序列输入至位置解码模型中进行目标位置信息的识别,以得到监测结果
。3.
根据权利要求1所述的多模态目标检测方法,其特征在于,所述目标检测模型是通过带有标注的图像以及文本指令作为样本集训练编码模型
、
向量变换模型
、
大语言模型以及位置解码模型形成的,包括:获取初始图像,并对所述初始图像中相同背景的图像进行去除,以得到训练图像;对所述训练图像进行文字描述标注以及目标定位信息标注,以得到标注结果;获取训练时的文本指令;构建编码模型
、
向量变换模型
、
大语言模型以及位置解码模型;将所述标注结果以及训练时的文本指令对所述编码模型
、
向量变换模型
、
大语言模型以及位置解码模型进行前向传播训练,以得到目标的种类和位置信息;构建损失函数;利用损失函数以及目标的种类和位置信息采用回传梯度方式更新所述大语言模型以及位置解码模型,并将更新后的所述大语言模型以及位置解码模型与所述编码模型
、
向量变换模型结合,以得到目标检测模型
。4.
根据权利要求3所述的多模态目标检测方法,其特征在于,所述将所述标注结果以及训练时的文本指令对所述编码模型
、
向量变换模型
、...
【专利技术属性】
技术研发人员:豆泽阳,庞磊,蒋阳,
申请(专利权)人:珠高智能科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。