当前位置: 首页 > 专利查询>浙江大学专利>正文

基于视觉大模型的移动端定向分割方法技术

技术编号:39260199 阅读:22 留言:0更新日期:2023-10-30 12:11
基于视觉大模型的移动端定向分割方法,首先利用现有遥感数据集标注正样本点标注数据集;其次,利用梯度寻优技术,以正样本点和语义特征向量为输入,目标遮罩为输出,获取特定类别语义特征;再次,经过关联模块筛选和位置语义融合再优化后,得到一个精简的定向分割大模型;最后,任选若干张遥感影像,输入模型得到指定类别的遮罩。通过上述4个步骤,可以识别出任意一种遮罩。意一种遮罩。意一种遮罩。

【技术实现步骤摘要】
基于视觉大模型的移动端定向分割方法


[0001]本专利技术属于语义分割领域,针对目前大模型无法批量进行实时预测的问题,提出了基于视觉大模型的移动端定向分割方法,实现了快速批量定向分割的效果。

技术介绍

[0002]大模型是一种新的构建人工智能系统的范式,因为其在大数据集上训练,所以具有强大的泛化能力和适应性。
[0003]最近,Meta公司开发了一种基于提示的通用任务的大模型——Segment Anything Model(SAM)。SAM进一步将大模型的不同模块解耦,采取提示(Prompt)学习的方法将分割目标的选择权交给用户,使得大模型中的编码器专职于提取大数据集的公共表征,最后利用提示编码器和解码器参与用户和提取表征的交互。SAM通过人工

模型融合标注的方法,自动标注了一千万张图像以及十亿张遮罩并且参与到训练过程中。在预测阶段,用户只需给予一点任务提示(点、框、遮罩等),SAM就可实现精准语义分割。即使是面对未出现过的场景和模糊的场景,SAM仍然保留了良好的预测能力。
[0004]虽然采取逐一标记每一张图片的方式能够得到良好的效果,但是在实际应用中往往需要快速实时地对多张图片进行语义分割。现有的基于SAM的定向分割技术在模型可迁移性、预测时间、训练成本等方面均存在问题。(1)在模型可迁移性方面,区域生成网络法因为固定提示数量,所以在大量物体的分割效果较差。头部分类法只在图像编码器上添加额外的卷积层,失去了交叉注意力机制,在域差异较大的数据集上的泛化性较差。(2)在预测时间方面,区域生成网络法和头部分类法均采用了SAM作为骨干网络,而目前SAM总参数达到了6.35亿,在英伟达3060显卡上的单张图片推断时间约为1.8秒,移动端显卡A1000上的推断时间约为18.6秒,两者预测时间均过长。(3)在训练成本方面,基于文本提示的分割方法会额外引入一个亿级参数量的文本编码层,导致模型在调优时收敛较慢。

技术实现思路

[0005]本专利技术针对SAM存在的手动标注提示、参数量过大的问题,设计了一种基于视觉大模型的移动端定向分割方法;该方法的核心思想是找到特定类别语义表征,筛选图像编码器中特定类别语义的关联模块,最后再加入位置语义融合编码模块进行密集采样,从而提升精简模型的分割性能。
[0006]一种基于视觉大模型的移动端定向分割方法,包括下列步骤:
[0007]1)获取基于梯度寻优的特定类别语义表征;
[0008]首先,初始化一个语义表征矩阵在带有正向标注和目标遮罩的数据集上梯度优化T
out
;在梯度优化过程中,本专利技术的优化目标如下:
[0009][0010]其中为Focal Loss函数,为公式(1)中预测的目标遮罩,y为标注的真实遮
罩,为Dice Loss函数,为Mean Standard Error Loss函数,P
IoU
为遮罩解码器中的预测交并比,PG
IoU
为最高分数对应的预测遮罩与真实遮罩的交并比。
[0011]其次,固定SAM中的参与图像编码的图像编码器与参与遮罩生成的遮罩解码器,只对T
out
进行梯度下降;采用AdamW优化器优化目标函数,等到目标函数收敛后,固定T
out
,微调遮罩解码器,直到目标函数再次收敛。
[0012]2)筛选图像编码器中特定类别语义关联模块;
[0013]步骤1)得到一个精准的语义特征矩阵T
out
,但模型中的图像编码器参数量仍然巨大;进一步地,考虑筛选特定模块的方式来压缩SAM。
[0014]首先,给每一个图像分块分配一个重要性系数并且再次训练并排序;根据压缩比例(Budget)剔除不重要的图像块;在剔除过程中,如果浅层图像块(Patch)被过滤,则立即把深层对应的图像块也剔除,以防止同一个位置的图像块的歧义现象;另外,在c
p,l
与图像分块嵌入做点积运算之前,先施加一次tanh函数,用以防止c
p,l
过大;总结公式如下:
[0015]z

l
=F
tanh
(c
l
)

z
l

ꢀꢀꢀꢀꢀꢀ
(2)
[0016]其中为某一层MHSA的重要性系数,F
tanh
为tanh函数,为某一层MHSA的图像块嵌入,而为重要性过滤后的图像块嵌入层。
[0017]其次,对MHSA中的查询词矩阵和关键词矩阵的特征维度D
Q
分配重要性系数c
l,h
来进行分头压缩;每一层压缩后的MHSA计算公式如下:
[0018][0019]其中A
i
为为每一个头的注意力权重矩阵,F
softmax
为softmax函数,为每一个头的Query矩阵,为每一个头的重要性系数向量,为每一个头的Key矩阵,d
q
为每一个头的维度数目,为每一头的Value矩阵,为每一个头的输出子矩阵;projection函数按分头顺序重组整合输出子矩阵得到输出矩阵
[0020]再次,本专利技术优化如下的目标函数,得到所有重要性系数参数c:
[0021][0022]其中c代表所有的重要性系数参数,为Cross

Entropy Loss函数,f代表修改过后的网络,W为模型的所有权重,y为标记好的遮罩。
[0023]最后,对所有的重要性系数参数其进行统计,得到0.2百分位点;筛选掉0.2百分位点之前的参数,再次训练得到精简模型。
[0024]3)再优化基于位置语义融合的精简模型;
[0025]首先,本专利技术逐Patch采点来获得与图像块嵌入向量一一对应的点状提示,再根据步骤1)学到的T
out
与遮罩解码器中的交并比预测头来确定筛选出的语义向量。
[0026]其次,利用余弦相似度匹配的形式计算出输入到遮罩解码器中的提示点嵌入;总结公式如下:
[0027]PE=cos(s,z)
×
PE
pos
+(1

cos(s,z))
×
PE
neg
,
ꢀꢀꢀ
(5)其中代表最终的提示点嵌入,cos表示余弦函数,代表最终的提示点嵌入,cos表示余弦函数,代表语义向量,代表图像块嵌入向量,PE
pos
代表正样本点嵌入信息,PE
neg
代表负样本点嵌入信息。
[0028]最后,将各个PE代入精简的SAM的模型,再次训练遮罩解码器;这样就得到一个能够在移动端实现快速定向分割的大模型。
[0029]优选地,步骤1)中采用AdamW优化器,其参数设置如下:一阶矩估计的指数衰减率为0.9,二阶矩估计为0.999,权重衰减系数设为0.1,算法学习率为0.00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于视觉大模型的移动端定向分割方法,包括下列步骤:1)获取基于梯度寻优的特定类别语义表征;首先,初始化一个语义表征矩阵在带有正向标注和目标遮罩的数据集上梯度优化T
out
;在梯度优化过程中,优化目标如下:其中为Focal Loss函数,为公式(1)中预测的目标遮罩,y为标注的真实遮罩,为Dice Loss函数,为Mean Standard Error Loss函数,P
IoU
为遮罩解码器中的预测交并比,PG
IoU
为最高分数对应的预测遮罩与真实遮罩的交并比;其次,固定SAM中的参与图像编码的图像编码器与参与遮罩生成的遮罩解码器,只对T
out
进行梯度下降;采用AdamW优化目标函数,等到目标函数收敛后,固定T
out
,微调遮罩解码器,直到目标函数再次收敛;2)筛选图像编码器中特定类别语义关联模块;采用筛选多头自注意力机制(Multiple

Head Self

Attention,MHSA)中的图像分块、减少查询词矩阵(Query)和关键词矩阵(Key)中的重要维度的方式来实现压缩SAM;首先,给每一个图像分块分配一个重要性系数并且通过再次训练并排序;根据压缩比例(Budget)剔除不重要的图像块;在剔除过程中,一旦浅层图像块(Patch)被过滤掉,则立即把深层对应的图像块也剔除,以防止同一个位置的图像块的歧义现象;另外,在c
p,l
与图像分块嵌入做点积运算之前,先施加一次tanh函数,用以防止c
p,l
过大;总结公式如下:z

l
=F
tanh
(c
l
)

z
l
,
ꢀꢀꢀꢀ
(2)其中为某一层MHSA的重要性系数,F
tanh
为tanh函数,为某一层MHSA的图像块嵌入,而为重要性过滤后的图像块嵌入层;其次,对MHSA中的查询词矩阵和关键词矩阵的特征维度D
Q
分配重要性系数c
l,h
来进行分头压缩;每一...

【专利技术属性】
技术研发人员:冯尊磊陈天浩宋杰宋明黎
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1