System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,提供了一种车辆密集场景中的图像-文本跨模态车辆检索模型训练方法。
技术介绍
1、随着数字化和信息化的快速发展,社交媒体、监控网点、电子商务等平台上的图文数据不断产生,智能交通体系的发展逐渐倾向于提高多模态的信息处理和对比能力。图文匹配作为跨模态检索中的基础技术,旨在将相关联的文本和图像准确地匹配起来,在交通场景中有至关重要的作用,比如车辆检索、目标车辆重识别等。目前,针对交通场景的图文匹配模型无法准确地关注到图像中的主要语义,从而无法提取与画面主语义一直的图像特征。
2、综上所述,现有的交通场景图像-文本跨模态车辆检索存在如下缺点:
3、1)现有的车辆检索模型只根据模态间相似度与实际值之间的差异来更新检索模型的网络参数,而没有考虑这些图像特征是否反应了画面的主要语义;
4、2)跨模态图文匹配任务中常用的三元组损失无法准确度量图像主要语义与文本语义之间的相似度是否与实际值相符。
5、上述现有技术存在的缺点会影响图文匹配模型在车辆密集的交通场景中的应用,使其无法高效地检索出符合文本描述的车辆,给智慧交通系统带来了很大的不便。因此本专利技术提出了一种车辆密集场景中的图像-文本跨模态车辆检索训练方法。
技术实现思路
1、本专利技术目的在于解决车辆密集场景下,现有交通场景图像-文本跨模态车辆检索模型无法准确理解图像主要内容,导致检索准确率低的问题。
2、为实现上述目的本专利技术采用以下技术方案:
3
4、s1:获取训练样本集,所述训练样本集包含多个交通流监控视频中车辆密集的帧图像数据和其对应的描述文本,即图像样本和文本样本,分别对图像样本和文本样本的进行特征提取,并得到视觉-文本联合嵌入;
5、s2:对图像样本对应的描述文本进行tfidf向量计算,得到图像样本的语义特征;
6、s3:基于余弦相似度计算图像样本和文本样本间的特征相似度,得到全局和局部特征相似度,通过可学习网络整合全局和局部特征相似度,得到最终的模态间相似度;
7、s4:计算交通场景的图像样本间的语义相似度;
8、s5:根据损失函数更新的权重,所述损失函数包含三元组损失和图像语义损失。
9、上述方法中在s1中,特征提取的详细描述如下:
10、s11:获取图像的嵌入表示,其中,基于深度卷积神经网络faster rcnn构建图像特征编码器,用于提取待处理图像样本的图像原始特征;基于自注意力机制构建网络,用于转换图像样本的原始特征,得到全局图像特征;
11、s12:获取文本的嵌入表示,其中,基于双向门控循环单元结构bi-gru构建文本特征编码器,用于提取待处理文本的文本特征,得到全局文本特征;
12、s13:获取视觉-文本联合嵌入,其中,基于交叉注意力机制构建网络,用于捕捉图像区域与文本单词之间细粒度的对应关系,分别将全局图像特征和全局文本特征转换为包含更多图文对应信息的局部图像特征v和局部文本特征t,得到获取视觉-文本联合嵌入。
13、上述方法中在s2中,提取图像语义特征的步骤如下:
14、s21:图像语义特征计算方法的输入数据是图像样本对应的描述文本,其中,基于词频-逆文档频率来计算描述文本的tfidf向量,并用该tfidf向量表示图像样本的语义特征;
15、s22:所述词频-逆文档率方法的计算过程如下:
16、tfidfx=tf×idf
17、
18、其中nx为词语x在描述文本tj中的出现次数,∑yny是tj中包含单词的总数量,|t|是训练集中的文本集内包含单词的总数量,|{k:x∈tk}|是文本集中包含单词x的文本的总条目数,其中文本样本构成文本集;
19、s23:所述图像样本的语义特征维度等于文本集中包含不同单词的总个数,每个单词对应图像语义特征向量的一个属性,如果文本中有某个单词,在该图像样本语义特征向量中,该单词对应的属性为该单词的tfidf数值而该图像样本语义特征向量中的其他位置为0,以此方法即可得到图像的语义特征。
20、上述方法中在s3中图像样本和文本样本间的特征相似度计算方法详细描述
21、如下:
22、s31:基于余弦相似度来计算图文间的特征相似度,公式如下:
23、
24、其中,x和y分别是图像样本和文本样本的特征向量;
25、所述的图文间的特征相似度分为两部分,分别是全局特征相似度和局部特征相似度,具体策略如下:
26、s311:所述的全局特征相似度由全局图像特征和全局文本特征计算得来,反映宏观上模态间的特征相似度,记为其中和由s11和s12计算得到;
27、s312:所述的局部特征相似度由局部图像特征和局部文本特征计算得来,反映了图像区域和词语之间的特征相似度,记为其中v={v1,v2,…,vn},t={t1,t2,…,tn}是由s13计算得到的,其中vn的含义是第n个图像的局部图像特征向量、tn的含义是第n个图像的局部文本特征向量;
28、s32:基于全连接层搭建一个可学习的网络,将s31中得到的全局和局部特征相似度整合为最终的模态间相似度,得到模态间特征相似度向量s,公式如下:
29、
30、其中,w是一个可学习的权重向量,δ(·)是sigmoid函数,是由s31得到的相似度,bn(·)是批量归一化函数,通过计算得到归一化权重me,然后再次计算得到模态间特征相似度向量s。
31、上述方法中在s4中交通场景的图像样本间语义相似度包括以下步骤:
32、s41:使用cider指标评估交通场景图像间的语义相似度,并得到语义相似
33、度,由语义相似度cij构成语义相似度矩阵c,具体公式如下:
34、
35、其中,cij是交通场景的图像样本i和图像样本j之间的语义相似度,q是图像样本对应的描述文本的条目数,tip是图像ii的第p个描述文本,g(tip)是该文本由s22和s23得到的tfidf向量,ii中表示图像样本集中的第,个图像样本。
36、上述方法中在s5中损失函数具体描述如下:
37、s51:根据损失函数的数值来更新网络中的权重,所述的损失函数包含两部分,分别是三元组损失和图像语义损失,所述的三元组损失是用于衡量模态间相似度与实际值之间的差异,公式如下:
38、l1=∑(i,t)[λ-s(i,t)+s(i,t-)]++[λ-s(i,t)+d(i-,t)]+
39、其中λ是边界参数,其中,是图像正样本集,t是描述文本正样本集,i-是图像负样本集,t-是描述文本负样本集,其中s(·)是将图像集和文本集中的样本图像特征向量和文本特征向量通过s3中的计算方法,从而得本文档来自技高网...
【技术保护点】
1.一种车辆密集场景中的图像-文本跨模态车辆检索模型训练方法,其特征在于,包括:
2.根据权利要求1所述的一种车辆密集场景中的图像-文本跨模态车辆检索训练方法,其特征在于,S1中,特征提取的详细描述如下:
3.根据权利要求1所述的一种车辆密集场景中的图像-文本跨模态车辆检索训练方法,其特征在于,S2中,提取图像语义特征的步骤如下:
4.根据权利要求1所述的一种车辆密集场景中的图像-文本跨模态车辆检索训练方法,其特征在于,S3中图像样本和文本样本间的特征相似度计算方法详细描述如下:
5.根据权利要求1所述的一种车辆密集场景中的图像-文本跨模态车辆检索训练方法,其特征在于,S4中交通场景的图像样本间语义相似度包括以下步骤:
6.根据权利要求1所述的一种车辆密集场景中的图像-文本跨模态车辆检索训练方法,其特征在于,S5中损失函数具体描述如下:
【技术特征摘要】
1.一种车辆密集场景中的图像-文本跨模态车辆检索模型训练方法,其特征在于,包括:
2.根据权利要求1所述的一种车辆密集场景中的图像-文本跨模态车辆检索训练方法,其特征在于,s1中,特征提取的详细描述如下:
3.根据权利要求1所述的一种车辆密集场景中的图像-文本跨模态车辆检索训练方法,其特征在于,s2中,提取图像语义特征的步骤如下:
4.根据权利要求1所述的一种车辆密...
【专利技术属性】
技术研发人员:朱家辉,牛新征,文帅,张煦,易志军,张杨,周亦恺,邹翔宇,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。