System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机视觉问答,具体涉及一种基于多粒度边际的重加权方法。
技术介绍
1、视觉问答旨在使计算机能够理解图像并回答关于图像内容的自然语言问题。然而,由于训练数据集与实际场景中的数据分布往往存在显著差异,vqa模型常依赖于训练中问题与答案之间的语言相关性,忽略对视觉信息的充分利用,这使得模型在实际应用中可能仅根据问题文本中的线索,甚至在不参考图像内容的情况下给出答案,从而导致错误的回答。一些研究人员最近发现,大多数现有的vqa模型都存在严重依赖于仅使用问题和答案之间的语言相关性来回答大多数问题,这种盲目的预测答案现象称为语言偏差。
2、语言偏差源于数据分布不平衡。以vqa-cp v2数据集中的“how many bananas arethere”为例,从粗粒度划分来看,它属于“how many”这一问题类型,该类型答案分布中“two”为常见头部数据。受语言偏差影响,模型在读取到“how many”时,往往会直接给出常见答案“two”,而忽视更多的文本及图片信息给出错误答案。重加权可通过赋予不同权重调整分类边界,关注少数类特征以提升分类性能。目前流行的方法是从统计分布出发,基于问题类型下答案分布概率得到的边际值对不同的类分配权重,期望模型平等对待各类答案,避免语言偏差干扰,依据文本和图片得出答案。然而,对于上述例子,此样本同时也隶属于细粒度划分下的具体问题“how many bananas are there”类别,在此答案分布中“two”为尾部数据。此时当以问题类型划分下看待答案分布时,会对头部数据“two”
3、其次,对于属于同一类的样本,应为困难样本留出更多的预测空间,然而目前的方法以答案预测概率值评定样本难度,忽视了预测概率本就受到语言偏差干扰,无法准确反映样本难度。而视觉特征对结果的贡献度影响样本分类难度,图片噪声多会使模型难获有效信息,答案可能在分类边界外。
技术实现思路
1、本专利技术目的在于针对上述现有技术的缺陷和不足,提供了一种基于多粒度边际的重加权方法,该方法能够学习统计分布下的多粒度边际,样本权重的调整促使损失函数在训练过程中充分考虑不同粒度下答案分布特性,有助于模型更好地感知数据各层面特征,拟合不同划分下的答案分布,提升模型鲁棒性。同时通过梯度引导,借平均梯度值呈现不同难度样本在答案与图像特征间的变化率关系,通过考虑样本难度对样本进行权重的调整,据此模型能对不同难度样本给予不同关注度,增强了整体性能。
2、本专利技术解决其技术问题所采用的技术方案是:一种基于多粒度边际的重加权方法,该方法包括以下步骤:
3、步骤1:对训练数据集进行预处理,分别从问题在问题类型维度和具体问题维度这两种划分粒度出发,统计每个答案在各问题类型或具体问题中出现的频次,再通过概率计算公式,计算出各答案在相应划分粒度下的概率分布数值。
4、步骤2:针对训练数据集的文本图像对,输入视觉问答模型,进行图像特征和文本特征的提取,以注意力机制融合得联合特征,输入分类器获输出值,经softmax得答案概率分布p,概率值最大即最终答案。
5、步骤3:类别边际的计算;
6、基于上述步骤1的答案在问题处于不同划分粒度下的分布情况不同,导致了边际具有不确定性,通过欧式距离和js散度的协同运算,得到从数值偏离程度出发具有噪声不敏感性的边际不确定性。在既能保留问题类型边际的主导性,又能依据样本在多粒度划分下答案分布的差异灵活调整,将此不确定性作为多粒度边际的权重与仅问题类型边际值进行加权求和来确定最终的类别边际,使得类别边际能够动态地适应不同样本的复杂特性。
7、步骤4:样本难度边际的计算;
8、对于上述步骤2中分类器输出的预测答案值,文本图像对中的图像信息都会对答案的预测做出一定的贡献,不同的图像信息对答案预测的贡献程度差异是衡量样本分类难度的关键要素。所以从贡献敏感度出发计算上述步骤2中分类器输出的预测答案值相对于经过特征提取后的图像块特征的梯度平均值,得到基于梯度感知的样本难度边际。
9、步骤5:多粒度边际损失函数的计算;
10、基于上述步骤4获取的样本难度边际经过最大最小缩放即minmaxscaler方法将数据缩放至步骤3获取的类别边际同一计算层,将两者求和得到多粒度边际值,作为边际因子代入边际损失函数,构建得到多粒度边际损失函数;
11、步骤6:重复上述步骤3-5对视觉问答模型进行训练,基于上述步骤5所得到的多粒度边际实现了对不同样本的重新加权,将多粒度边际损失函数的损失值应用于反向传播,多轮训练后,模型收敛,得到最终模型参数。
12、作为本专利技术的进一步改进,本专利技术上述步骤3的具体步骤包括:
13、步骤s31:通过欧式距离衡量步骤1中得到的答案在问题属于不同划分粒度下的概率值的差异导致的边际的不确定性,并利用分布分歧具有良好的噪声不敏感性这一特性,引入js散度有效地约束因概率相似性敏感所带来的不确定性波动,得到边际的不确定性unc计算如下:
14、unc=ed*jsdistances
15、
16、
17、其中,ed为问题在不同划分粒度下答案对应的概率值在欧几里得空间中的直线距离,jsdistances是问题属于不同划分粒度下两种答案分布的js散度相似性计算,分别为训练数据中给定问题类型qk和具体问题qt下各答案ai出现的概率,n表示不同答案选项的数量。
18、步骤s32:基于步骤s31得到的相似性结果度量的边际不确定性unc捕捉到了问题类型粒度与具体问题粒度之间的关联与差异,将其作为多粒度边际的动态权重因子,当样本在多粒度划分下答案分布呈现较高的不确定性时,该权重因子会相应增大多粒度边际在类别边际计算中的影响力;反之,当不确定性较低时,问题类型边际则可同时适配两种划分情况,占据更主导的地位,则类别边际mcat的计算过程如下:
19、
20、
21、
22、
23、其中是融合多粒度划分信息以求得边际的中间值,sign取值正负用于决定对仅问题类型边际值进行增强或削弱的调整,n为高斯分布,为标准差,通过对随机化处理得到可以提高模型预测普遍性,最终基于概率值求得的类别边际mcat实现了确保频繁答案的用例比罕见答案的用例具有更小边际。
24、作为本专利技术的进一步改进,步骤4的具体步骤包括:
25、因为分类器分类分值层连接网络前一层的激活与各类别分数,其相对于图像特征的梯度可衡量图像特征对最终类别预测的本文档来自技高网...
【技术保护点】
1.一种基于多粒度边际的重加权方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种基于多粒度边际的重加权方法,其特征在于:步骤3的具体步骤包括:
3.根据权利要求1所述的一种基于多粒度边际的重加权方法,其特征在于:所述步骤4中,因为分类器分类分值层连接网络前一层的激活与各类别分数,其相对于图像特征的梯度可衡量图像特征对最终类别预测的贡献度,其计算过程如下:
4.根据权利要求1所述的一种基于多粒度边际的重加权方法,其特征在于:步骤5的具体步骤包括:
5.根据权利要求1所述的一种基于多粒度边际的重加权方法,其特征在于:步骤6的具体步骤包括:根据上述步骤5所得的多粒度边际损失函数作用于模型,在模型训练过程中根据损失值进行反向传播优化模型参数,直至模型收敛。
【技术特征摘要】
1.一种基于多粒度边际的重加权方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种基于多粒度边际的重加权方法,其特征在于:步骤3的具体步骤包括:
3.根据权利要求1所述的一种基于多粒度边际的重加权方法,其特征在于:所述步骤4中,因为分类器分类分值层连接网络前一层的激活与各类别分数,其相对于图像特征的梯度可衡量图像特征对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。