一种基于深度学习的样本生成方法、存储介质及电子设备技术

技术编号:38151776 阅读:7 留言:0更新日期:2023-07-13 09:16
本发明专利技术涉及样本标注领域,特别是涉及一种基于深度学习的样本生成方法、存储介质及电子设备。包括如下步骤:根据多个信息向量,生成A

【技术实现步骤摘要】
一种基于深度学习的样本生成方法、存储介质及电子设备


[0001]本专利技术涉及样本标注领域,特别是涉及一种基于深度学习的样本生成方法、存储介质及电子设备。

技术介绍

[0002]在机器学习中为了使模型达到更好的学习效果需要,选择质量较高的训练样本对其进行训练。以使其获得对应的能力。但是,通常在某一项任务开始初期,相应的训练样本较少,由此会影响模型的训练效果。为了快速增加训练样本的数量,可以使用生成模型来生成大量的训练样本。如:GANs(Generative Adversarial Networks,生成对抗网络)。生成模型是一种能够从潜在空间中生成新数据样本的模型,它通常由生成器和判别器两个部分组成。生成器接收随机噪声作为输入,并生成类似于训练数据的新样本;判别器则尝试区分生成器生成的样本和真实的训练数据。这两个模型共同训练,生成器尝试最小化判别器的误差,判别器则尝试最大化其对真实数据和生成数据的准确性。
[0003]但是,在图像分类领域中,由于正常的图像样本在实际场景中更容易获取,而模糊、高曝光、颜色失真及低亮度的图像样本在实际场景中更难获取。使得在一组样本中不同类别的样本量差异非常大,进而造成样本不均衡的问题。在该情况下,由于样本类别不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;进而使得生成器生成的数量级小的样本质量交低,进而降低分类模型对数量级小的样本的标签准确率。

技术实现思路

[0004]针对上述技术问题,本专利技术采用的技术方案为:
[0005]根据本专利技术的一个方面,提供了一种基于深度学习的样本生成方法,方法包括如下步骤:
[0006]获取由生成器生成的同一批次的多个初始图像样本的调权信息A1,A2,

,A
i


,A
z
,其中,A
i
为该批次中第i个初始图像样本的调权信息,A
i
=(a
i
,b
i
),a
i
为用于表示A
i
各个维度上的数据的信息向量,b
i
为A
i
的图像类别标签;z为该批次生成的初始图像样本的总数量;i=1,2,

,z;
[0007]根据A1,A2,

,A
i


,A
z
中的多个信息向量,生成A
i
对应的调整权重W
i
;W
i
满足如下条件:
[0008][0009]其中,为b
i
对应的图像类别的超参数;每一图像类别对应的超参数与同一批次的多个初始图像样本中属于每一图像类别的样本数量负相关;μ为本批次多个初始图像样本对应的样本均值;δ为本批次多个初始图像样本对应的样本方差;
[0010]根据每一初始图像样本对应的调整权重,确定每一初始图像样本对应的损失函数的调整loos值;L
i
满足如下条件:
[0011]L
i
=W
i
*l
i
;其中,L
i
为该批次中第i个初始图像样本对应的损失函数的调整loos值;l
i
为该批次中第i个初始图像样本对应的损失函数的初始loos值;
[0012]根据每一初始图像样本对应的调整loos值,优化生成器,以生成目标图像样本。
[0013]根据本专利技术的第二个方面,提供了一种非瞬时性计算机可读存储介质,非瞬时性计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的一种基于深度学习的样本生成方法。
[0014]根据本专利技术的第三个方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的一种基于深度学习的样本生成方法。
[0015]本专利技术至少具有以下有益效果:
[0016]本专利技术中通过获取生成器每一批次生成的初始图像样本的样本均值及样本方差,来确定出每一初始图像样本对应的调整权重。根据本专利技术的调整权重生成公式可知,当初始图像样本的情况与平均情况相差较大时,也即|a
i

μ|较大时,对应的调整权重也会相应较大。由于,较难获得的小数量级的样本数量较小,所以最终确定的μ必然也更接近正常样本。由此较难获得的小数量级的样本,会具有更大的调整权重。同时,每一初始图像样本对应的调整loos值,也与对应的调整权重成正比。由此,较难获得的小数量级的样本,会具有更大的调整loos值,也即损失函数具有更大的惩罚值。这样就达到了增大分错较难获得的小数量级样本的成本的目的,进而使生成器更多的关注到少数类的样本,以生成更多的生成难以获取的样本,以提高生成的数量级小的样本的数量,进而可以进一步解决样本不均衡的问题。
[0017]并且,本专利技术中的调整权重的算法是e的指数函数,其具有更好的平滑性,且在初期阶段的增长缓慢,后期的增长更加快速。由此,在正常的样本中,即使不同的正常样本与μ的偏离程度存在一定的差异,但是总体偏离程度较小,处于e的指数函数的初期,所以最终计算出来的调整权重几乎相同。但是,较难获取的样本与μ的偏离程度较大,处于e的指数函数的后期,所以计算出来的调整权重会的增加幅度较大。该特征也更加贴合本专利技术中的调整权重的分布形式,可以更加准确的对生成器进行调整,以使得生成器生成的数量级小的样本质量更高,进而提高分类模型对数量级小的样本的标签准确率。
附图说明
[0018]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本专利技术实施例提供的一种基于深度学习的样本生成方法的流程图。
具体实施方式
[0020]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本专利技术保护的范围。
[0021]根据本专利技术的一个方面,如图1所示,提供了一种基于深度学习的样本生成方法,该方法包括如下步骤:
[0022]S100:获取由生成器生成的同一批次的多个初始图像样本的调权信息A1,A2,

,A
i


,A
z
,其中,A
i
为该批次中第i个初始图像样本的调权信息,A
i
=(a
i
,b
i
),a
i
为用于表示A
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的样本生成方法,其特征在于,所述方法包括如下步骤:获取由生成器生成的同一批次的多个初始图像样本的调权信息A1,A2,

,A
i


,A
z
,其中,A
i
为该批次中第i个初始图像样本的调权信息,A
i
=(a
i
,b
i
),a
i
为用于表示A
i
各个维度上的数据的信息向量,b
i
为A
i
的图像类别标签;z为该批次生成的初始图像样本的总数量;i=1,2,

,z;根据A1,A2,

,A
i


,A
z
中的多个信息向量,生成A
i
对应的调整权重W
i
;W
i
满足如下条件:其中,为b
i
对应的图像类别的超参数;每一所述图像类别对应的超参数与同一批次的多个初始图像样本中属于每一图像类别的样本数量负相关;μ为本批次多个初始图像样本对应的样本均值;δ为本批次多个初始图像样本对应的样本方差;根据每一所述初始图像样本对应的调整权重,确定每一所述初始图像样本对应的损失函数的调整loos值;L
i
满足如下条件:L
i
=W
i
*l
i
;其中,L
i
为该批次中第i个初始图像样本对应的损失函数的调整loos值;l
i
为该批次中第i个初始图像样本对应的损失函数的初始loos值;根据每一所述初始图像样本对应的调整loos值,优化所述生成器,以生成目标图像样本。2.根据权利要求1所述的方法,其特征在于,在生成A
i
对应的调整权重W
i
之后,所述方法还包括:对同一批次中每一所述初始图像样本对应的调整权重进行归一化处理,生成每一所述初始图像样本对应的目标调整权重;其中,满足如下条件:满足如下条件:为该批次中第i个初始图像样本对应的目标调整权重。3.根据权利要求1所述的方法,其特征在于,在生成目标图像样本之后,所述方法还包括:使用目标图像样本进行模型优化处理;以提高目标分类模型的标注精度;所述模型优化处理包括:使用目标图像样本训练至少一种分类模型,生成每一种所述分类模型对应的分类准确率;将分类准确率最高的所述分类模型,作为目标分类模型;将多个待分类图像数据输入所述目标分类模型中,生成每一所述待分类图像数据的初始分类标签及置信度;将置信度大于第一阈值的每一待分类图像数据,分别输入多种分类模型...

【专利技术属性】
技术研发人员:刘圭圭李凡平石柱国
申请(专利权)人:青岛以萨数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1