【技术实现步骤摘要】
图像分类模型训练数据选取方法、装置及图像分类方法
[0001]本专利技术属于图像处理领域,涉及一种图像分类模型训练数据选取方法
、
装置及图像分类方法
。
技术介绍
[0002]各行各业新兴的大数据已成为技术和经济发展的驱动力,数据的作用在于训练各种模型,通过模型来赋能更行各业
。
对于图像分类模型,在进行训练时通常面对多个图像数据集,基于训练条件和时间等要求,实际情况下并不能将所有的图像数据集均用于图像分类模型的训练中,通常是挑选一部分图像数据集来进行训练
。
而图像数据集的质量决定了模型的好坏,为了挑选质量更好的图像数据集,需要评估图像数据集的数据价值的方法
。
图像数据集的数据价值很大程度上取决于它在特定的机器学习模型的贡献度,这里的核心挑战是如何公平地
、
准确地评估图像数据集中每个图像数据对特定性能指标的学习算法的贡献
。
[0003]解决此问题的最广泛使用的算法是排列抽样算法
(
也称为蒙特卡洛抽样
)
,其首先对各图像数据集进行随机排列采样,然后从排列中的第一个元素到最后一个元素逐个扫描,计算每个元素对其前面元素集合的边际贡献,最后重复相同的过程在多个排列上,并将它们所有边际贡献的平均值作为夏普利值的近似值,然后使用夏普利值来评估数据价值,进而实现图像数据集选取
。
但是,这种方法的边际贡献需要基于训练图像分类模型来实现,并且需要不断地重复训练图像分类模 ...
【技术保护点】
【技术特征摘要】
1.
一种图像分类模型训练数据选取方法,其特征在于,包括:获取图像分类模型的各待选训练数据集,并获取各待选训练数据集中各训练数据的数据特征及数据标签;根据各待选训练数据集中各训练数据的数据特征及数据标签,获取所有待选训练数据集的各子集的数据特征信息熵
、
数据标签信息熵以及特征与标签联合值信息熵;根据所有待选训练数据集的各子集的数据特征信息熵
、
数据标签信息熵以及特征与标签联合值信息熵,获取所有待选训练数据集的各子集的互信息指标;将互信息指标作为夏普利公式的评价指标,通过夏普利公式获取各待选训练数据集的夏普利值;根据各待选训练数据集的夏普利值从大到小的顺序,选取前预设个待选训练数据集作为图像分类模型训练数据
。2.
根据权利要求1所述的图像分类模型训练数据选取方法,其特征在于,所述根据各待选训练数据集中各训练数据的数据特征及数据标签,获取所有待选训练数据集的各子集的数据特征信息熵
、
数据标签信息熵以及特征与标签联合值信息熵包括:遍历所有待选训练数据集的各子集,通过下式得到当前子集的数据特征信息熵
H(dest)
:其中,
destp
i
为当前子集中各训练数据的数据特征中第
i
种数据特征的概率,
t
为当前子集中各训练数据的数据特征总种数;遍历所有待选训练数据集的各子集,通过下式得到当前子集的数据标签信息熵
H(src)
:其中,
srcp
i
为当前子集中各训练数据的数据标签中第
i
种数据标签的概率,
m
为当前子集中各训练数据的数据标签总种数;遍历所有待选训练数据集的各子集,通过下式得到当前子集的特征与标签联合值信息熵
H(dest_src)
:其中,
dest_srcp
i
为当前子集中各训练数据的特征与标签联合值中第
i
种特征与标签联合值的概率,
k
为当前子集中各训练数据的特征与标签联合值总种数,特征与标签联合值通过在数据特征后附加数据标签得到
。3.
根据权利要求1或2所述的图像分类模型训练数据选取方法,其特征在于,所述根据各待选训练数据集中各训练数据的数据特征及数据标签,获取所有待选训练数据集的各子集的数据特征信息熵
、
数据标签信息熵以及特征与标签联合值信息熵前,将数据特征进行离散化处理
。4.
根据权利要求3所述的图像分类模型训练数据选取方法,其特征在于,所述将数据特
征进行离散化处理包括:通过基于数量的分箱方法
、
等距分箱方法或聚类方法将数据特征进行离散化处理
。5.
根据权利要求1所述的图像分类模型训练数据选取方法,其特征在于,所述根据所有待选训练数据集的各子集的数据特征信息熵
、
数据标签信息熵以及特征与标签联合值信息熵,获取所有待选训练数据集的各子集的互信息指标包括:遍历所有待选训练数据集的各子集,通过下式得到当前子集的互信息指标:
I(Q)
=
...
【专利技术属性】
技术研发人员:林常乐,周文波,
申请(专利权)人:交叉信息核心技术研究院西安有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。