图像分类模型训练数据选取方法技术

技术编号:39747501 阅读:28 留言:0更新日期:2023-12-17 23:45
本发明专利技术属于图像处理领域,公开了一种图像分类模型训练数据选取方法

【技术实现步骤摘要】
图像分类模型训练数据选取方法、装置及图像分类方法


[0001]本专利技术属于图像处理领域,涉及一种图像分类模型训练数据选取方法

装置及图像分类方法


技术介绍

[0002]各行各业新兴的大数据已成为技术和经济发展的驱动力,数据的作用在于训练各种模型,通过模型来赋能更行各业

对于图像分类模型,在进行训练时通常面对多个图像数据集,基于训练条件和时间等要求,实际情况下并不能将所有的图像数据集均用于图像分类模型的训练中,通常是挑选一部分图像数据集来进行训练

而图像数据集的质量决定了模型的好坏,为了挑选质量更好的图像数据集,需要评估图像数据集的数据价值的方法

图像数据集的数据价值很大程度上取决于它在特定的机器学习模型的贡献度,这里的核心挑战是如何公平地

准确地评估图像数据集中每个图像数据对特定性能指标的学习算法的贡献

[0003]解决此问题的最广泛使用的算法是排列抽样算法
(
也称为蒙特卡洛抽样
)
,其首先对各图像数据集进行随机排列采样,然后从排列中的第一个元素到最后一个元素逐个扫描,计算每个元素对其前面元素集合的边际贡献,最后重复相同的过程在多个排列上,并将它们所有边际贡献的平均值作为夏普利值的近似值,然后使用夏普利值来评估数据价值,进而实现图像数据集选取

但是,这种方法的边际贡献需要基于训练图像分类模型来实现,并且需要不断地重复训练图像分类模型,当图像数据集较多时,训练次数会指数级增长,假设图像数据集个数为
N
,那么图像分类模型需要训练的次数为
N
的阶乘,计算效率很低,而且单个图像数据集中的图像数据较多时也会增加单次训练的时间,导致较高的实施成本


技术实现思路

[0004]本专利技术的目的在于克服上述现有技术的缺点,提供一种图像分类模型训练数据选取方法

装置及图像分类方法

[0005]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0006]本专利技术第一方面,提供一种图像分类模型训练数据选取方法,包括:
[0007]获取图像分类模型的各待选训练数据集,并获取各待选训练数据集中各训练数据的数据特征及数据标签;
[0008]根据各待选训练数据集中各训练数据的数据特征及数据标签,获取所有待选训练数据集的各子集的数据特征信息熵

数据标签信息熵以及特征与标签联合值信息熵;
[0009]根据所有待选训练数据集的各子集的数据特征信息熵

数据标签信息熵以及特征与标签联合值信息熵,获取所有待选训练数据集的各子集的互信息指标;
[0010]将互信息指标作为夏普利公式的评价指标,通过夏普利公式获取各待选训练数据集的夏普利值;
[0011]根据各待选训练数据集的夏普利值从大到小的顺序,选取前预设个待选训练数据
集作为图像分类模型训练数据

[0012]可选的,所述根据各待选训练数据集中各训练数据的数据特征及数据标签,获取所有待选训练数据集的各子集的数据特征信息熵

数据标签信息熵以及特征与标签联合值信息熵包括:
[0013]遍历所有待选训练数据集的各子集,通过下式得到当前子集的数据特征信息熵
H(dest)

[0014][0015]其中,
destp
i
为当前子集中各训练数据的数据特征中第
i
种数据特征的概率,
t
为当前子集中各训练数据的数据特征总种数;
[0016]遍历所有待选训练数据集的各子集,通过下式得到当前子集的数据标签信息熵
H(src)

[0017][0018]其中,
srcp
i
为当前子集中各训练数据的数据标签中第
i
种数据标签的概率,
m
为当前子集中各训练数据的数据标签总种数;
[0019]遍历所有待选训练数据集的各子集,通过下式得到当前子集的特征与标签联合值信息熵
H(dest

src)

[0020][0021]其中,
dest

srcp
i
为当前子集中各训练数据的特征与标签联合值中第
i
种特征与标签联合值的概率,
k
为当前子集中各训练数据的特征与标签联合值总种数,特征与标签联合值通过在数据特征后附加数据标签得到

[0022]可选的,所述根据各待选训练数据集中各训练数据的数据特征及数据标签,获取所有待选训练数据集的各子集的数据特征信息熵

数据标签信息熵以及特征与标签联合值信息熵前,将数据特征进行离散化处理

[0023]可选的,所述将数据特征进行离散化处理包括:通过基于数量的分箱方法

等距分箱方法或聚类方法将数据特征进行离散化处理

[0024]可选的,所述根据所有待选训练数据集的各子集的数据特征信息熵

数据标签信息熵以及特征与标签联合值信息熵,获取所有待选训练数据集的各子集的互信息指标包括:
[0025]遍历所有待选训练数据集的各子集,通过下式得到当前子集的互信息指标:
[0026]I(Q)

H(dest)+H(src)

H(dest

src)
[0027]其中,
I(Q)
为当前子集
Q
的互信息指标,
H(dest)
为当前子集的数据特征信息熵,
H(src)
为当前子集的数据标签信息熵,
H(dest

src)
为当前子集的特征与标签联合值信息熵

[0028]可选的,所述将互信息指标作为夏普利公式的评价指标,通过夏普利公式获取各待选训练数据集的夏普利值包括:
[0029]通过下式获取各待选训练数据集的夏普利值:
[0030][0031]其中,
φ
i
(I)
为第
i
个待选训练数据集的夏普利值,
n
为待选训练数据集总数,
S
为所有待选训练数据集的子集,
|S|

S
中包含的待选训练数据集的个数,
d
i
为第
i
个待选训练数据集,
D
n
为所有待选训练数据集的集合,
I(S∪{d
i
})

S∪{d
i
}
的互信息指标,
I(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种图像分类模型训练数据选取方法,其特征在于,包括:获取图像分类模型的各待选训练数据集,并获取各待选训练数据集中各训练数据的数据特征及数据标签;根据各待选训练数据集中各训练数据的数据特征及数据标签,获取所有待选训练数据集的各子集的数据特征信息熵

数据标签信息熵以及特征与标签联合值信息熵;根据所有待选训练数据集的各子集的数据特征信息熵

数据标签信息熵以及特征与标签联合值信息熵,获取所有待选训练数据集的各子集的互信息指标;将互信息指标作为夏普利公式的评价指标,通过夏普利公式获取各待选训练数据集的夏普利值;根据各待选训练数据集的夏普利值从大到小的顺序,选取前预设个待选训练数据集作为图像分类模型训练数据
。2.
根据权利要求1所述的图像分类模型训练数据选取方法,其特征在于,所述根据各待选训练数据集中各训练数据的数据特征及数据标签,获取所有待选训练数据集的各子集的数据特征信息熵

数据标签信息熵以及特征与标签联合值信息熵包括:遍历所有待选训练数据集的各子集,通过下式得到当前子集的数据特征信息熵
H(dest)
:其中,
destp
i
为当前子集中各训练数据的数据特征中第
i
种数据特征的概率,
t
为当前子集中各训练数据的数据特征总种数;遍历所有待选训练数据集的各子集,通过下式得到当前子集的数据标签信息熵
H(src)
:其中,
srcp
i
为当前子集中各训练数据的数据标签中第
i
种数据标签的概率,
m
为当前子集中各训练数据的数据标签总种数;遍历所有待选训练数据集的各子集,通过下式得到当前子集的特征与标签联合值信息熵
H(dest_src)
:其中,
dest_srcp
i
为当前子集中各训练数据的特征与标签联合值中第
i
种特征与标签联合值的概率,
k
为当前子集中各训练数据的特征与标签联合值总种数,特征与标签联合值通过在数据特征后附加数据标签得到
。3.
根据权利要求1或2所述的图像分类模型训练数据选取方法,其特征在于,所述根据各待选训练数据集中各训练数据的数据特征及数据标签,获取所有待选训练数据集的各子集的数据特征信息熵

数据标签信息熵以及特征与标签联合值信息熵前,将数据特征进行离散化处理
。4.
根据权利要求3所述的图像分类模型训练数据选取方法,其特征在于,所述将数据特
征进行离散化处理包括:通过基于数量的分箱方法

等距分箱方法或聚类方法将数据特征进行离散化处理
。5.
根据权利要求1所述的图像分类模型训练数据选取方法,其特征在于,所述根据所有待选训练数据集的各子集的数据特征信息熵

数据标签信息熵以及特征与标签联合值信息熵,获取所有待选训练数据集的各子集的互信息指标包括:遍历所有待选训练数据集的各子集,通过下式得到当前子集的互信息指标:
I(Q)

...

【专利技术属性】
技术研发人员:林常乐周文波
申请(专利权)人:交叉信息核心技术研究院西安有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1