【技术实现步骤摘要】
基于无源域适应的样本分类方法
[0001]本专利技术涉及无监督样本分类方法
,尤其涉及一种基于无源域适应的样本分类方法
。
技术介绍
[0002]在无监督学习中,对大量标记的训练数据的渴求已经被成功解决
。
然而,如果源域和目标域的数据分布非常不同,就会出现明显的退化,这被正式表示为域
/
分布转移
。
为了解决模型对未见域的泛化问题,基于源域和目标域数据的协同训练的领域适应方法在概念上很简单,即把学到的知识从源域转移到目标域
。
[0003]然而,随着数据隐私和大数据集的数据传输瓶颈越来越受关注,要求源数据和目标数据共存是极其不现实的
。
在这种保护隐私的情况下,以前的无监督领域适应方法无法部署,因此,随着时间的推移,无源域适应出现了
。
无源域适应的目的是在无标签的目标域中获得高性能,在目标适应过程中源数据是不可用的
。
现有的无源域适应方法试图更好地学习领域不变量
/
变量表征
。
然而,现有的无源域适应方法要么需要一个辅助网络,要么使用复杂的额外数据处理
。
其他方法受到噪声标签的负面影响可能会预测出不正确的目标假标签
。
[0004]解决无源域适应中的数据转移问题有两个障碍:一个是未标记的目标数据,另一个是不能直接获得源数据,只能依靠预训练的源模型
。
基于在封闭集设置下,源域和目标域之间共享类的事实,可
【技术保护点】
【技术特征摘要】
1.
一种基于无源域适应的样本分类方法,其特征在于,包括以下步骤:
(1)
建立三个存储库来存储所有的特征库
F、
输出库
P
以及邻居库
M
,从目标域数据集
D
t
中抽取一个小批次数据
T
获取对应的目标特征和预测值,以更新输出库
P
和特征库
F
;
(2)
基于特征库
F
在邻居库
M
中检索样本的扩展邻域,获取优化的正样本集合和负样本集合;
(3)
基于优化的正样本集合和负样本集合计算第一损失函数及第二损失函数,并根据第二损失函数采用反向传播法更新网络参数
。2.
根据权利要求1所述的基于无源域适应的样本分类方法,其特征在于,所述步骤
(1)
包括以下子步骤:
(1.1)
建立三个存储库用于存储在批量训练中检索到的样本最近的邻居:特征库
F∈R
N
×
Dim
用于存储所有样本的目标特征,输出库
P∈R
N
×
C
用于存储对应的预测分数,邻居库
M∈R
N
×
K
用于存储对应的邻居样本;
(1.2)
从目标域数据集
D
t
中抽取一个小批次样本数据
T
,在每个小批次中计算样本的目标特征及其预测值,以更新特征库
F
和输出库
P
,其中样本的目标特征通过特征提取网络获取
。3.
根据权利要求1所述的基于无源域适应的样本分类方法,其特征在于,所述步骤
2)
包括以下子步骤:
(2.1)
对于每个样本
x
i
,在特征库
F
中检索与该样本
x
i
的特征相似度最高的前
K
个特征,在邻居库
M
中检索与
K
个特征对应的样本,作为该样本
x
i
的正样本集合,表示为
Φ
=
topK(f(x
i
))
,其中
f
表示特征提取网络;
(2.2)
基于样本
x
i
的正样本集合,对于正样本集合中的每个样本,采用与步骤
(1)
中相同的方法获取正样本集合中每个样本的前
K
个相似样本,表示为
x
j
=
topK(f(
Φ
))
=<...
【专利技术属性】
技术研发人员:李永刚,陈钰淇,麻伊婕,李英建,方豪杰,魏远旺,叶利华,龚迅炜,
申请(专利权)人:嘉兴学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。