当前位置: 首页 > 专利查询>嘉兴学院专利>正文

基于无源域适应的样本分类方法技术

技术编号:39818452 阅读:13 留言:0更新日期:2023-12-22 19:37
本发明专利技术公开了一种基于无源域适应的样本分类方法,该方法包括:设计了一个对比聚类

【技术实现步骤摘要】
基于无源域适应的样本分类方法


[0001]本专利技术涉及无监督样本分类方法
,尤其涉及一种基于无源域适应的样本分类方法


技术介绍

[0002]在无监督学习中,对大量标记的训练数据的渴求已经被成功解决

然而,如果源域和目标域的数据分布非常不同,就会出现明显的退化,这被正式表示为域
/
分布转移

为了解决模型对未见域的泛化问题,基于源域和目标域数据的协同训练的领域适应方法在概念上很简单,即把学到的知识从源域转移到目标域

[0003]然而,随着数据隐私和大数据集的数据传输瓶颈越来越受关注,要求源数据和目标数据共存是极其不现实的

在这种保护隐私的情况下,以前的无监督领域适应方法无法部署,因此,随着时间的推移,无源域适应出现了

无源域适应的目的是在无标签的目标域中获得高性能,在目标适应过程中源数据是不可用的

现有的无源域适应方法试图更好地学习领域不变量
/
变量表征

然而,现有的无源域适应方法要么需要一个辅助网络,要么使用复杂的额外数据处理

其他方法受到噪声标签的负面影响可能会预测出不正确的目标假标签

[0004]解决无源域适应中的数据转移问题有两个障碍:一个是未标记的目标数据,另一个是不能直接获得源数据,只能依靠预训练的源模型

基于在封闭集设置下,源域和目标域之间共享类的事实,可以推测预训练的源模型,通过该源模型可以学习目标数据的类表示

因此,即使源数据和目标数据在特征空间中发生了偏移,源模型在目标数据上提取的特征也可以通过内在的类表征信息形成粗略的聚类,那么相似特征的
softmax
输出应该是高度一致的

[0005]为了实现领域适应而不需要专门的源训练或改变模型结构,本专利技术期望利用从源模型学到的知识在未标记的目标数据上进行自我监督学习

根据对比学习的启发,表明数据本身为网络学习提供了监督

与只增加样本或改变正向对的定义的方法不同,本专利技术首先定义了两个概率函数,分别代表一个样本与其正向和反向样本具有相同类别的概率

这两个概率函数的负对数被设定为损失函数

本专利技术提出一种对比聚类方法,将最近的邻居样本定义为正数对,将其他样本的邻居定义为负数对,以实现样本对的对比聚类

同时,考虑到更难的负数对有利于更好更快的学习,引入了扩展邻居,将相似的样本从负数池中排除,以提取更有价值的负数对

本专利技术所提出的方法在三个无源领域适应性基准上都实现了性能的提升,证明了所提方法对迁移源域知识的有效性


技术实现思路

[0006]本专利技术的目的在于针对现有技术的不足,提供一种基于无源域适应的样本分类方法

[0007]本专利技术的目的是通过以下技术方案来实现的:一种基于无源域适应的样本分类方
法,包括以下步骤:
[0008](1)
建立三个存储库来存储所有的特征库
F、
输出库
P
以及邻居库
M
,从目标域数据集
D
t
中抽取一个小批次数据
T
获取对应的目标特征和预测值,以更新输出库
P
和特征库
F

[0009](2)
基于特征库
F
在邻居库
M
中检索样本的扩展邻域,获取优化的正样本集合和负样本集合;
[0010](3)
基于优化的正样本集合和负样本集合计算第一损失函数及第二损失函数,并根据第二损失函数采用反向传播法更新网络参数

[0011]进一步地,所述步骤
(1)
包括以下子步骤:
[0012](1.1)
建立三个存储库用于存储在批量训练中检索到的样本最近的邻居:特征库
F∈R
N
×
Dim
用于存储所有样本的目标特征,输出库
P∈R
N
×
C
用于存储对应的预测分数,邻居库
M∈R
N
×
K
用于存储对应的邻居样本;
[0013](1.2)
从目标域数据集
D
t
中抽取一个小批次样本数据
T
,在每个小批次中计算样本的目标特征及其预测值,以更新特征库
F
和输出库
P
,其中样本的目标特征通过特征提取网络获取

[0014]进一步地,所述步骤
2)
包括以下子步骤:
[0015](2.1)
对于每个样本
x
i
,在特征库
F
中检索与该样本
x
i
的特征相似度最高的前
K
个特征,在邻居库
M
中检索与
K
个特征对应的样本,作为该样本
x
i
的正样本集合,表示为
Φ

topK(f(x
i
))
,其中
f
表示特征提取网络;
[0016](2.2)
基于样本
x
i
的正样本集合,对于正样本集合中的每个样本,采用与步骤
(1)
中相同的方法获取正样本集合中每个样本的前
K
个相似样本,表示为
x
j

topK(f(
Φ
))

topK(f(topK(f(x
i
)))
,由
x
j
构成为样本
x
i
的的负样本集合
Θ
;将假负样本从负样本集合中排除,获取排除假负样本后的负样本集
W
sim
∈R
S
×
S
,其中假负样本
x
j

x
i
的相似样本;
[0017](2.3)
依据排除假负样本后的负样本集
W
sim
,对于每个样本数据
x
i
,其对应的优化后的负样本集表示为:其中,
nondiag(W
sim
)∈R
(S

1)
×
S

nondiag(g)
是获得非对角线元素的操作,而集合
B∈R
(S

1)
×1表示当前小批次的剩余数据...

【技术保护点】

【技术特征摘要】
1.
一种基于无源域适应的样本分类方法,其特征在于,包括以下步骤:
(1)
建立三个存储库来存储所有的特征库
F、
输出库
P
以及邻居库
M
,从目标域数据集
D
t
中抽取一个小批次数据
T
获取对应的目标特征和预测值,以更新输出库
P
和特征库
F

(2)
基于特征库
F
在邻居库
M
中检索样本的扩展邻域,获取优化的正样本集合和负样本集合;
(3)
基于优化的正样本集合和负样本集合计算第一损失函数及第二损失函数,并根据第二损失函数采用反向传播法更新网络参数
。2.
根据权利要求1所述的基于无源域适应的样本分类方法,其特征在于,所述步骤
(1)
包括以下子步骤:
(1.1)
建立三个存储库用于存储在批量训练中检索到的样本最近的邻居:特征库
F∈R
N
×
Dim
用于存储所有样本的目标特征,输出库
P∈R
N
×
C
用于存储对应的预测分数,邻居库
M∈R
N
×
K
用于存储对应的邻居样本;
(1.2)
从目标域数据集
D
t
中抽取一个小批次样本数据
T
,在每个小批次中计算样本的目标特征及其预测值,以更新特征库
F
和输出库
P
,其中样本的目标特征通过特征提取网络获取
。3.
根据权利要求1所述的基于无源域适应的样本分类方法,其特征在于,所述步骤
2)
包括以下子步骤:
(2.1)
对于每个样本
x
i
,在特征库
F
中检索与该样本
x
i
的特征相似度最高的前
K
个特征,在邻居库
M
中检索与
K
个特征对应的样本,作为该样本
x
i
的正样本集合,表示为
Φ

topK(f(x
i
))
,其中
f
表示特征提取网络;
(2.2)
基于样本
x
i
的正样本集合,对于正样本集合中的每个样本,采用与步骤
(1)
中相同的方法获取正样本集合中每个样本的前
K
个相似样本,表示为
x
j

topK(f(
Φ
))
=<...

【专利技术属性】
技术研发人员:李永刚陈钰淇麻伊婕李英建方豪杰魏远旺叶利华龚迅炜
申请(专利权)人:嘉兴学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1