当前位置: 首页 > 专利查询>四川大学专利>正文

一种面向基因自动测序批次偏差的公平聚类方法技术

技术编号:35819145 阅读:18 留言:0更新日期:2022-12-03 13:44
本发明专利技术公开了一种面向基因自动测序批次偏差的公平聚类方法,包括以下步骤:S1、获取给定的基因测序数据集和该基因测序数据集包含的批次偏差敏感属性;S2、构建auto

【技术实现步骤摘要】
一种面向基因自动测序批次偏差的公平聚类方法


[0001]本专利技术属于数据挖掘聚类分析领域,具体包括一种面向基因自动测序批次偏差的公平聚类方法。

技术介绍

[0002]聚类在基因自动测序中扮演着重要的角色,并被运用到多个实际场景中,比如:疾病诊断和生物学分析。然而传统聚类算法直接应用到单细胞RNA序列聚类中会依据测序技术来划分数据,而不是细胞种类,因为不同测序技术、批次观测的细胞表现层次不同,而传统聚类方法无法区分这种批次偏差和语义信息差异。因此,公平聚类应运而生,并成为近几年的热点任务。给定一组数据,如细胞测序结果,公平聚类旨在将数据划分成不相交的集合,同时缓解甚至消除敏感属性对聚类结果的影响。
[0003]结合深度神经网络的深度公平聚类方法最近才开始受到关注,旨在利用神经网络学习一个低维空间,在这个空间内,有类似语义信息的样本相互靠近,即使敏感属性不同,反之远离。
[0004]当前基于深度神经网络的深度公平聚类方法取得了可观的聚类效果。尽管如此,他们的实现部分依赖于一些繁琐的技巧,比如对抗学习、预聚类、数据增广和伪标签。如果基于对抗学习,则会对参数和数据敏感并最终收敛到效果不理想的局部最优解。如果基于预聚类和伪标签,则会因为错误累积而难以优化。因为上述操作的结果不保证正确,用来指导网络会导致神经网络模型的性能将严重退化。除此以外,大部分工作都是启发式的设计,缺乏理论解释与支撑。而实际应用中也希望方法结果是可解释的,有理论依据的,从而进一步提升其应用性能和稳定性。由于公平聚类在应用过程中并没有人工标注的监督信号,这就对算法鲁棒性和稳定性有着更高要求。因此亟需设计一套有理论支撑的,鲁棒的,稳定的公平聚类算法,用于缓解甚至消除敏感属性对聚类结果的影响。

技术实现思路

[0005]针对现有技术中的上述不足,本专利技术提供的一种面向基因自动测序批次偏差的公平聚类方法解决了现有技术鲁棒性和稳定性不足的问题。
[0006]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种面向基因自动测序批次偏差的公平聚类方法,包括以下步骤:
[0007]S1、获取给定的基因测序数据集和该基因测序数据集包含的批次偏差敏感属性;
[0008]S2、构建auto

encoder神经网络并使用步骤S1得到的数据训练auto

encoder神经网络得到公平聚类模型;
[0009]S3、使用公平聚类模型对待检测的基因测序数据集进行检测得到对基因自动测序批次偏差鲁棒的聚类结果。
[0010]进一步地,基因测序数据集用X表示,X={x1,x2,

,x
N
}∈R
N
×
d
;基因测序数据集包含的敏感属性用G表示,G={g1,g2,...g
N
};指派C={c1,c2,

,c
N
}将基因测序数据集X划分
成K个互不相交的集合;其中,N为细胞个数,d为每个细胞的测序特征维度。
[0011]进一步地,所述auto

encoder神经网络包括共享编码器和多支解码器;共享编码器的输出端和多支解码器的输入端相连接;
[0012]auto

encoder神经网络的共享编码器包括6层全连接层网络;
[0013]auto

encoder神经网络的多支解码器包括6层全连接层网络。
[0014]进一步地,步骤S2的具体实现方式如下:
[0015]S2

1、根据公式:
[0016]L
rec
=||X

φ(θ(X))||2[0017]得到用于训练auto

encoder神经网络的重构损失函数L
rec
;其中,θ是auto

encoder神经网络的共享编码器,φ是auto

encoder神经网络的多支解码器;φ由T个敏感属性专用解码器组成,θ
i
是第i个敏感属性专用解码器;X是基因测序数据集;
[0018]S2

2、使用预热过的auto

encoder神经网络的共享编码器将各个敏感属性数据编码成为一个公共空间中的特征h
j
=θ(x
j
);在特征h
j
上用k

means算法对其进行聚类,获取聚类中心U={u1,u2,

u
k
};x
j
表示第j个数据样本;u
k
表示第k个聚类中心;
[0019]S2

3、根据公式:
[0020][0021][0022]得到第m个特征和第v个聚类中心的指派函数c
mv
;将指派函数的最大值对应的类别记为聚类结果C;其中,s
mv
表示h
m
和u
v
的余弦相似度;exp表示自然常数e为底的指数函数,τ是敏感系数;(
·
)
T
表示矩阵的转置;
[0023]S2

4、根据公式:
[0024][0025][0026]得到互信息最大化的结果L
clu
;其中,表示第n个聚类的样本的边缘密度,I(X;C)表示基因测序数据集和聚类结果之间的互信息,log的底数是2;c
qn
是第q个特征到第n个聚类中心的指派函数;H(C)是聚类结果C的熵值;H(C|X)是聚类结果C在给定数据集X情况下的条件熵;
[0027]S2

5、根据公式:
[0028][0029][0030][0031]得到互信息最小化的结果L
fair
;其中,是敏感属性的边缘密度,是聚类和敏感属性的联合概率密度,c
rs
是第r个特征和第s个聚类中心的指派函数;是一个指示函数,如果则取1,否则取0,I(G;C)表示敏感属性和聚类结果之间的互信息,表示第r个聚类中心;g
t
表示第t个敏感属性;
[0032]S2

6、根据公式:
[0033]L=L
rec
+αL
clu
+βL
fair
[0034]得到公平聚类后的损失函数L;其中,α为超参数表示L
clu
的权重,β为超参数表示L
fair
的权重;根据损失函数和梯度下降法,更新auto

encoder神经网络参数;
[0035]S2

7、重复步骤S2

2至步骤S2

6直到auto

encoder神经本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向基因自动测序批次偏差的公平聚类方法,其特征在于,包括以下步骤:S1、获取给定的基因测序数据集和该基因测序数据集包含的批次偏差敏感属性;S2、构建auto

encoder神经网络并使用步骤S1得到的数据训练auto

encoder神经网络得到公平聚类模型;S3、使用公平聚类模型对待检测的基因测序数据集进行检测得到对基因自动测序批次偏差鲁棒的聚类结果。2.根据权利要求1所述的一种面向基因自动测序批次偏差的公平聚类方法,其特征在于,基因测序数据集用X表示,X={x1,x2,

,x
N
}∈R
N
×
d
;基因测序数据集包含的敏感属性用G表示,G={g1,g2,...g
N
};指派C={c1,c2,

,c
N
}将基因测序数据集X划分成K个互不相交的集合;其中,N为细胞个数,d为每个细胞的测序特征维度。3.根据权利要求1所述的一种面向基因自动测序批次偏差的公平聚类方法,其特征在于,所述auto

encoder神经网络包括共享编码器和多支解码器;共享编码器的输出端和多支解码器的输入端相连接;auto

encoder神经网络的共享编码器包括6层全连接层网络;auto

encoder神经网络的多支解码器包括6层全连接层网络。4.根据权利要求3所述的一种面向基因自动测序批次偏差的公平聚类方法,其特征在于,步骤S2的具体实现方式如下:S2

1、根据公式:L
rec
=||X

φ(θ(X))||2得到用于训练auto

encoder神经网络的重构损失函数L
rec
,使用auto

encoder神经网络重构损失函数进行模型预热,;其中,θ是auto

encoder神经网络的共享编码器,φ是auto

encoder神经网络的多支解码器;φ由T个敏感属性专用解码器组成,θ
i
是第i个敏感属性专用解码器;X是基因测序数据集;S2

2、使用预热过的auto

encoder神经网络的共享编码器将各个敏感属性数据编码成为一个公共空间中的特征h
j
=θ(x
j
);在特征h
j
上用k
...

【专利技术属性】
技术研发人员:彭玺曾鹏鑫李云帆杨筱宇
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1