一种面向基因自动测序批次偏差的公平聚类方法技术

技术编号：35819145 阅读：18 留言：0更新日期：2022-12-03 13:44

本发明专利技术公开了一种面向基因自动测序批次偏差的公平聚类方法，包括以下步骤：S1、获取给定的基因测序数据集和该基因测序数据集包含的批次偏差敏感属性；S2、构建auto

全部详细技术资料下载

【技术实现步骤摘要】
一种面向基因自动测序批次偏差的公平聚类方法

[0001]本专利技术属于数据挖掘聚类分析领域，具体包括一种面向基因自动测序批次偏差的公平聚类方法。

技术介绍

[0002]聚类在基因自动测序中扮演着重要的角色，并被运用到多个实际场景中，比如：疾病诊断和生物学分析。然而传统聚类算法直接应用到单细胞RNA序列聚类中会依据测序技术来划分数据，而不是细胞种类，因为不同测序技术、批次观测的细胞表现层次不同，而传统聚类方法无法区分这种批次偏差和语义信息差异。因此，公平聚类应运而生，并成为近几年的热点任务。给定一组数据，如细胞测序结果，公平聚类旨在将数据划分成不相交的集合，同时缓解甚至消除敏感属性对聚类结果的影响。
[0003]结合深度神经网络的深度公平聚类方法最近才开始受到关注，旨在利用神经网络学习一个低维空间，在这个空间内，有类似语义信息的样本相互靠近，即使敏感属性不同，反之远离。
[0004]当前基于深度神经网络的深度公平聚类方法取得了可观的聚类效果。尽管如此，他们的实现部分依赖于一些繁琐的技巧，比如对抗学习、预聚类、数据增广和伪标签。如果基于对抗学习，则会对参数和数据敏感并最终收敛到效果不理想的局部最优解。如果基于预聚类和伪标签，则会因为错误累积而难以优化。因为上述操作的结果不保证正确，用来指导网络会导致神经网络模型的性能将严重退化。除此以外，大部分工作都是启发式的设计，缺乏理论解释与支撑。而实际应用中也希望方法结果是可解释的，有理论依据的，从而进一步提升其应用性能和稳定性。由于公平聚类在应用过程中并没有人工标...

【技术保护点】

【技术特征摘要】
1.一种面向基因自动测序批次偏差的公平聚类方法，其特征在于，包括以下步骤：S1、获取给定的基因测序数据集和该基因测序数据集包含的批次偏差敏感属性；S2、构建auto
‑
encoder神经网络并使用步骤S1得到的数据训练auto
‑
encoder神经网络得到公平聚类模型；S3、使用公平聚类模型对待检测的基因测序数据集进行检测得到对基因自动测序批次偏差鲁棒的聚类结果。2.根据权利要求1所述的一种面向基因自动测序批次偏差的公平聚类方法，其特征在于，基因测序数据集用X表示，X＝{x1,x2,
…
,x
N
}∈R
N
×
d
；基因测序数据集包含的敏感属性用G表示，G＝{g1,g2,...g
N
}；指派C＝{c1,c2,
…
,c
N
}将基因测序数据集X划分成K个互不相交的集合；其中，N为细胞个数，d为每个细胞的测序特征维度。3.根据权利要求1所述的一种面向基因自动测序批次偏差的公平聚类方法，其特征在于，所述auto
‑
encoder神经网络包括共享编码器和多支解码器；共享编码器的输出端和多支解码器的输入端相连接；auto
‑
encoder神经网络的共享编码器包括6层全连接层网络；auto
‑
encoder神经网络的多支解码器包括6层全连接层网络。4.根据权利要求3所述的一种面向基因自动测序批次偏差的公平聚类方法，其特征在于，步骤S2的具体实现方式如下：S2
‑
1、根据公式：L
rec
＝||X
‑
φ(θ(X))||2得到用于训练auto
‑
encoder神经网络的重构损失函数L
rec
，使用auto
‑
encoder神经网络重构损失函数进行模型预热，；其中，θ是auto
‑
encoder神经网络的共享编码器，φ是auto
‑
encoder神经网络的多支解码器；φ由T个敏感属性专用解码器组成，θ
i
是第i个敏感属性专用解码器；X是基因测序数据集；S2
‑
2、使用预热过的auto
‑
encoder神经网络的共享编码器将各个敏感属性数据编码成为一个公共空间中的特征h
j
＝θ(x
j
)；在特征h
j
上用k
...

【专利技术属性】
技术研发人员：彭玺，曾鹏鑫，李云帆，杨筱宇，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人