【技术实现步骤摘要】
一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统
[0001]本专利技术涉及生物信息分析
,特别是涉及一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统
。
技术介绍
[0002]单细胞 RNA 测序 (scRNA
‑
seq) 技术已经促进了更多的转录组研究
。
由于传统的
bulk RNA
‑
seq
技术获取一组细胞的平均基因表达,因此在肿瘤样本中识别出的细胞亚群的信息通常是模糊的
。scRNA
‑
seq 可量化单个细胞的基因表达,这有助于分析细胞差异
。
对于癌症相关疾病,
scRNA
‑
seq 能够表征肿瘤内异质性,这有助于研究人员在单细胞层次了解癌症亚型
、
细胞群和细胞功能
。
此外,
scRAN
‑
seq 分析也已被用于研究免疫系统和大脑神经元机制
。
[0003]基于单细胞表达数据的基因特征识别有助于从大量异质细胞中区分不同的细胞类型,这可被应用于多样化的下游表达分析
。
许多机器学习方法已被用于识别基因特征并确定
scRNA
‑
seq 数据中的细胞类型
。
例如,一些基因选择方法利用具有冗余信息的基因作为特征去分类癌症亚型
。
为了减少无用的基因,许多特征选择算法被用来识别精确和有效的基因特征 />。
例如
Mundra
等人提出了基于
T
‑
score
的基因排序方法,这个方法将基因视为独立的特征,从排名靠前的基因中选择一组特征来区分癌症亚型
。Reyes 等人将
Relief
‑
F
扩展到多标签学习上,这也可以被用于选择基因
。Guyon 等人提出集成递归特征消除(
RFE
)
。
它是一种常用特征选择方法,可以被结合到支持向量机(
SVM
)中,即
SVM
‑
RFE
,用于去除不重要的基因
。
其他方法使用基于网络的排序来识别基因作为生存指标
。
然而,大多数现有方法单独选择基因,而不考虑基因和癌症亚型之间的关联
。
许多人类疾病是异质性的,这导致了难以理解疾病机制
。
因此,有必要识别与潜在癌症亚型相关的可解释基因特征
。
[0004]为了提高
scRNA
‑
seq 数据分析的能力,我们提出了一种新的基因选择方法,自动关联特征学习 (AAFL)
,它可以同时自动识别不同细胞亚群(癌症亚型)的不同基因特征
。
所提出的 AAFL 方法将残差网络与低秩网络相结合,低秩网络选择与相应细胞亚群最相关的基因
。
此外,在基因选择之前我们获取差异表达基因(
DEG
)以过滤冗余基因
。
我们再将 AAFL 应用于真实的癌症
scRNA
‑
seq 数据集,以识别未知癌症亚型的基因特征
。
实验结果表明与广泛使用的基因选择方法相比,
AAFL
有更好的有效性
。
特别地,通过探索每个亚型的未知基因关联,每个亚型的相关基因可以被用来解释不同的亚型模式
。
系统的基因本体富集分析通过总结关键的生物学过程和途径证明了不同癌症亚型已识别基因特征的潜在功能
。
[0005]
技术实现思路
[0006]为解决目前本领域面临的上述问题,本专利技术提供了一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统,将残差网络与低秩网络相结合,自动选择与癌症亚型相
关的基因特征,差异表达基因(
DEG
)被使用以过滤冗余基因,以此来识别与相应癌症亚型最相关的基因特征
。
[0007]为实现上述目的,本专利技术提供了如下方案:一种用于单细胞测序数据的癌症亚型基因特征识别方法,包括:
S1:
搜集原始真实数据集;
S2: 数据预处理;
S3:
估计潜在癌症亚型的数量;
S4: 设计残差网络,低秩网络和全连接网络,并初始化权重;
S5: 初始化低秩的数量,最大迭代次数和超参;
S6: 预测低秩网络系数和权重;
S7: 计算重构基因表达和原始基因表达之间的误差;
S8: 利用误差更新下一代的网络权重;
S9: 获得潜在亚型对应的低秩网络系数和权重;
S10: 识别各个亚型对应的不同基因特征;
S11:
下游分析,包括差异表达基因分析
、
分类和聚类分析
、
可视化和功能富集分析等
。
[0008]优选地,所述估计潜在癌症亚型的数量,具体包括:为了识别恶性黑色素瘤细胞和良性肿瘤细胞之间的不同基因特征,我们将潜在癌症亚型的数量 C 设置为 2。
为了探索恶性黑色素瘤细胞中潜在癌症亚型的不同基因特征,我们使用 R 包 (factoextra) 来识别恶性黑色素瘤细胞的簇数
。
根据聚类数的结果,我们将提出的的
AAFL 中恶性黑色素瘤肿瘤细胞的 C 设置为 3。
[0009]优选地,所述设计残差网络,具体包括:
, 其中代表第
k
个细胞,
n
和
m
分别是细胞和基因的数量
。
残差网络的每一层公式为:其中表示第
g
层输出,和表示权重矩阵和偏差,表示恒等映射,
G
表示所有残差层的数量
。
每个都记录了一定程度的非线性
。
连接后,的第行包含基因的一组非线性
。
在以下部分中,可以表示为
。
[0010]优选地,所述设计低秩网络,具体包括:在每一个癌症亚型中,低秩网络对应
。
表示每一个亚型
c
所对应的基因关联图
。
我们使用低秩网络来近似关联矩阵,计算如下:其中表示矩阵转置,表示
‑
rank
矩阵,
,with ,在下,的度矩阵为,为双曲正切函数,为一个矩阵的对角线函数
。
输出为,其第 j 列表示来自基因 j 的相关非线性关系
。
这里,可学习参数的数量(的大小)为,在下,远小于
。
根据经验,的默认值设置为 1。
[0011]优选地,所述设计全连接网络,具体包括:全连接网络由一系列全连接层组成,从低秩网络的输出中取来学习每
个癌症亚型相关基因之间更深层的非线本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,包括:
S1:
搜集原始真实数据集;
S2: 数据预处理;
S3:
估计潜在癌症亚型的数量;
S4: 设计残差网络,低秩网络和全连接网络,并初始化权重;
S5: 初始化低秩的数量,最大迭代次数和超参;
S6: 预测低秩网络系数和权重;
S7: 计算重构基因表达和原始基因表达之间的误差;
S8: 利用误差更新下一代的网络权重;
S9: 获得潜在亚型对应的低秩网络系数和权重;
S10: 识别各个亚型对应的不同基因特征;
S11: 下游分析,包括差异表达基因分析
、
分类和聚类分析
、
可视化和功能富集分析等
。2.
根据权利要求1所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述进行所述原始真实数据集,具体包括:真实数据
Human melanoma tumor scRNA
‑
seq dataset (GEO access number: GSE72056),
此数据集包含来自
19
个患者的
4645
个单细胞和
23686
个基因
,
其中,
4645
个单细胞由
1257
个恶性黑色素肿瘤细胞和
3388
个良性肿瘤细胞组成
。3.
根据权利要求2所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述数据预处理,具体包括:首先,采用
log
‑
transformation
方法,进行表达量规范化
,
其次,在少于
6%
的细胞中进行表达的基因(稀有基因)和在超过
94% 的细胞中进行表达的基因(普遍存在的基因)被过滤,以此获得
12693
个基因
,
最后,我们使用
EMDomics
工具来识别差异表达基因,以此获得
1170
个差异表达基因
。4.
根据权利要求3所述的一种用于单细胞测序数据的所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述估计潜在癌...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。