本发明专利技术公开了一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法。本发明专利技术主要基于逐步回归模型和最小最大凹惩罚的Cox回归模型,从转录组测序数据中识别预后相关APA特征,筛选稳定的预后风险相关标志基因组,提供预后风险得分计算公式,基于数据辅助预测临床患者预后。本发明专利技术提供了构建应用于临床患者分层指标的新思路,在已有数据的实施和验证中表现出较高的准确性,并可以简便的推广到任意数据集。集。集。
【技术实现步骤摘要】
一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法
[0001]本专利技术涉及高通量测序、基因可变聚腺苷酸化位点识别和疾病预后风险基因筛选
具体涉及一种基于可变聚腺苷酸化表达数据的预后风险基因组筛选方法及其应用。
技术介绍
[0002]可变聚腺苷酸化(Alternative poyadenylation,APA)是基因的一种主要转录后调节方式。APA位点常发生于基因的3
’
非编码区域,可产生不同3
’
非编码区末端的转录本,在poly(A)聚合酶的作用下生成不同位置和长度的poly(A)尾,影响RNA加工因子和RNA结合蛋白等调节分子与转录本的结合,进而影响mRNA的稳定性及不同转录本的表达。已有研究发现,APA具有显著的组织特异性,在细胞的增殖和分化中具有重要作用。
[0003]恶性肿瘤作为一种与细胞的异常分化和增殖密切相关的疾病,其细胞中一些基因的APA位置及转录本表达量与正常细胞存在显著差异。例如,在8号染色体和21号染色体易位白血病(t(8;21)AML)的细胞中,近端APA导致AML1
‑
AE融合基因3
’
UTR区域的缩短并提高AE基因的稳定性,促进白血病细胞的增长,影响患者的治疗和预后。这提示APA差异基因具有作为肿瘤治疗靶点和患者预后预测指标的潜在可能性。在临床应用中,患者的预后分层在用药选择、疗效评估、复发监测等方面具有重要指导作用。
[0004]随着高通量测序技术的发展,全转录组测序越来越多的应用于复杂疾病的临床诊断和治疗中,产生的大量测序数据也为深入挖掘疾病生物机制提供了基础。由于组学数据具有小样本、高维度的特征,为了获得更加稳定、可解释的模型,从大量数据中筛选与问题密切相关的特征子集,是生物信息数据挖掘中的重要步骤。
[0005]逐步回归是一种常用的变量选择方法,其将变量逐个引入模型或逐个从模型中去除,基于赤池信息准则(Akaike information criterion,AIC)等模型评价准则比较引入或删除变量前后的模型性能,并保留使模型性能提高的变量,重复该过程直到不能再引入有效的新变量,得到与预测结果显著相关的变量集。逐步回归适用于特征较多的数据,搜索方法包括前进法、后退法和混合法。其中,前进法和后退法通常只能达到局部最优,混合法可能引入贡献较小的特征,存在过拟合问题。
[0006]近年来,许多惩罚回归模型也被提出以解决变量回归模型中的不稳定性、计算困难性等问题,这些模型将无关变量的系数收缩至零,将系数非零的变量作为筛选的子集。最常使用的惩罚回归模型是LASSO,其将L1惩罚和线性模型结合使部分子集权重为0,相应特征被忽略。相比于LASSO回归模型,Breheny和Huang提出的基于非凸的平滑削边绝对偏离(Smoothly Clipped Absolute Deviation,SCAD)惩罚和最小最大凹惩罚(Mimimax Concave Penalty,MCP)方法,构建了更加稳定的变量选择回归模型,并提供了实现算法的R语言ncvreg包。
技术实现思路
[0007]本专利技术的目的在于提供一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法,从转录组测序数据中识别转录后调节相关的APA特征,筛选预后相关标志基因组,提供预后风险得分计算公式,基于数据辅助预测临床疾病预后。
[0008]为了达到上述目的,本专利技术采用以下技术方案予以实现:
[0009]步骤一,从样本全转录组测序数据中识别3
’
非翻译区可APA位点,计算不同转录本的表达量,并过滤表达量过低的APA位点;
[0010]步骤二,对步骤一所述的APA位点,通过单因素Cox回归分析初步筛选可能与预后相关的APA位点,将同一基因上所有APA位点的表达量相加作为该基因的表达量;
[0011]步骤三,对步骤二所述的基因,基于逐步回归和最小最大凹惩罚的多因素Cox回归模型进行进一步的筛选,得到预后风险基因组及相应系数,得到预后风险得分计算公式;
[0012]步骤四,根据步骤三得到的预后风险得分计算公式预测样本预后为高危组或低危组。
[0013]优选地,步骤一中,APA位点识别及表达量计算使用APA定量算法(Quantification of APA,QAPA)。
[0014]优选地,步骤二中,单因素Cox回归分析初步筛选设置纳入阈值为P值<0.01。
[0015]优选地,步骤三中,逐步回归使用R语言MASS包的stepAIC函数,搜索方法使用混合法(direction=“both”),基于最小最大凹惩罚的Cox回归模型使用R语言ncvreg包的cv.ncvsurv函数(penatly=“MCP”)。模型评价使用AIC指标。
[0016]优选地,步骤四中,使用R语言中plotROC包绘制ROC曲线,根据ROC曲线确定预后分层最佳阈值,将预后风险得分>最佳阈值设定为预后高危组,将预后风险的风≤最佳阈值设定为预后低危组,使用R语言survminer包中的ggsurvplot函数绘制Kaplan
‑
Meier曲线比较两组间的生存差异。ROC曲线使用R语言中plotROC包的ggplot函数实现;生存分析使用R语言中的survival包实现。
[0017]通过高通量测序获得新纳入样本的筛选基因转录本表达量,计算预后风险得分,根据分类阈值预测样本属于预后高风险组或预后低风险组。
[0018]与现有技术相比,本专利技术具有以下有益效果:
[0019]目前仅基于高维度、小样本的传统基因表达数据,对复杂疾病的基因表达调控等生物机制的研究程度有限。本专利技术基于基因可变聚腺苷酸化表达数据,将基因的转录后调控情况作为标志与疾病发展相关联,为疾病的预后进行分层,为复杂疾病的临床干预提供指导信息。本专利技术基于大量已有临床数据构建稳定回归模型,可对新纳入样本选择标志基因进行测序,避免全转录组测序的高成本、高噪声、复杂分析等问题,便于临床的推广和应用。
附图说明
[0020]图1是基于基因可变聚腺苷酸化表达数据的预后风险基因组筛选方法的流程;
[0021]图2是根据预后风险得分对样本生存分析的ROC曲线;
[0022]图3是根据预后风险得分的预后分层Kaplan
‑
Meier曲线。
具体实施方式
[0023]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0024]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法,其特征在于,包括以下步骤:(1)基因可变据腺苷酸化位点识别及表达数据的计算,使用APA识别算法,提取基因3
’
非翻译区的APA位点,计算基因各转录本的TPM表达量;(2)预后相关基因的初步筛选,对转录本TPM表达值进行对数转换并去掉表达量过低的APA位点,通过单因素Cox回归分析进行生存相关APA位点筛选,并计算基因不同转录本表达量总和作为基因的总表达量;(3)筛选预后风险基因组,通过逐步回归和基于最小最大凹惩罚的Cox回归模型,对基因进行进一步筛选,输出筛选获得的基因及相应系数,得到预后风险得分计算公式,预后风险得分PRS=a+b1*Exp(gene1)+b2*Exp(gene2)+
…
+b
n
*Exp(gen n
),其中a为回归模型常数项,b
n
为回归系数,Exp(gene
n
)为基因gene
n
的总表达量;(4)根据预后风险得分预测样本预后,使用预后风险得分构建生存模型,通过ROC曲线确定最佳分类阈值,设定预后风险分数>最佳分类阈值为预后高危组,预后风险分数≤最佳分类阈值为预后低危组。2.根据权利要求1所述的一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法,其特征在于,步骤(1)中,APA位点识别及表达量计算使用APA定量算法(Quantification o...
【专利技术属性】
技术研发人员:胡曦,吴晓明,万金平,宋佳霖,杜建强,马欣越,张虎勤,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。