一种与肌萎缩侧索硬化症相关的生物标志物制造技术

技术编号:39492318 阅读:7 留言:0更新日期:2023-11-24 11:14
本发明专利技术公开了一种与肌萎缩侧索硬化症相关的生物标志物

【技术实现步骤摘要】
一种与肌萎缩侧索硬化症相关的生物标志物、诊断模型及其应用


[0001]本专利技术属于生物信息学
,涉及一种与肌萎缩侧索硬化症相关的生物标志物及其应用


技术介绍

[0002]肌萎缩侧索硬化症(
Amyotrophic Lateral Sclerosis
,简称
ALS
)是一种进展性神经系统疾病,以肌肉无力

萎缩和进行性麻痹为特征

目前,
ALS
的诊断主要依赖于临床症状和体征的观察

神经电生理检查和影像学检查

然而,仅依靠临床和神经电生理检查,早期诊断很难实现

[0003]生物学标志物一般在疾病的早期就已经出现改变,找到与肌萎缩侧索硬化症发生发展密切相关的生物学标志物对于疾病的早期诊断和治疗以及对疗效的评估都将产生巨大作用

基因组生物标志物为深入探讨疾病的发病机制及精准诊断和治疗提供了基础


1993
年第一个肌萎缩侧索硬化症致病基因
SOD1
的发现开始,目前已有
30
余个相关基因被明确与肌萎缩侧索硬化症的发病机制相关

这些基因代表当前诊断过程中最常见的基因突变,包括
FUS、SQSTM1

TARDBP
基因

基因检测阳性可加速肌萎缩侧索硬化症诊断进程,患者可尽早开始接受药物治疗
>。
部分基因致病性变异与疾病的特异性表型相关,还可据此对其进行预后评价和遗传咨询

在部分患者中,基因检测也有助于与成人发病的脊髓性肌萎缩

肯尼迪氏症鉴别

对家族性肌萎缩侧索硬化症家族成员进行特定致病突变的基因检测对确诊和评估风险会有帮助

家族中肌萎缩侧索硬化症的再现风险可以通过确定遗传方式进行评估,肌萎缩侧索硬化症基因检测可为未患病但有风险的家族成员提供风险信息

[0004]目前大多数已发表的肌萎缩侧索硬化症大队列研究都使用了欧洲血统的样本,而肌萎缩侧索硬化症的发病机制

病因

诊断和治疗很大程度上存在种族差异

中国的一项验证性研究利用欧洲人群的现有证据,确定了中国人群的两个易感位点

然而,目前还没有建立起稳定准确的基因筛选和风险评估模型,且缺乏可靠的生物标志物来进行
ALS
的诊断和鉴别

[0005]综上所述,挖掘可靠的与肌萎缩侧索硬化症相关的生物标志物以及相应诊断方法,对于肌萎缩侧索硬化症治疗领域具有重要意义


技术实现思路

[0006]针对现有技术的不足和实际需求,本专利技术提供一种与肌萎缩侧索硬化症相关的生物标志物

诊断模型及其应用,为肌萎缩侧索硬化症诊断提供新方法

新思路

[0007]为达上述目的,本专利技术采用以下技术方案:
[0008]第一方面,本专利技术提供一种构建肌萎缩侧索硬化症的生物标志物筛选及风险评估模型的方法,所述方法包括以下步骤:
[0009](1)获取肌萎缩侧索硬化症患者及健康对照
DNA
甲基化检测数据,并进行数据预处
理;
[0010](2)执行线性回归和调整的
t
检验(
moderated t

test
)进行组间的差异甲基化分析,并执行邦费罗尼(
bonferroni
)进行多重检验校正,选择
P
值小于
0.05
的位点作为差异甲基化位点,通过注释得到对应的差异甲基化基因,获得差异甲基化基因数据集;
[0011](3)将通过预处理的
DNA
甲基化数据集随机分为训练集和测试集,在训练集上分别执行5倍交叉验证套索算法和极端梯度提升算法,构建肌萎缩侧索硬化症的生物标志物筛选及风险评估模型,并获得相应的重要基因列表;
[0012](4)重复步骤(3)
n
次,
n
为大于零的整数,通过在测试集中绘制
ROC
曲线并计算
AUC
值对构建的模型进行评价,合并每次获得的相应的重要基因列表,根据基因出现频次进行排序,基于二项分布
0.05
的显著性阈值确定保留出现频率大于
0.037
的基因(计算公式为:;
n
为重复次数,
p
为出现频率)并与步骤(2)中差异甲基化基因进行对照,选取排序前列的基因作为肌萎缩侧索硬化症的生物标志物

[0013]本专利技术中,基于肌萎缩侧索硬化症患者队列,开发了基于机器学习算法的肌萎缩侧索硬化症风险评估模型

将通过严格质量控制的数据分为训练集和测试集,采用套索算法(
Least absolute shrinkage and selection operator

Lasso
)和极端梯度提升算法(
Extreme gradient boosting

XGBoost
)分别建立肌萎缩侧索硬化症风险评估模型,将建立的模型应用于测试集,对模型结果进行比较评估,得出最优的
ALS
风险评估模型,并识别最重要的差异甲基化基因作为肌萎缩侧索硬化症的
DNA
甲基化标志物,为肌萎缩侧索硬化症的早期诊断和识别提供依据

[0014]本专利技术中,基因在模型中出现的频率符合二项分布规律

表示一个估计二项分布标准误差(
standard error
)的公式,用于测试模型筛选出的基因的可靠性

在这个公式中:
n
代表重抽样的次数,即模型运行次数
。p
代表某个基因在
n
次模型运行中出现的频率

如果计算得到的
t
值大于相应显著性水平下的
t
临界值(例如可取
1.96
,对应于
0.05
的双尾检验),那么可以拒绝零假设,即估计在给定显著性水平下是显著的,表明估计是可靠的

[0015]优选地,选取序前
20
的基因作为萎缩侧索硬化症的生物标志物

[0016]优选地,步骤(1)所述数据预处理包括:
[0017](1’
)排除一般信息缺失的样本及质量较差的探针位点(如非
CpG
探针
、SNP
相关探针

位于
X

Y
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种构建肌萎缩侧索硬化症的生物标志物筛选及风险评估模型的方法,其特征在于,所述方法包括以下步骤:(1)获取肌萎缩侧索硬化症患者及健康对照
DNA
甲基化检测数据,并进行数据预处理;(2)执行线性回归和调整的
t
检验进行组间的差异甲基化分析,并执行邦费罗尼进行多重检验校正,选择
P
值小于
0.05
的位点作为差异甲基化位点,通过注释得到对应的差异甲基化基因,获得差异甲基化基因数据集;(3)将通过预处理的
DNA
甲基化数据集随机分为训练集和测试集,在训练集上分别执行5倍交叉验证套索算法和极端梯度提升算法,构建肌萎缩侧索硬化症的生物标志物筛选及风险评估模型,并获得相应的重要基因列表;(4)重复步骤(3)
n
次,
n
为大于零的整数,通过在测试集中绘制
ROC
曲线并计算
AUC
值对构建的模型进行评价,合并每次获得的相应的重要基因列表,根据基因出现频次进行排序,基于二项分布
0.05
的显著性阈值确定保留出现频率大于
0.037
的基因,计算公式为:,
n
为重复次数,
p
为出现频率,并与步骤(2)中差异甲基化基因进行对照,选取排序前列的基因作为肌萎缩侧索硬化症的生物标志物
。2.
一种肌萎缩侧索硬化症的生物标志物筛选及风险评估模型,其特征在于,所述模型由权利要求1所述的构建肌萎缩侧索硬化症的生物标志物筛选及风险评估模型的方法构建得到
。3.
一种与肌萎缩侧索硬化症相关的生物标志物,其特征在于,所述生物标志物由权利要求2所述的肌萎缩侧索硬化症的生物标志物筛选及风险评估模型筛选得到,所述生物标志物包括以下基因中的任意一种或至少两种的组合:
ANKLE2、SSH2、TNFRSF21、CDC42BPB、ADAMTS9、LOC100130581、ARID5A、PTPRN、ELAVL3、CLEC14A、JAG2、GALNT3、USP53、RNLS、MMADHC、KDM5A、SRGAP3

LRBA。4.
权利要求3所述的与肌萎缩侧索硬化症相关的生物标志物或检测其甲基化水平的试剂在制备检测肌萎缩侧索硬化症的产品中的应用
。5.
一种检测肌萎缩侧索硬化症的试剂盒,其特征在于,所述试剂盒包括检测权利要求3所述的与肌萎缩侧索硬化症相关的生物标志物的甲基化水平的试剂
。6.
根据权利要求5所述的检测肌萎缩侧索硬化症的试剂盒,其特征在于,所述试剂包括用于全基因组甲基化筛选分析的试剂

用于基于芯片的甲基化图谱分析的试剂

用于甲基化特异性
PCR
分析的试剂

用于飞行质谱检测的试剂

【专利技术属性】
技术研发人员:何及陈国波樊东升刘德全
申请(专利权)人:北京金域医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1