【技术实现步骤摘要】
一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用
[0001]本专利技术涉及一种基于
cfDNA
二代测序数据检测微卫星不稳定的装置
、
方法及其应用
。
技术介绍
[0002]微卫星
(Microsatellite
,简称
MS)
是基因组中短的串联重复片段或单核苷酸重复序列;其重复单元的长度一般在1‑6碱基,重复次数一般在4次以上
。
微卫星的重复单元发生插入或缺失导致其长度发生变化,这一现象称为微卫星不稳定性
(Microsatellite Instability
,简称
MSI)。MSI
现象于
1993
年在一类遗传性的结直肠癌中被首次描述
(Arzimanoglou I I,Gilbert F,Barber H R,Microsatellite instability in human solid tumors.Cancer,1998,82:1808
‑
20)
,该现象一般与错配修复
(Mismatch Repair
,
MMR)
基因缺陷有关
(Thibodeau S N,French AJ,Roche P C et al.Altered expression of hMSH2 and hMLH1 in tumors with microsatellite instability ...
【技术保护点】
【技术特征摘要】
1.
检测微卫星不稳定性的装置,其特征在于:所述装置包括如下模块:
A1)
测序数据获得和分析模块:用于获取待测肿瘤患者和健康人的外周血样本
cfDNA
的原始测序数据,经质控后获得有效测序数据,将所述有效测序数据比对到参考基因组得到比对结果文件,所述比对结果文件含有比对片段和所述比对片段的比对信息;
A2)
前端模块:用于分别截取
101
个
MS
位点在人参考基因组的位置及其上下游序列片段获得每个所述
MS
位点的参考序列,从所述比对结果文件中分别截取所述
101
个
MS
位点及其上下游序列片段,获得所述样本每个所述
MS
位点的比对序列,使用
SW
算法将每个所述
MS
位点的所述比对序列重新比对到每个所述
MS
位点的参考序列,得到所述样本的重比对结果文件;保留所述重比对结果文件中测穿所述
101
个
MS
位点的比对片段,得到过滤重比对结果文件;将所述过滤重比对结果文件经过分子标签一致性分析得到所述样本每个所述
MS
位点每种单核苷酸重复序列长度的原始支持数;将所述样本的每个所述
MS
位点每种单核苷酸重复序列长度的原始支持数求和,得到所述样本每个所述
MS
位点的总支持数,基于所述总支持数判断每个所述
MS
位点质控是否合格;处理每个质控合格所述
MS
位点每种单核苷酸重复序列长度的原始支持数,获得所述样本的每个所述
MS
位点每种单核苷酸重复序列长度的最终支持数;
A3)
构建参考集模块:用于将健康人的外周血
cfDNA
经
A1)
获得的比对结果文件,使用
A2)
所述前端模块分析获得所述健康人每个所述
MS
位点每种单核苷酸重复序列长度的最终支持数,基于所述健康人每个所述
MS
位点每种单核苷酸重复序列长度的最终支持数,获得参考集每个所述
MS
位点每种单核苷酸重复序列长度的基线值;
A4)
后端模块:用于基于
A3)
获得的每个
MS
位点每种单核苷酸重复序列长度的基线值乘以权重系数获得所述样本每个
MS
位点每种单核苷酸重复序列长度的加权基线值;使用
A2)
得到所述待测肿瘤患者的每个
MS
位点每种单核苷酸重复序列长度的最终支持数减去所述加权基线值,获得所述待测肿瘤患者每个
MS
位点每种单核苷酸重复序列长度的原始得分;基于所述原始得分乘以权重系数获得所述待测肿瘤患者的每个
MS
位点每种单核苷酸重复序列长度的最终得分;将所述待测肿瘤患者的每个
MS
位点每种单核苷酸重复序列长度的最终得分求和得到所述待测肿瘤患者的每个
MS
位点的最终得分;将所述每个
MS
位点的最终得分与阈值比较判断所述待测肿瘤患者每个
MS
位点是阴性还是阳性;将所述待测肿瘤患者所有
MS
位点的最终得分求和得到所述待测肿瘤患者的最终得分;基于所述待测肿瘤患者的阳性位点数量以及待测肿瘤患者的最终得分确定所述待测肿瘤患者的微卫星不稳定性;所述
101
个
MS
位点为如下
MS1
‑
MS101
:
MS1
对应人参考基因组
GRCh37
的
chr1
:
6257785
‑
6257792
;
MS2
对应人参考基因组
GRCh37
的
chr1
:
22033386
‑
22033397
;
MS3
对应人参考基因组
GRCh37
的
chr1
:
33402335
‑
33402351
;
MS4
对应人参考基因组
GRCh37
的
chr1
:
39751173
‑
39751187
;
MS5
对应人参考基因组
GRCh37
的
chr1
:
161091815
‑
161091831
;
MS6
对应人参考基因组
GRCh37
的
chr1
:
236714293
‑
236714310
;
MS7
对应人参考基因组
GRCh37
的
chr2
:
39536690
‑
39536716
;
MS8
对应人参考基因组
GRCh37
的
chr2
:
47641560
‑
47641586
;
MS9
对应人参考基因组
GRCh37
的
chr2
:
48032741
‑
48032753
;
MS10
对应人参考基因组
GRCh37
的
chr2
:
48033891
‑
48033908
;
MS11
对应人参考基因组
GRCh37
的
chr2
:
62063094
‑
62063110
;
MS12
对应人参考基因组
GRCh37
的
chr2
:
66796099
‑
66796108
;
MS13
对应人参考基因组
GRCh37
的
chr2
:
95849362
‑
95849384
;
MS14
对应人参考基因组
GRCh37
的
chr2
:
120714402
‑
120714417
;
MS15
对应人参考基因组
GRCh37
的
chr2
:
138721943
‑
138721959
;
MS16
对应人参考基因组
GRCh37
的
chr2
:
148683686
‑
148683693
;
MS17
对应人参考基因组
GRCh37
的
chr2
:
190687176
‑
190687184
;
MS18
对应人参考基因组
GRCh37
的
chr2
:
217280262
‑
217280276
;
MS19
对应人参考基因组
GRCh37
的
chr3
:
30691872
‑
30691881
;
MS20
对应人参考基因组
GRCh37
的
chr3
:
44373518
‑
44373532
;
MS21
对应人参考基因组
GRCh37
的
chr3
:
71008342
‑
71008354
;
MS22
对应人参考基因组
GRCh37
的
chr4
:
55598212
‑
55598236
;
MS23
对应人参考基因组
GRCh37
的
chr4
:
55976948
‑
55976960
;
MS24
对应人参考基因组
GRCh37
的
chr4
:
74285192
‑
74285203
;
MS25
对应人参考基因组
GRCh37
的
chr4
:
141448596
‑
141448609
;
MS26
对应人参考基因组
GRCh37
的
chr5
:
16474779
‑
16474794
;
MS27
对应人参考基因组
GRCh37
的
chr5
:
121362853
‑
121362863
;
MS28
对应人参考基因组
GRCh37
的
chr5
:
132425416
‑
132425429
;
MS29
对应人参考基因组
GRCh37
的
chr5
:
134086671
‑
134086683
;
MS30
对应人参考基因组
GRCh37
的
chr5
:
158526535
‑
158526549
;
MS31
对应人参考基因组
GRCh37
的
chr6
:
32166161
‑
32166173
;
MS32
对应人参考基因组
GRCh37
的
chr6
:
43021977
‑
43021988
;
MS33
对应人参考基因组
GRCh37
的
chr6
:
64289939
‑
64289953
;
MS34
对应人参考基因组
GRCh37
的
chr6
:
157495952
‑
157495965
;
MS35
对应人参考基因组
GRCh37
的
chr6
:
163899795
‑
163899806
;
MS36
对应人参考基因组
GRCh37
的
chr7
:
5239320
‑
5239335
;
MS37
对应人参考基因组
GRCh37
的
chr7
:
27868484
‑
27868500
;
MS38
对应人参考基因组
GRCh37
的
chr7
:
30673513
‑
30673527
;
MS39
对应人参考基因组
GRCh37
的
chr7
:
54819994
‑
54820004
;
MS40
对应人参考基因组
GRCh37
的
chr7
:
74608741
‑
74608753
;
MS41
对应人参考基因组
GRCh37
的
chr7
:
116381122
‑
116381137
;
MS42
对应人参考基因组
GRCh37
的
chr7
:
143003343
‑
143003367
;
MS43
对应人参考基因组
GRCh37
的
chr8
:
7346867
‑
7346875
;
MS44
对应人参考基因组
GRCh37
的
chr8
:
7679728
‑
7679736
;
MS45
对应人参考基因组
GRCh37
的
chr8
:
30933817
‑
30933828
;
MS46
对应人参考基因组
GRCh37
的
chr8
:
32488248
‑
32488262
;
MS47
对应人参考基因组
GRCh37
的
chr8
:
32528648
‑
32528661
;
MS48
对应人参考基因组
GRCh37
的
chr8
:
32548236
‑
32548246
;
MS49
对应人参考基因组
GRCh37
的
chr8
:
32551070
‑
32551085
;
MS50
对应人参考基因组
GRCh37
的
chr8
:
32584436
‑
32584448
;
MS51
对应人参考基因组
GRCh37
的
chr8
:
33356192
‑
33356207
;
MS52
对应人参考基因组
GRCh37
的
chr8
:
33356826
‑
33356838
;
MS53
对应人参考基因组
GRCh37
的
chr8
:
38321489
‑
38321499
;
MS54
对应人参考基因组
GRCh37
的
chr8
:
79629739
‑
79629752
;
MS55
对应人参考基因组
GRCh37
的
chr8
:
103287851
‑
103287863
;
MS56
对应人参考基因组
GRCh37
的
chr9
:
27062803
‑
27062815
;
MS57
对应人参考基因组
GRCh37
的
chr9
:
87314579
‑
87314591
;
MS58
对应人参考基因组
GRCh37
的
chr9
:
130571226
‑
130571245
;
MS59
对应人参考基因组
GRCh37
的
chr10
:
8115669
‑
8115686
;
MS60
对应人参考基因组
GRCh37
的
chr10
:
32575774
‑
32575784
;
MS61
对应人参考基因组
GRCh37
的
chr10
:
115963127
‑
115963135
;
MS62
对应人参考基因组
GRCh37
的
chr11
:
59368219
‑
59368234
;
MS63
对应人参考基因组
GRCh37
的
chr11
:<...
【专利技术属性】
技术研发人员:马景娇,
申请(专利权)人:北京泛生子基因科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。