一种基于高通量测序数据的HLA基因综合分析方法技术

技术编号：33948776 阅读：17 留言：0更新日期：2022-06-29 21:57

本发明专利技术公开了一种基于高通量测序数据的HLA基因综合分析方法，包括如下内容：步骤一，数据预处理：将DNA测序数据比对到参考基因组上，然后依据比对结果选择需要的部分序列形成文件，以作为下游分析的输入；步骤二，基于NGS测序比对结果的HLA分型方案iNeo

全部详细技术资料下载

【技术实现步骤摘要】
一种基于高通量测序数据的HLA基因综合分析方法

[0001]本专利技术涉及生物信息领域，特别是一种基于高通量测序数据的HLA基因综合分析方法。

技术介绍

[0002]人类白细胞抗原(human leukocyte antigen，后文均简称HLA)是细胞内用于呈递抗原肽的一种蛋白分子，编码HLA的基因称之为HLA基因。在实际分析中通常主要研究两大类经典的HLA基因，即HLA
‑
I型基因和HLA
‑
II型基因，这两类基因均位于6号染色体上，根据其所在位置不同分别命名。在实际应用中，HLA
‑
I型基因主要研究HLA
‑
A基因、HLA
‑
B基因以及HLA
‑
C基因三种。他们的编码产物分布于几乎所有有核细胞表面(除神经细胞、成熟红细胞和滋养层细胞)，主要参与内源性抗原的呈递。HLA
‑
II型基因则通常主要研究HLA
‑
DR 基因、HLA
‑
DQ基因及HLA
‑
DP基因，它们多分布于T淋巴细胞、巨噬细胞和树突状细胞等专职抗原呈递细胞表面，参与外源性抗原的呈递。
[0003]由于HLA的作用是结合抗原，参与抗原呈递，因此抗原的高度多样性决定了HLA本身及及HLA基因的高度多样性，即每一类HLA基因具有数量众多的基因型。为方便研究与应用，世界卫生组织下的Nomenclature Committee For Factors of the HLA S...

【技术保护点】

【技术特征摘要】
1.一种基于高通量测序数据的HLA基因综合分析方法，其特征在于，包括如下内容：步骤一，数据预处理：将DNA测序数据比对到参考基因组上，然后依据比对结果选择需要的部分序列形成文件，以作为下游分析的输入；步骤二，多算法并行分型与结果整合：1，多算法整合结果汇总：a，将多算法的HLA分型结果汇总，将所有分型结果统一标准化，再进行去重复处理；b，将汇总的所有分型进行权重数值W计算：权重数值由每一个支持该分型的算法的权重系数w加和得到，而该权重系数则基于算法在特定数据集中的表现得到，衡量该表现的指标为算法的分型准确率或算法结果与金标准结果的相关性；c，确定等位基因1：确定了所有分型的权重数值后，将所有分型按照权重数值由高到低排列；若排名第一位的分型存在并列，则直接将并列的所有分型作为杂合结果；若第一位不存在并列，则排名第一的分型即为等位基因1，其对应权重数值记为W1；d，确定等位基因2与纯杂合：确定等位基因1后，若有其他分型结果，则按照W大小继续选择第二大分型，其对应权重数值为W2，并将W2与已设定的权重阈值T
thr
比较；若W2>T
thr
，则分型结果为杂合，对应分型为等位基因1、等位基因2；若W2≤T
thr
，则分型结果为纯合，对应分型仅有等位基因1；确定等位基因1后，若无其他结果，则分型结果为纯合，对应分型仅有等位基因1；若并列第二的分型存在并且满足杂合阈值，则并列的分型都保留；e，正常组织样本与肿瘤组织样本分型结果取交集；2，iNeo
‑
HLA
‑
Qual算法，定性分析：a，分型read计数：获取参考基因组和DNA测序数据的比对结果，根据比对结果统计比对到对应HLA分型上的read数目N；b，选择候选分型：从所有分型的支持read数目中选择数值最大的计为N
max
，将其与设定的系数C(0.5～1之间的小数)相乘，得到N的过滤阈值N
thr
，仅保留N>N
thr
的分型作为候选继续后续分析；c，等位基因组合集：将候选的HLA分型依次作为等位基因1，其他分型构成等位基因2集合，获得所有HLA分型对应的【等位基因1
‑
等位基因2集合】的组合集；d，提取等位基因1
‑
等位基因2集合：从【等位基因1
‑
等位基因2集合】组合集中提取一个等位基因1
‑
等位基因2集合，获得等位基因1；e，分型read重计数：确定等位基因1后，将同时比对到剩余候选分型那个与等位基因1的read从剩余候选分型的计算结果中去除，得到重计数后read数目N
’
，对于一个分型HLA
‑
A*02:01，其支持read
数目计为N
’
A0201
；若所有N
’
计算完成后，再次按照步骤二2b选择候选分型中的方式再一次对剩余分型进行筛选，通过筛选的分型作为新的等位基因2集合进入后续分析；f，等位基因2确定与等位基因组合生成：按N
’
大小依次取步骤二2e中得到的候选分型作为等位基因2，与步骤二2d中确定的等位基因1放在一起，构成一个等位基因组合，将所有的组合存放于集合C
allele
中；g，重复产生组合：回到步骤二2d提取等位基因1
‑
等位基因2集合，提取新的等位基因1
‑
等位基因2集合，然后重复步骤二2e
‑
步骤二2f，确定的组合存放于C
allele
中，直到【等位基因1
‑
等位基因2集合】组合集中所有的等位基因1

【专利技术属性】
技术研发人员：莫凡，张晓萌，
申请(专利权)人：杭州芯原力生物科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人