一种基于高通量测序数据的HLA基因综合分析方法技术

技术编号:33948776 阅读:17 留言:0更新日期:2022-06-29 21:57
本发明专利技术公开了一种基于高通量测序数据的HLA基因综合分析方法,包括如下内容:步骤一,数据预处理:将DNA测序数据比对到参考基因组上,然后依据比对结果选择需要的部分序列形成文件,以作为下游分析的输入;步骤二,基于NGS测序比对结果的HLA分型方案iNeo

【技术实现步骤摘要】
一种基于高通量测序数据的HLA基因综合分析方法


[0001]本专利技术涉及生物信息领域,特别是一种基于高通量测序数据的HLA基因综合分析方法。

技术介绍

[0002]人类白细胞抗原(human leukocyte antigen,后文均简称HLA)是细胞内用于呈递抗原肽的一种蛋白分子,编码HLA的基因称之为HLA基因。在实际分析中通常主要研究两大类经典的HLA基因,即HLA

I型基因和HLA

II型基因,这两类基因均位于6号染色体上,根据其所在位置不同分别命名。在实际应用中,HLA

I型基因主要研究HLA

A基因、HLA

B基因以及HLA

C基因三种。他们的编码产物分布于几乎所有有核细胞表面(除神经细胞、成熟红细胞和滋养层细胞),主要参与内源性抗原的呈递。HLA

II型基因则通常主要研究HLA

DR 基因、HLA

DQ基因及HLA

DP基因,它们多分布于T淋巴细胞、巨噬细胞和树突状细胞等专职抗原呈递细胞表面,参与外源性抗原的呈递。
[0003]由于HLA的作用是结合抗原,参与抗原呈递,因此抗原的高度多样性决定了HLA本身及及HLA基因的高度多样性,即每一类HLA基因具有数量众多的基因型。为方便研究与应用,世界卫生组织下的Nomenclature Committee For Factors of the HLA System对HLA基因型的命名做了详细规定,具体命名规则见附图5。
[0004]在生物学中,若细胞同时拥有多套遗传物质,则称之为多倍体,而两套遗传物质上完全相同位置上的基因则互相称为等位基因(allele)。人是二倍体生物,一套遗传物质来自母方,另一套来自父方。若某基因的一对等位基因基因型完全相同时,我们称该基因为纯合,反之则称之为杂合。为描述方便,在后文中我们将会将一个HLA基因的两个等位基因分别称为等位基因1(allele1)和等位基因2(allele2)。
[0005]所谓HLA基因分型,即通过技术手段确定受试者的HLA基因的等位基因的基因型,同时了解每个HLA基因的纯/杂合状态的过程与方法。进行HLA基因分型的方法有多种,如血清学分型法、序列特异性寡核苷酸杂交(sequence specific oligonucleotide hybridization,SSO) 法和毛细管测序(Sanger法)、高通量测序(又名下一代测序,Next Generation Sequencing,NGS) 法。不同方法在实验效率、样品要求、分型分辨率上均有所差异。而得益于NGS技术近年的高速发展,拥有更高实验效率、更高分辨率同时更低样本要求,的NGS法正在得到越来越广的应用。
[0006]针对高通量测序数据,分型算法很大程度上决定了分型结果的准确性与分辨率。不同的算法虽然都有类似的技术原理,即将测序得到的reads(即测序过程中随机打断核酸序列后测得的短碱基序列)与准备好的参考基因组进行比对(align),以粗略获取属于HLA基因的reads,之后基于各自构建的算法,对比对(align)上的reads按HLA基因型进行分配,最终根据分配结果确定受试者的每个HLA等位基因的基因型,进而判定纯杂合情况,完成分型。但不同算法在参考基因组使用、分配算法构建以及纯杂合判定等关键步骤上的采取的策略都不尽相同,因此不同方法的最终的分型结果往往有所差异,同时同一方法在不同性
质的数据集上的准确性表现也会有所差异。
[0007]另外,在过去的临床与研究应用中,对HLA基因的分析绝大部分仅限于HLA分型,及定性分析,鲜有针对HLA基因表达量的研究及应用,因此HLA基因的定量方法目前存在较大的空白区域,本专利技术解决这些问题,为同时需要定性、定量两种结果的下游分析提供了能得到更准确、完善的数据支持的分析方法。

技术实现思路

[0008]为解决现有技术的不足,本专利技术的目的在于提供一种基于高通量测序数据的HLA基因综合分析方法,依据DNA的测序数据确定受试者的HLA基因分型,和RNA的测序结果计算分型的表达量,提高了同时需要定性、定量两种结果的下游分析的数据的准确性和完善性。
[0009]为了实现上述目标,本专利技术采用如下的技术方案:
[0010]一种基于高通量测序数据的HLA基因综合分析方法,包括如下内容:
[0011]步骤一,数据预处理:
[0012]将DNA测序数据比对到参考基因组上,然后依据比对结果选择需要的部分序列形成文件,以作为下游分析的输入;
[0013]步骤二,多算法并行分型与结果整合:
[0014]1,多算法整合结果汇总:
[0015]a,将多算法的HLA分型结果汇总,将所有分型结果统一标准化,再进行去重复处理;
[0016]b,将汇总的所有分型进行权重数值W计算:
[0017]权重数值由每一个支持该分型的算法的权重系数w加和得到,而该权重系数则基于算法在特定数据集中的表现得到,衡量该表现的指标为算法的分型准确率或算法结果与金标准结果的相关性;
[0018]c,确定等位基因1:
[0019]确定了所有分型的权重数值后,将所有分型按照权重数值由高到低排列;
[0020]若排名第一位的分型存在并列,则直接将并列的所有分型作为杂合结果;
[0021]若第一位不存在并列,则排名第一的分型即为等位基因1,其对应权重数值记为W1;
[0022]d,确定等位基因2与纯杂合:
[0023]确定等位基因1后,若有其他分型结果,则按照W大小继续选择第二大分型,其对应权重数值为W2,并将W2与已设定的权重阈值T
thr
比较;
[0024]若W2>T
thr
,则分型结果为杂合,对应分型为等位基因1、等位基因2;
[0025]若W2≤T
thr
,则分型结果为纯合,对应分型仅有等位基因1;
[0026]确定等位基因1后,若无其他结果,则分型结果为纯合,对应分型仅有等位基因1;
[0027]若并列第二的分型存在并且满足杂合阈值,则并列的分型都保留;
[0028]e,正常组织样本与肿瘤组织样本分型结果取交集;
[0029]2,iNeo

HLA

Qual算法,定性分析:
[0030]a,分型read计数:
[0031]获取参考基因组和DNA测序数据的比对结果,根据比对结果统计比对到对应HLA分
型上的read数目N;
[0032]b,选择候选分型:
[0033]从所有分型的支持read数目中选择数值最大的计为N
max
,将其与设定的系数C(0.5~1 之间的小数)相乘,得到N的过滤阈值N
thr
,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于高通量测序数据的HLA基因综合分析方法,其特征在于,包括如下内容:步骤一,数据预处理:将DNA测序数据比对到参考基因组上,然后依据比对结果选择需要的部分序列形成文件,以作为下游分析的输入;步骤二,多算法并行分型与结果整合:1,多算法整合结果汇总:a,将多算法的HLA分型结果汇总,将所有分型结果统一标准化,再进行去重复处理;b,将汇总的所有分型进行权重数值W计算:权重数值由每一个支持该分型的算法的权重系数w加和得到,而该权重系数则基于算法在特定数据集中的表现得到,衡量该表现的指标为算法的分型准确率或算法结果与金标准结果的相关性;c,确定等位基因1:确定了所有分型的权重数值后,将所有分型按照权重数值由高到低排列;若排名第一位的分型存在并列,则直接将并列的所有分型作为杂合结果;若第一位不存在并列,则排名第一的分型即为等位基因1,其对应权重数值记为W1;d,确定等位基因2与纯杂合:确定等位基因1后,若有其他分型结果,则按照W大小继续选择第二大分型,其对应权重数值为W2,并将W2与已设定的权重阈值T
thr
比较;若W2>T
thr
,则分型结果为杂合,对应分型为等位基因1、等位基因2;若W2≤T
thr
,则分型结果为纯合,对应分型仅有等位基因1;确定等位基因1后,若无其他结果,则分型结果为纯合,对应分型仅有等位基因1;若并列第二的分型存在并且满足杂合阈值,则并列的分型都保留;e,正常组织样本与肿瘤组织样本分型结果取交集;2,iNeo

HLA

Qual算法,定性分析:a,分型read计数:获取参考基因组和DNA测序数据的比对结果,根据比对结果统计比对到对应HLA分型上的read数目N;b,选择候选分型:从所有分型的支持read数目中选择数值最大的计为N
max
,将其与设定的系数C(0.5~1之间的小数)相乘,得到N的过滤阈值N
thr
,仅保留N>N
thr
的分型作为候选继续后续分析;c,等位基因组合集:将候选的HLA分型依次作为等位基因1,其他分型构成等位基因2集合,获得所有HLA分型对应的【等位基因1

等位基因2集合】的组合集;d,提取等位基因1

等位基因2集合:从【等位基因1

等位基因2集合】组合集中提取一个等位基因1

等位基因2集合,获得等位基因1;e,分型read重计数:确定等位基因1后,将同时比对到剩余候选分型那个与等位基因1的read从剩余候选分型的计算结果中去除,得到重计数后read数目N

,对于一个分型HLA

A*02:01,其支持read
数目计为N

A0201
;若所有N

计算完成后,再次按照步骤二2b选择候选分型中的方式再一次对剩余分型进行筛选,通过筛选的分型作为新的等位基因2集合进入后续分析;f,等位基因2确定与等位基因组合生成:按N

大小依次取步骤二2e中得到的候选分型作为等位基因2,与步骤二2d中确定的等位基因1放在一起,构成一个等位基因组合,将所有的组合存放于集合C
allele
中;g,重复产生组合:回到步骤二2d提取等位基因1

等位基因2集合,提取新的等位基因1

等位基因2集合,然后重复步骤二2e

步骤二2f,确定的组合存放于C
allele
中,直到【等位基因1

等位基因2集合】组合集中所有的等位基因1

【专利技术属性】
技术研发人员:莫凡张晓萌
申请(专利权)人:杭州芯原力生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1