System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于TCR测序的肺癌早筛检测装置及其构建方法和应用制造方法及图纸_技高网

一种基于TCR测序的肺癌早筛检测装置及其构建方法和应用制造方法及图纸

技术编号:44432168 阅读:0 留言:0更新日期:2025-02-28 18:43
本发明专利技术公开了一种基于TCR测序的肺癌早筛模型的构建方法,首先基于来源于肺癌患者和健康人样本的TCR测序数据构建富集TCR序列数据库,然后对每个样本进行TCR测序并获取每个样本的TCR特征,包括V gene和J gene的占比特征、TCR免疫组库的统计特征、趋同序列特征、TCR序列氨基酸占比特征、不同长度TCR序列占比特征、不同频率TCR序列占比特征和TCR富集序列特征;利用特征筛选方法对每个样本的TCR特征进行筛选后,结合样本的其他信息构建机器学习模型,得到肺癌早筛模型;并基于所述肺癌早筛模型构建了肺癌早筛检测装置,能够基于样本的TCR测序信息实现肺癌早筛。

【技术实现步骤摘要】

本专利技术涉及基因检测,具体地,涉及一种基于tcr测序的肺癌早筛检测装置及其构建方法和应用。


技术介绍

1、肺癌是我国发病率最高的恶性肿瘤,早期发现肿瘤并采取相应的措施对于肺癌的防治至关重要,ia期肺癌5年生存率能够达到70%以上,而iva期肺癌的5年生存率只有10%左右。但是由于缺乏有效的肿瘤筛查手段,在目前的临床实践中,早期发现并确诊的肿瘤占比较少,i期和ii期发现的肺癌占比仅30%左右;早期发现肿瘤也有助于减少因诊治肿瘤产生的费用,癌症转移阶段发现肿瘤所需诊疗费用一般为早期阶段的2~3倍。

2、目前临床上通常采用低剂量螺旋ct的方法对特定人群进行肺癌筛查,但该方法存在假阳性率高的问题,容易造成过度诊疗,增加患者风险和医疗负担,同时其还存在辐射的问题。

3、t细胞受体(t cell receptor,tcr)是指t细胞表面的特异性抗体,负责识别由主要组织相容性复合体(major histocompatibility complex,mhc)所呈递的抗原,对于识别肿瘤相关的抗原能够起到关键作用。tcr是一种异源二聚体,可以由αβ链或γδ链组成,其中αβ链组成的tcr占90%以上。

4、tcr序列由v gene(variable)、d gene(diversity)和j gene(join)区域的基因片段经过重排和插入生成,具有丰富的多样性。tcr的抗原决定区(complementary-determining region,cdr)用于与抗原-mhc(pmhc)复合物进行结合;其中tcr的β链的cdr3区域主要负责对抗原决定簇(epitope)的特异性识别。

5、每个个体中约有1011个t细胞,由106~108条特异的tcr序列构成;t细胞免疫组库指一个个体全部的tcr序列,通过对t细胞免疫组库的分析,能够了解个体的免疫现状、既往感染史、免疫反应等信息,对于预测肿瘤的发生、发展可能起到关键作用。tcr测序是指对个体的t细胞免疫组库分析,确认tcr序列的种类(clonotype)及数目(clonecounts),目前大多数tcr测序方法主要指对tcrβ链的cdr3区域进行测序。

6、目前已有一些研究将tcr测序用于肿瘤早筛,但这些研究大多使用tcr免疫组库的统计指标,构成tcr序列的kmer多样性等特征构建机器学习模型,用于肿瘤早筛;基于tcr免疫组库的统计指标的模型,所使用特征过于简单,未能完全利用tcr测序所提供的丰富信息,可能难以捕获早期肿瘤相关的信号;而基于tcr序列kmer多样性的模型往往输入特征过多,容易训练过拟合的模型。

7、因此,目前急需一种能够利用tcr测序信息进行肿瘤早筛的方法,通过tcr测序提供的丰富信息,实现对于肿瘤的精准早筛。


技术实现思路

1、本专利技术的目的是为了克服现有技术的上述不足,提供一种基于tcr测序的肺癌早筛检测装置及其构建方法和应用。

2、本专利技术的第一目的是提供一种基于tcr测序的肺癌早筛模型的构建方法。

3、本专利技术的第二目的是提供一种基于tcr测序的肺癌早筛检测装置。

4、为了实现上述目的,本专利技术是通过以下方案予以实现的:

5、一种基于tcr测序的肺癌早筛模型的构建方法,包括以下步骤:

6、s1.富集tcr序列数据库的建立:

7、s11.获取实验组tcr免疫组库和对照组tcr免疫组库,并分别计算实验组tcr免疫组库和对照组tcr免疫组库中每一tcr序列的出现次数;所述实验组含有肺癌患者样本,所述对照组含有健康人样本;

8、s12.去除步骤s11得到的对照组tcr免疫组库中出现次数≤5的tcr序列,得到对照组tcr序列数据集;

9、去除对照组tcr序列数据集低丰度的tcr序列,得到对照组富集tcr序列数据库;去除步骤s11得到的实验组tcr免疫组库中在对照组tcr序列数据集中出现过的tcr序列,并去除低丰度的tcr序列,得到实验组富集tcr序列数据库;

10、s2.肺癌早筛模型的构建:

11、利用训练集中的样本的特征对机器学习模型进行交叉验证训练,得到肺癌早筛模型;所述训练集包括阳性样本和阴性样本,所述阳性样本为恶性肺结节样本的血液和/或组织样本;所述阴性样本为良性肺结节样本的血液和/或组织样本,或健康人血液样本;所述特征包括tcr特征、临床特征和/或影像学特征;所述tcr特征包括:v gene和j gene的占比特征、tcr免疫组库的统计特征、趋同序列特征、tcr序列氨基酸占比特征、不同长度的tcr序列占比特征、不同频率的tcr序列占比特征和tcr富集序列特征;

12、所述tcr特征的获取方法具体如下:

13、训练集中每一样本的tcr测序数据经过质控,再将与tcrβ的cdr3区域比对上的tcr并转化为clonotypes文件,得到训练集样本的待分析数据;

14、v gene和j gene的占比特征:基于训练集的样本的待分析数据,获取样本的各tcr序列中各v gene和j gene的校正后clonecounts,作为样本的v gene和j gene的占比特征;

15、趋同序列特征:基于训练集的样本的待分析数据,保留tcr序列reads大于等于1~100,且不含有终止密码子和/或出现移码突变的tcr序列作为样本的functional tcr序列,计算趋同序列的特征;所述趋同序列为氨基酸序列相同但核苷酸序列不同的tcr序列;

16、趋同序列的特征为:趋同序列数目占比、趋同序列clonecounts占比和趋同序列校正后clonecounts占比;

17、tcr富集序列特征:(1)对训练集的样本的待分析数据和步骤s1中的对照组富集tcr序列数据库中长度相同的tcr序列,保留编辑距离≤0.3×b的tcr序列对,其中b为tcr序列长度,并选择alignment_score≥4.5×b的tcr序列对,作为tcr序列组合;

18、基于tcr序列组合,按照公式ii计算tcr富集序列特征enrich_score1,按照公式iii计算tcr富集序列特征enrich_type1;

19、公式ii:

20、其中alignment_scoreij为相同长度的tcr序列i和tcr序列j的alignment_score;nki为样本k中的tcr序列i的数目,样本k属于中的样本,为对照组富集tcr序列数据库;query_seq_scorej=ln(nj),nj为tcr序列组合中tcr序列j的数目,tcr序列j来源于样本的待分析数据;query_seqs为样本的待分析数据中的tcr序列数量;

21、公式iii:

22、其中enriched_seqs为tcr序列组合中来源于样本的tcr序列的数量;query_seqs为样本的待分析数据中的tcr序列数量

23、(2)按照(1)所示方法本文档来自技高网...

【技术保护点】

1.一种基于TCR测序的肺癌早筛模型的构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的构建方法,其特征在于,步骤S2中利用k-fold crosssvalidation和/或leave-one-out cross validation对机器学习模型进行交叉验证训练。

3.根据权利要求1所述的构建方法,其特征在于,步骤S2中所述临床特征包括是否有吸烟史、是否戒烟、是否曾患肺癌、是否COPD和/或是否有肺癌家族史;所述影像学特征包括肺结节大小、肺结节数目、是否为实性结节、是否为部分实性结节、是否为磨玻璃结节、是否存在毛刺和/或肺结节位置。

4.根据权利要求1所述的构建方法,其特征在于,步骤S2进行交叉训练前,利用Ensemble Feature selection和/或boruta特征筛选方法对训练集中样本的特征进行筛选。

5.根据权利要求1所述的构建方法,其特征在于,所述Ensemble Feature selection特征筛选方法包括recursive feature elimination、random forest和/或glmnet。

6.根据权利要求4所述的构建方法,其特征在于,对训练集中样本的特征进行筛选后,进行数据平衡。

7.根据权利要求1所述的构建方法,其特征在于,步骤S2中所述TCR免疫组库的统计特征包括香农指数、d50Index指数、反向辛普森指数和均一性指数。

8.根据权利要求1所述的构建方法,其特征在于,步骤S2中所述TCR序列氨基酸占比特征的获取方法为:基于样本的functional TCR序列,去除各TCR序列两端的1~4个氨基酸,计算删除氨基酸后TCR序列的各氨基酸的占比。

9.根据权利要求1所述的构建方法,其特征在于,步骤S2中所述不同长度的TCR序列占比特征和不同频率的TCR序列占比特征的获取方法为:基于样本的functional TCR序列,将其以长度进行分组,并计算各长度分组的TCR序列的数量比例,得到各长度的TCR序列的占比;基于样本的functional TCR序列,将其以频率进行分组,计算各频率分组的TCR序列的数量比例,得到各频率的TCR序列的占比。

10.一种基于TCR测序的肺癌早筛检测装置,其特征在于,包括测序模块、分析模块、预测模块和结果输出模块;

...

【技术特征摘要】

1.一种基于tcr测序的肺癌早筛模型的构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的构建方法,其特征在于,步骤s2中利用k-fold crosssvalidation和/或leave-one-out cross validation对机器学习模型进行交叉验证训练。

3.根据权利要求1所述的构建方法,其特征在于,步骤s2中所述临床特征包括是否有吸烟史、是否戒烟、是否曾患肺癌、是否copd和/或是否有肺癌家族史;所述影像学特征包括肺结节大小、肺结节数目、是否为实性结节、是否为部分实性结节、是否为磨玻璃结节、是否存在毛刺和/或肺结节位置。

4.根据权利要求1所述的构建方法,其特征在于,步骤s2进行交叉训练前,利用ensemble feature selection和/或boruta特征筛选方法对训练集中样本的特征进行筛选。

5.根据权利要求1所述的构建方法,其特征在于,所述ensemble feature selection特征筛选方法包括recursive feature elimination、random forest和/或glmnet。

<...

【专利技术属性】
技术研发人员:董林峰郭威阳作权陈亚如周衍庆陈实富许明炎
申请(专利权)人:深圳市海普洛斯生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1