System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基因标志物在消化道多癌种早筛中的应用、早筛模型构建方法以及检测装置制造方法及图纸_技高网

基因标志物在消化道多癌种早筛中的应用、早筛模型构建方法以及检测装置制造方法及图纸

技术编号:43646308 阅读:5 留言:0更新日期:2024-12-13 12:42
本发明专利技术涉及分子生物技术领域,具体为基因标志物在消化道多癌种早筛中的应用、早筛模型构建方法以及检测装置,本发明专利技术对血浆样本cfDNA 进行WGS 低深度测序,使用高通量测序结果分析三种消化道癌种 cfDNA 片段三种差异特征,包括,拷贝数变化,DNA 片段大小占比,核小体覆盖模式,利用卷积神经网络进行训练建模,实现在低测序深度下对多个癌肿的高特异性高敏感性的精准早期检测,再利用广义线性模型,梯度提升,随机森林,深度学习,和极端梯度提升五种算法分别进行训练建模,广义线性模型进行二次集合训练构建多特征算法整合,实现对多癌种的组织溯源检测的目的。

【技术实现步骤摘要】

本专利技术涉及一种基因标志物在消化道多癌种早筛中的应用,早筛模型构建方法以及检测装置,属于分子生物。


技术介绍

1、结直肠癌,肝癌以及胃癌都是常见的消化道癌症。实际上,消化道恶性肿瘤治疗效果取决于发现的时机。比如,早期胃癌手术后5年存活率超过90%,ii期为66%,晚期仅为14%。

2、结直肠癌始于结肠或大肠,由被称为息肉的小结肠息肉形成。虽然它们大多是非癌性生长,但有时也会发展成癌症。

3、大多数癌症在早期发现时,都有很好的治疗机会。胃肠癌的症状可能很容易被忽视,或被当作消化不良等容易治疗的病症而忽视,并认为它会自行消失。这可能会导致诊断和治疗的延误。早期发现可提高成功治疗的几率,因此保持警惕和定期筛查至关重要。

4、目前最常见的筛查手段为消化内镜检查, 内镜检查不仅可以直观观察胃肠道内有无肿瘤性病变,而且可以通过活检获得病理诊断。然而胃肠镜由于舒适度低的原因,大规模胃肠镜筛查存在依从性低的缺点。对于大规模人群筛查存在一定的局限性。消化道多癌种检测模型比传统筛查手段有明显优势。消化道多癌种检测模型的检测对象是血液,取样方便,能够降低患者的创伤和风险,提高依从性,提高早期患者检出占比,更早实现治疗,从而提高患者的五年生存率。


技术实现思路

1、本申请通过提出一种基因标志物在消化道多癌种早筛中的应用,早筛模型构建方法以及检测装置,以解决上述
技术介绍
中提出的问题。

2、为实现上述目的,本专利技术提供如下技术方案:

3、基因标志物在制备消化道多癌种早筛试剂中的应用,所述的消化道多癌种早筛试剂用于区分消化道多癌种的肿瘤患者与健康人;或者,所述的消化道多癌种早筛试剂用于对消化道多癌种的肿瘤患者进行癌种的溯源区分;

4、所述的消化道多癌种指肝癌,肠癌,胃癌;

5、所述的基因标志物包括:

6、第一标志物:wgs 数据中染色体上不同窗口中的拷贝数;

7、第二标志物:cfdna 片段比对至参考基因组的不同窗口中的短读段数量占比和长读段数量占比;

8、第三标志物:核小体覆盖模式;

9、所述的第一标志物通过如下步骤获得:将参考基因组划分为多个窗口,并分别获得 wgs 数据中 1-22 号染色体上不同窗口中的拷贝数数据;

10、所述的第二标志物通过如下步骤获得:将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的短读段数量和超长读段数量占比;所述的短读段是指长度为 60-150bp 的读段;所述的长读段是指长度为 151-220bp 的读段;

11、所述的第三标志物通过如下步骤获得:从gtrd数据库中筛选出具有已知转录位点的转录因子,排除那些在cis-bp数据库中未记录的转录因子;然后,以这些筛选后的转录因子的转录位点为中心,定义一个从位点上游5kb至下游5kb的区域作为分析窗口,并在该窗口内识别出长度在100-220bp范围内的可比对片段;接下来,对这些片段的测序读数进行gc含量校正和深度平滑处理,从而绘制出每个转录因子的覆盖度模式曲线;对于每个转录因子,计算以下三个特征以构建核小体覆盖模式:

12、(1)计算转录位点上下各1kb区间内的平均测序深度;

13、(2)从覆盖度模式曲线中提取波谷的深度值,这表示转录因子的中心深度;

14、(3)对覆盖度模式曲线进行快速傅里叶变换,以确定核小体振幅信号峰值的振幅大小。

15、一种消化道多癌种早筛模型的构建方法,所述的多癌种早筛试剂用于区分消化道多癌种的肿瘤患者与健康人;包括如下步骤:

16、s1:进行样本的cfdna提取与测序:从阳性组和对照组的样本中提取循环游离dna(cfdna),并进行测序以获得读段数据;

17、s2:收集染色体拷贝数数据:将参考基因组划分为多个窗口,并在这些窗口内收集全基因组测序(wgs)数据的拷贝数信息,形成第一组特征;

18、s3:分析读段数据并收集窗口特征:将测序得到的读段数据与参考基因组进行比对,并将基因组划分为多个窗口,在每个窗口内统计短读段和超长读段的数量占比,形成第二组特征;

19、s4:筛选并分析转录因子:从gtrd数据库中获取转录因子信息,并排除那些在cis-bp数据库中没有已知转录位点的转录因子,对于剩余的转录因子,将其转录位点附近的-5kb到+5kb范围定义为窗口,并在这些窗口内收集长度为100-220bp的可比对片段,对这些片段进行gc校正和测序深度平滑处理,得到每个转录因子的覆盖模式曲线,进一步提取以下三个特征,形成第三组特征:

20、计算转录因子所有转录位点的上端1kb至下端1kb区间内的平均深度;

21、从覆盖模式曲线中提取波谷的幅度值,作为转录因子的中心深度;

22、对覆盖模式曲线进行快速傅里叶变换,提取核小体振幅信号峰值的振幅数值;

23、s5:模型训练与消化道多癌种早筛模型的构建:将上述三组特征集合作为初始特征值,形成模型的特征向量,并将患癌概率作为输出值,输入这些特征向量到卷积神经网络模型中进行训练,最终获得消化道多癌种早期筛查模型;

24、优选的,所述的s2中窗口大小是 1mb;所述的s3 中包括:s3-1,将参考基因组划分为多个窗口,并分别获得每个窗口范围内的长读段数量和短读段数量;s3-2,将s3-1 的所有窗口的短读段数量和长读段数量标准化处理,标准化后的短读段数和长读段数的比例作为第一特征值;所述的s3-1 中窗口大小是 5mb;所述的短读段是指长度 100-150bp,所述的长读段是 151-220bp。

25、优选的,所述的多癌种早筛模型还用于对多癌种的肿瘤患者进行癌种的溯源区分;还包括步骤s6,以第一,第二,第三组特征共同作为初始特征值,作为模型特征向量输入至不同的分类器模型中,进行模型的训练,并获得分别针对第一、第二、第三组特征的多个子分类器模型;再将子分类器模型进行二次集合训练,得到溯源区分模型;所述的不同的分类器模型是广义线性回归模型、梯度提升模型、随机森林、深度学习神经网络模型、极致梯度提升模型中的一种或几种的组合;二次集合训练中采用广义线性模型。

26、一种多癌种早筛检测装置,是由上述任一项技术特征所述的构建方法所得到;该装置由以下几部分组成:

27、测序单元:负责从阳性组和对照组样本中提取循环游离dna(cfdna)并进行测序,以获取读段数据;

28、特征提取单元一:将参考基因组分割成多个窗口,并收集不同窗口在染色体上的wgs数据拷贝数,形成第一组特征;

29、特征提取单元二:将测序得到的读段数据与参考基因组比对,将基因组分割成多个窗口,并统计每个窗口内的短读段和超长读段数量占比,形成第二组特征;

30、特征提取单元三:从gtrd数据库中筛选出转录因子,并排除那些在cis-bp数据库中没有已知转本文档来自技高网...

【技术保护点】

1.基因标志物在制备消化道多癌种早筛试剂中的应用,其特征在于,所述的消化道多癌种早筛试剂用于区分消化道多癌种的肿瘤患者与健康人;或者,所述的消化道多癌种早筛试剂用于对消化道多癌种的肿瘤患者进行癌种的溯源区分;

2.根据权利要求1所述的应用,其特征在于,所述的第一标志物通过如下步骤获得:将参考基因组划分为多个窗口,并分别获得 WGS 数据中 1-22 号染色体上不同窗口中的拷贝数数据。

3.根据权利要求1所述的应用,其特征在于,所述的第二标志物通过如下步骤获得:将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的短读段数量和超长读段数量占比;所述的短读段是指长度为 60-150bp 的读段;所述的长读段是指长度为 151-220bp 的读段。

4.一种消化道多癌种早筛模型的构建方法,其特征在于,所述的多癌种早筛试剂用于区分消化道多癌种的肿瘤患者与健康人;包括如下步骤:

5.根据权利要求4所述的一种多癌种早筛模型的构建方法,其特征在于,所述的S2中窗口大小是 1Mb;所述的S3 中包括:S3-1,将参考基因组划分为多个窗口,并分别获得每个窗口范围内的长读段数量和短读段数量;S3-2,将S3-1 的所有窗口的短读段数量和长读段数量标准化处理,标准化后的短读段数和长读段数的比例作为第一特征值;所述的S3-1 中窗口大小是 5Mb;所述的短读段是指长度 100-150bp,所述的长读段是 151-220bp。

6.根据权利要求4所述的一种多癌种早筛模型的构建方法,其特征在于,所述的多癌种早筛模型还用于对多癌种的肿瘤患者进行癌种的溯源区分;还包括步骤S6,以第一、第二和第三特征集合共同作为初始特征值,作为模型特征向量输入至不同的分类器模型中,进行模型的训练,并获得分别针对第一、第二和第三特征集合的多个子分类器模型;再将子分类器模型进行二次集合训练,得到溯源区分模型;所述的不同的分类器模型是广义线性回归模型、梯度提升模型、随机森林、深度学习神经网络模型、极致梯度提升模型中的一种或几种的组合;二次集合训练中采用广义线性模型。

7.一种多癌种早筛检测装置,其特征在于,是由权利要求 4-6 任一项所述的构建方法所得到;该装置由以下几部分组成:

8.根据权利要求7所述的装置,其特征在于,特征提取单元一中,窗口大小是1Mb。

9.根据权利要求7所述的装置,其特征在于,特征提取单元二中,窗口大小是5Mb。

...

【技术特征摘要】

1.基因标志物在制备消化道多癌种早筛试剂中的应用,其特征在于,所述的消化道多癌种早筛试剂用于区分消化道多癌种的肿瘤患者与健康人;或者,所述的消化道多癌种早筛试剂用于对消化道多癌种的肿瘤患者进行癌种的溯源区分;

2.根据权利要求1所述的应用,其特征在于,所述的第一标志物通过如下步骤获得:将参考基因组划分为多个窗口,并分别获得 wgs 数据中 1-22 号染色体上不同窗口中的拷贝数数据。

3.根据权利要求1所述的应用,其特征在于,所述的第二标志物通过如下步骤获得:将读段数据结果比对至参考基因组,将参考基因组划分为多个窗口,并分别获得在每个窗口范围内的短读段数量和超长读段数量占比;所述的短读段是指长度为 60-150bp 的读段;所述的长读段是指长度为 151-220bp 的读段。

4.一种消化道多癌种早筛模型的构建方法,其特征在于,所述的多癌种早筛试剂用于区分消化道多癌种的肿瘤患者与健康人;包括如下步骤:

5.根据权利要求4所述的一种多癌种早筛模型的构建方法,其特征在于,所述的s2中窗口大小是 1mb;所述的s3 中包括:s3-1,将参考基因组划分为多个窗口,并分别获得每个窗口范围内的长读段数量和短读段数量;s3-...

【专利技术属性】
技术研发人员:邵阳包华徐秀秀吴舒雨杨姗姗
申请(专利权)人:南京世和基因生物技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1