System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 与结直肠癌相关生物标志物或其检测试剂在制备诊断结直肠癌的产品中的应用制造技术_技高网

与结直肠癌相关生物标志物或其检测试剂在制备诊断结直肠癌的产品中的应用制造技术

技术编号:41303773 阅读:7 留言:0更新日期:2024-05-13 14:49
本发明专利技术公开了与结直肠癌相关生物标志物或其检测试剂在制备诊断结直肠癌的产品中的应用。本发明专利技术通过TCGA数据库中结直肠癌组织转录谱信息与GTEx数据库中正常肠组织信息整合,挖掘与结直肠癌相关生物标志物,并基于神经网络架构,通过网格搜索和交叉验证寻找最佳超参数,建立诊断模型。该模型在测试集上诊断准确率为94.6%,灵敏度和特异性分别为98.7%和90.3%,结合机器学习、深度学习的优势,面对复杂数据时预测准确度更高,为结直肠癌的临床诊断提供了方法参考。

【技术实现步骤摘要】

本专利技术属于生物医药,涉及与结直肠癌相关生物标志物或其检测试剂在制备诊断结直肠癌的产品中的应用


技术介绍

1、结直肠癌(colorectal cancer, crc)是全球第三大癌症,crc大多由肠道腺瘤(colon adenoma, ca)发展而来,这一过程通常需要5到10年。crc通过早期发现和治疗,能将患者的5年生存率提高至90%以上,但由于侵入性和高成本等因素,传统筛查手段主要以蛋白为生物标志物,在疾病早期检出率和准确率低,约60%的新发病例为晚期,五年生存率仅为14%。因此,开发一种高灵敏度、高特异性、非侵入式的crc诊断方法,对于提前发现癌前病变,及时干预从而提高患者生存率,具有重要意义。

2、肿瘤生物标志物,能够作为诊断疾病的指标的dna或rna等特征,反映了生物致病过程的进展,被广泛用于疾病诊断和预后评估等临床开发实践。这些生物标志物可以单独或组合使用,通过预测患病风险来实现疾病的早期诊断。结直肠癌的实验室血清学检查可以辅助支持诊断,但其诊断的灵敏度和特异性有限,单一标志物并不能作为诊断指标。因此新的准确的辅助诊断模型可以改善目前诊断不准确及过度诊疗的现状。机器学习算法在利用生物标志物构建疾病预测模型方面展现出了精确的预测能力。然而,在传统的结直肠癌诊断模型构建过程中,由于样本量较少和特征维度较低,导致模型容易过拟合。因此,目前仍缺乏一种以大规模数据为支撑,基于机器学习的高灵敏度和高特异性的结直肠癌诊断模型。

3、综上所述,开发新型的结直肠癌诊断模型,扩充结直肠癌诊断的技术手段,对于提高结直肠癌诊断正确率具有重要意义。


技术实现思路

1、针对现有技术的不足和实际需求,本专利技术提供与结直肠癌相关生物标志物或其检测试剂在制备诊断结直肠癌的产品中的应用,挖掘与结直肠癌相关生物标志物并构建用于结直肠癌诊断的神经网络模型,以期实现结直肠癌准确、快速诊断。

2、为达上述目的,本专利技术采用以下技术方案:

3、第一方面,本专利技术提供与结直肠癌相关生物标志物或其检测试剂在制备诊断结直肠癌的产品中的应用;

4、所述与结直肠癌相关生物标志物包括nadph氧化酶1、角蛋白20、粘蛋白13、尾型同源框1、尾型同源框2、丝氨酸肽酶抑制因子kazal4型、人癌胚抗原相关的细胞粘附分子5和半乳糖凝集素4的组合,和/或,nadph氧化酶1的编码核酸、角蛋白20的编码核酸、粘蛋白13的编码核酸、尾型同源框1的编码核酸、尾型同源框2的编码核酸、丝氨酸肽酶抑制因子kazal4型的编码核酸、人癌胚抗原相关的细胞粘附分子5的编码核酸和半乳糖凝集素4的编码核酸的组合;所述编码核酸包括mrna或cdna。

5、本专利技术中,基于结直肠癌和肠组织转录组测序数据,挖掘与结直肠癌相关生物标志物,确认了8个结直肠癌生物标志物,包括nadph氧化酶1、角蛋白20、粘蛋白13、尾型同源框1、尾型同源框2、丝氨酸肽酶抑制因子kazal4型和人癌胚抗原相关的细胞粘附分子5,在结直肠癌患者中高表达(包括dna、mrna或蛋白水平层面),且在结直肠癌组织中高表达且在其他正常器官和免疫细胞中低表达。

6、第二方面,本专利技术构建一种诊断结直肠癌的试剂盒,所述试剂盒包括检测第一方面中所述与结直肠癌相关生物标志物的表达水平的试剂。

7、第三方面,本专利技术提供一种构建结直肠癌诊断模型的方法,所述方法包括如下步骤:

8、(1)不同数据库样本整合:整合结直肠癌组织转录组测序多样本数据,包括:结直肠癌组织(tcga-coad datasets)和正常肠组织(gtex-colon datasets)数据,消除批次效应后得到数据集合;

9、(2)结直肠癌的生物标志物筛选:基于所述数据集合,进行差异表达分析,得到在结直肠癌组织中差异高表达的基因,以在结直肠癌组织中高表达且在其他正常器官和免疫细胞中低表达为标准,确认权利要求1中所述与结直肠癌相关生物标志物;

10、(3)构建结直肠癌诊断模型:将所述数据集合随机拆分为训练集和测试集,基于所述与结直肠癌相关生物标志物,利用多层感知机(mlp)并通过网格搜索和交叉验证寻找最佳超参数,建立神经网络模型。

11、优选地,步骤(1)所述消除批次效应的方法包括:

12、估计每个基因的均值和方差,以及两个数据集间的均值和方差,以估计值拟合为线性模型,区分批次效应和真实信号,通过将原始数据减去批次效应估计值的加权平均值校正数据,以消除批次效应。

13、优选地,步骤(2)所述差异表达分析的方法包括:

14、通过deseq2(differential expression using sequencing data 2)算法进行差异基因表达分析,以负二项分布对基因表达数据进行建模,通过多重假设检验校正计算差异表达的显著性,以logfc>2,校正后p<0.001为条件过滤得到结直肠癌差异高表达基因。

15、优选地,所述数据集合随机拆分70%~85%(例如可以是75%、80%等等)为训练集,25%~30%为测试集。

16、优选地,所述方法还包括绘制roc曲线评估结直肠癌诊断模型的步骤。

17、在相同的阈值下,在训练集数据中,模型的auc值为0.999,诊断准确率为99.5%,灵敏度为99.2%,特异性为99.6%,在测试集数据中,模型的auc值为0.945,诊断准确率为94.6%,灵敏度为98.7%,特异性为90.3%。

18、第四方面,本专利技术提供一种结直肠癌诊断模型,所述结直肠癌诊断模型由第三方面所述的构建结直肠癌诊断模型的方法构建得到。

19、优选地,所述结直肠癌诊断模型为神经网络模型,以多层感知机为核心,输入数据为:a1、a2、a3、a4、a5、a6、a7和a8,激活函数为relu,优化器为lbfgs,正则化参数为0.0001,隐藏层神经元结构为(100,100),神经元结构为完全连接;输出变量为样本为结直肠癌的概率。

20、其中,a1表示nadph氧化酶1或其编码核酸的表达水平,a2表示角蛋白20或其编码核酸的表达水平,a3表示粘蛋白13或其编码核酸的表达水平,a4表示尾型同源框1或其编码核酸的表达水平,a5表示尾型同源框2或其编码核酸的表达水平,a6表示丝氨酸肽酶抑制因子kazal4型或其编码核酸的表达水平,a7表示人癌胚抗原相关的细胞粘附分子5或其编码核酸的表达水平,a8表示半乳糖凝集素4或其编码核酸的表达水平。

21、优选地,结直肠癌阳性的判断标准为概率值大于50%。

22、第五方面,本专利技术提供一种结直肠癌诊断装置,所述诊断装置包括检测单元和评估单元;

23、所述检测单元用于执行包括:

24、检测待测样本中第一方面所述与结直肠癌相关生物标志物的表达水平;

25、所述评估单元用于执行包括:

26、将检测单元检测的表达水平输入第四方本文档来自技高网...

【技术保护点】

1.与结直肠癌相关生物标志物或其检测试剂在制备诊断结直肠癌的产品中的应用;

2.一种诊断结直肠癌的试剂盒,其特征在于,所述试剂盒包括检测权利要求1中所述与结直肠癌相关生物标志物的表达水平的试剂。

3.一种构建结直肠癌诊断模型的方法,其特征在于,所述方法包括如下步骤:

4.根据权利要求3所述的构建结直肠癌诊断模型的方法,其特征在于,步骤(1)所述消除批次效应的方法包括:

5.根据权利要求3所述的构建结直肠癌诊断模型的方法,其特征在于,步骤(2)所述差异表达分析的方法包括:

6.根据权利要求3所述的构建结直肠癌诊断模型的方法,其特征在于,所述方法还包括绘制ROC曲线评估结直肠癌诊断模型的步骤。

7.一种结直肠癌诊断模型,其特征在于,所述结直肠癌诊断模型由权利要求3-6任一项所述的构建结直肠癌诊断模型的方法构建得到。

8.根据权利要求7所述的结直肠癌诊断模型,其特征在于,所述结直肠癌诊断模型为神经网络模型,以多层感知机为核心,输入数据为:A1、A2、A3、A4、A5、A6、A7和A8,激活函数为ReLu,优化器为lbfgs,正则化参数为0.0001,隐藏层神经元结构为(100,100),神经元结构为完全连接;输出变量为样本为结直肠癌的概率;

9.根据权利要求8所述的结直肠癌诊断模型,其特征在于,结直肠癌阳性的判断标准为概率值大于50%。

10.一种结直肠癌诊断装置,其特征在于,所述诊断装置包括检测单元和评估单元;

...

【技术特征摘要】

1.与结直肠癌相关生物标志物或其检测试剂在制备诊断结直肠癌的产品中的应用;

2.一种诊断结直肠癌的试剂盒,其特征在于,所述试剂盒包括检测权利要求1中所述与结直肠癌相关生物标志物的表达水平的试剂。

3.一种构建结直肠癌诊断模型的方法,其特征在于,所述方法包括如下步骤:

4.根据权利要求3所述的构建结直肠癌诊断模型的方法,其特征在于,步骤(1)所述消除批次效应的方法包括:

5.根据权利要求3所述的构建结直肠癌诊断模型的方法,其特征在于,步骤(2)所述差异表达分析的方法包括:

6.根据权利要求3所述的构建结直肠癌诊断模型的方法,其特征在于,所述方法还包括绘制roc曲线评估结直肠癌诊断模型的步骤。

【专利技术属性】
技术研发人员:裴仁军李铖孙娜王志利
申请(专利权)人:中国科学院苏州纳米技术与纳米仿生研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1