当前位置: 首页 > 专利查询>广东省第二人民医院广东省卫生应急医院专利>正文

一种特征mRNA表达谱组合及结肠癌早期预测方法技术

技术编号：26381327 阅读：29 留言：0更新日期：2020-11-19 23:50

本发明专利技术公开了一种特征mRNA表达谱组合及结肠癌早期预测方法，所述特征mRNA表达谱组合的核苷酸探针序列如SEQ ID NO.1‑20所示。本发明专利技术的基于mRNA表达谱组合特征评估结肠癌早期风险具有很高的精确度和准确率(ROC曲线下面积AUC＝1.000)。只需要获取上述20种mRNA的相对表达量，通过支持向量机模型计算给出结肠癌早期患病概率，可作为结肠癌早期预测的参考依据。

全部详细技术资料下载

【技术实现步骤摘要】
一种特征mRNA表达谱组合及结肠癌早期预测方法
本专利技术属于生物技术和医学领域，具体地说，涉及一种特征mRNA表达谱组合及结肠癌早期预测方法。
技术介绍
结肠癌(coloncancer)是常见的发生于结肠部位的消化道恶性肿瘤，多发于直肠与乙状结肠交界处。结肠癌男女患病比率为2-3:1，40-50岁人群发病率最高。慢性结肠炎患者、结肠息肉患者、男性肥胖者等为易感人群。结肠癌早期无明显症状，早期诊断较为困难。全球疾病负担(GlobalBurdenofDisease,GBD)数据显示，2017年全球患有结肠直肠癌的人数超过930万，其中中国患病人数高达235万。2017年全球患有结肠直肠癌的死亡人数约为90万，占总死亡人数的1.60％。中国2017年死亡患者数约为19万，占总死亡人数的1.79％。统计结果显示，从1990年到2017年全球结肠直肠癌患病率和死亡率持续增长。中国结肠直肠癌患病率和死亡率在2010年之前低于全球平均水平，2010年后患病率和死亡率急剧增长高于全球平均水平。支持向量机(SupportVectorMachine,SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。SVM模型是将实例表示为空间中的点，这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后，将新的实例映射到同一空间，并基于它们落在间隔的哪一侧来预测所属类别。当训练数据是线性可分时，SVM通过硬间隔最大化学习进行分类。当训练数据线性不可分时，SVM通过使用核技巧以及软...

【技术保护点】
1.一种基于特征mRNA表达谱组合，其特征在于，包括ASB8、CITED2、GLTP、GSN、ITM2C、LEPROT、MBNL1、NDRG2、PLPP1、RAP1A、RNF11、RNF185、SERINC1、SPPL2A、STX12、TGFBI、TRAK2、TRIB3、TXNIP和VSIR，其核苷酸探针序列如SEQ ID NO.1-20所示。/n

【技术特征摘要】
1.一种基于特征mRNA表达谱组合，其特征在于，包括ASB8、CITED2、GLTP、GSN、ITM2C、LEPROT、MBNL1、NDRG2、PLPP1、RAP1A、RNF11、RNF185、SERINC1、SPPL2A、STX12、TGFBI、TRAK2、TRIB3、TXNIP和VSIR，其核苷酸探针序列如SEQIDNO.1-20所示。

2.一种基于权利要求1所述的特征mRNA表达谱组合的结肠癌早期预测方法，其特征在于，包括以下步骤：
步骤1、获取结肠癌早期患者稳定差异表达的特征mRNA；
步骤2、选取特征mRNA表达数据，对每个样本进行数据标准化；
步骤3、使用支持向量机对标准化后的数据构建早期预测模型；
步骤4、根据患者特征mRNA的表达水平进行早期预测；
该方法为非疾病的诊断和治疗目的。

3.根据权利要求2所述的预测方法，其特征在于，所述步骤1中的获取结肠癌早期患者稳定差异表达的特征mRNA具体为：
步骤1.1、从GenomicDataCommonsDataPortal数据库中下载结肠癌患者肿瘤组织和癌旁组织转录组数据以及临床数据，获得结肠癌患者肿瘤组织基因表达谱readcounts数值，即为测序读段数值，进行对数转换；
步骤1.2、选取具有一定表达丰度的mRNA，即在所有样本中mRNA的readcounts大于等于10；再对所有mRNA的readcounts取对数，设样本总数为n，筛选后mRNA总数为m，v为mRNA的readcounts，u为取对数之后的表达值，则有：
uij＝log2vij，i∈(1，n)，j∈(1，m)(1)
其中，i为样本编号，j为mRNA编号，uij为第i个样本、第j个mRNA编号取对数之后的表达值，vij为第i个样本、第j个mRNA编号的readcounts数值；
步骤1.3、选取疾病分期为I期和II期的结肠癌患者，将这些患者记为结肠癌早期患者，结肠癌早期患者总数记为n′；
步骤1.4、选取肿瘤和正常样本中稳定表达的mRNA，即在肿瘤和正常样本中变异系数均小于0.1的mRNA，设μ为所有样本中mRNA的表达均值，σ为标准差，变异系数的计算公式为：

其中，j为mRNA编号，cv为变异系数，cvj为第j个样本的变异系数，σj为第j个mRNA编号的标准差，μj为第j个mRNA编号的mRNA的表达均值，设m1为稳定表达的mRNA总数，则有：

步骤1.5、选取肿瘤和正常样本中差异表达的mRNA；使用取对数后的表达值计算肿瘤和正常样本mRNA取对数后的倍数变化f，公式为：

其中，j为mRNA编号，fj为第j个mRNA编号的倍数变化，μ1j为第j个mRNA编号的肿瘤样本的表达均值，μ2j为第j个mRNA编号的正常样本的表达均值；
然后使用独立样本t检验比较肿瘤和正常样本中mRNA的表达差异，独立样本t检验公式为：

其中n1为肿瘤样本数，n2为正常样本数，μ1为肿瘤样本mRNA表达均值，μ2为正常样本mRNA表达均值，为肿瘤样本mRNA方差，为正常样本mRNA方差；
对所有t检验得出的p值进行错误发现率(falsediscoveryrate，FDR)校正，定义q为FDR校正后的数值，r为p值在m1个mRNA中排序后的位置，则有：

其中，j为mRNA编号，qj代表第j个mRNA编号的FDR校正后的数值，pj代表第j个mRNA编号的t检验得出的p值，rj代表第j个mRNA编号的p值在m1个mRNA中排序后的位置；
最后选取倍数变化f的绝对值大于1且FDR校正后q值小于等于0.05的mRNA，记为特征mRNA，设特征mRNA总数为m2，则有：

4.根据权利要求...

【专利技术属性】
技术研发人员：贺轲，向国安，李文兴，陈小勋，黄许森，
申请(专利权)人：广东省第二人民医院广东省卫生应急医院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人

相关技术

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术