System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于机器学习的前列腺癌多靶点靶标的筛选及验证方法技术_技高网

基于机器学习的前列腺癌多靶点靶标的筛选及验证方法技术

技术编号:44803717 阅读:5 留言:0更新日期:2025-03-28 19:52
本发明专利技术公开医疗领域中的基于机器学习的前列腺癌多靶点靶标的筛选及验证方法,利用LASSO和RSF模型,通过参数优化,对前列腺癌基于其miRNA及mRNA测序数据及生存信息等进行反映,前列腺癌特性及临床预后等信息进行关键miRNA的挖掘,两种预后模型联合使用可以极大增加准确性,在筛选出关键miRNA后,通过构建风险评分系数以及对前列腺癌患者进行重新分组,并筛选差异基因,对差异基因进行GSEA、GO分析,进一步提高并验证筛选的准确性,同时为这些miRNA的生物学意义提供线索,基于疾病的RNA表达谱及其临床预后特征的分析,并不需要已知该疾病的某种确定的蛋白靶标,基于miRNA及其模拟物或抑制剂的对应关系,实现低成本高效率高准确性的药物筛选。

【技术实现步骤摘要】

本专利技术属于医疗领域,具体是用于治疗前列腺癌的靶点靶标筛选及验证方法。


技术介绍

1、目前,包括前列腺癌在内的肿瘤疾病是种多基因疾病,其发病往往依赖于几种,甚至十几种原癌或抑癌基因的突变、表达量异常以及拷贝数变化等,最典型的例如p53、ras、pten。由于细胞内调控网络的失灵、平衡的无法维持,最终导致细胞不受控增殖等,所以对于肿瘤治疗,目前临床上使用的靶向单个基因或蛋白质的治疗方式往往是低效的,因此,需要靶向多个靶点进行治疗。

2、多靶点药物治疗可以克服恶性肿瘤的多因素特性和耐药性,由于核酸药物的可控目标设计和多样成分,使它成为了目前理想的多靶点药物候选物。事实上,目前使用的药物联用以及靶向多个靶点的核酸或者多肽药物的研究进展很快,但对于包括前列腺癌在内的多种癌症类型,临床上尚缺乏多靶点治疗的靶点筛选方法以及靶向治疗方法。另外一个技术局限在于,对于多个靶点的药物干预往往是基于以往的用药经验,以及一些包括crispr(基因编辑技术)筛选等在内的联合用药筛选方法进行设计,但由于实验条件较为单一,而患者的基因特征千差万别,其重复性无法得到很好保证,并且没有很好地利用到现在日益壮大的生物医学数据库。其中一些实验与临床环境距离较远,无法很好地将显著性的治疗效果移植到真正的临床应用中。

3、mirna(微小rna)是一种长约21到23个核苷酸的rna分子,可调节其他基因的表达,mirna通过与mrna(信使rna)特异结合抑制转录后基因表达,可以“媒介”的方式作为部分疾病的有效药物靶点。而由于靶向mirna的不管是抑制物还是模拟物,均为较短的rna片段(20bp左右),其易于通过现代纳米载药技术等进行装载,从而达到对目标细胞的mirna进行多靶点干预的效果。

4、在多靶点的靶标挖掘以及药物使用方面,中国专利公开号为cn113066525a、名称为“一种基于集成学习与混合神经网络的多靶标药物筛选方法”的文献中提供的方法,包括:获取数据;对接处理,并根据对接分数得到候选药物;确定多靶标蛋白质并将候选药物与多靶标蛋白质进行对接,得到候选药物作用的靶标蛋白数量;基于预设的集成学习回归模型对候选药物的活性进行预测,得到候选药物的预测活性值;基于预设的混合神经网络框架对致病靶标蛋白质与候选药物进行结合力的预测,得到候选药物与靶标蛋白的结合力分数;综合确定最终的候选药物。其存在的问题是:此模型的前提是目标疾病需具有较为明确的蛋白质靶标,并且有较好的靶向药物,但这些条件在较多疾病中是难以满足的。

5、中国专利公开号为cn104965998a、名称为“多靶标药物和/或药物组合的筛选方法”的文献中提供的方法,首先查找药物靶标数据库,汇总成药靶标和在研靶标以及各个靶标对应的药物,得到靶标与药物对应关系的数据;通过系统遗传学的方法筛选出具有关联的靶标与靶标的组合;根据获得的靶标与药物对应关系的数据以及具有关联的靶标与靶标的组合,筛选多靶标药物和/或药物组合;其存在的问题是:一是并没有很好地利用到患者的临床预后信息与其基因型或者表达谱信息的关联性,二是药物——靶标关系是一种较为复杂,且充满着很多不确定性的对应关系,基于这个原理的药物筛选方法有放大这方面误差的风险。


技术实现思路

1、本专利技术的目的在于解决现有前列腺癌治疗中存在的上述问题,提供一种基于机器学习的前列腺癌多mirna靶点靶标的筛选方法及验证方法。

2、为实现上述目的,本专利技术基于机器学习的前列腺癌多mirna靶点靶标的筛选方法采用的技术方案是包括以下步骤:

3、步骤1):从公开的生物医学数据库资料数据库中下载正常前列腺组织的rnaseq数据作为正常组数据以及包括患者预后信息的前列腺癌的rnaseq数据作为肿瘤组数据;

4、步骤2):将正常组数据和肿瘤组数据作为r语言的deseq2包的输入信息,计算出各个mirna在肿瘤组和正常组之间的表达差异值logfc和统计学显著性p值,筛选出符合|logfc|>1.5且p<0.05的j个mirna数据;

5、步骤3):对j个mirna数据进行归一化得到归一化后的j个mirna数据;将所述的归一化后的j个mirna数据以及这j个mirna数据所对应的患者预后信息作为lasso模型的输入,lasso模型输出风险评分多项式,所述的风险评分多项式中的每项包含一个靶点靶标;

6、步骤4):对步骤2)中所述的j个mirna数据以及对应的患者预后信息作为rsf模型的输入,对j个mirna数据进行同步筛选,获得横坐标为各个mirna的重要性、纵坐标为各个mirna的数值分布图,从该分布图中得到排名最靠前的k个mirna;

7、步骤5):依据k个mirna,对步骤3)中所述的风险评分多项式中保留包含k个mirna的项,删除其余项,获得改写的风险评分多项式,所述的改写的风险评分多项式中的所有靶点靶标即为筛选出的多靶点靶标。

8、进一步地,步骤3)中所述的基于lasso的风险评分多项式为rs=(a1*b1)+(a2*b2)+……+(ai*bi)……,a1,a2,ai为对应的项系数,b1,b2,bi为对应的靶点靶标,i是靶点靶标的数量。

9、更进一步地,改写的风险评分多项式为rs=af*bf+……+am*bm,af,am为对应项的系数,多靶点靶标为bf,……,bm,bf和bm既是包含在i个mirna中的mirna,也是包含在k个mirna中的mirna,是i个mirna和k个mirna的交集。

10、本专利技术一种对筛选方法进行验证的方法是包括以下步骤:

11、根据所述的改写的风险评分多项式计算出各个前列腺癌患者的风险评分rs值,并依据该rs值将所有患者对半分为高rs组和低rs组;

12、结合已有的前列腺癌患者的预后信息得到kaplan-meier生存曲线,获知rs值所得出来的风险评分是否与前列腺癌患者的不良预后相关。

13、进一步地,将生物医学数据库资料数据库中的前列腺癌患者根据rs值排序,前四分之一为rs-高组,后四分之一为rs-低组;调用r语言包limma,将rs-高组和rs-低组所对应的mrna表达数据作为输入,输出两组的mrna的logfc及p值;以|logfc|>1并且p<0.05为条件筛选出n个表达差异显著的mrna,舍弃其余mrna;以n个mrna作为输入,在生物信息平台上进行基因功能富集分析。

14、本专利技术采用上述技术方案后的优点是:

15、1、本专利技术利用lasso(最小绝对值收敛和选择算子法)和rsf(随机生存森林)模型,通过参数优化,对前列腺癌基于其mirna及mrna(信使rna)测序数据及生存信息等进行反映前列腺癌特性及临床预后等信息进行关键mirna的挖掘,相对于简单的癌与癌旁比对,以及使用单一的预后模型筛选预后相关关键mirna,两种预后模型联合使用可以极大增加准确性,筛选出的关键mirna具备成为药物靶标的潜能本文档来自技高网...

【技术保护点】

1.一种基于机器学习的前列腺癌多靶点靶标的筛选方法,其特征在于包括以下步骤:

2.根据权利要求1所述的基于机器学习的前列腺癌多靶点靶标的筛选方法,其特征在于:步骤3)中所述的基于LASSO的风险评分多项式为RS=(A1*B1)+(A2*B2)+……+(Ai*Bi)……,A1,A2,Ai为对应的项系数,B1,B2,Bi为对应的靶点靶标,i是靶点靶标的数量。

3.根据权利要求2所述的筛选方法,其特征在于:改写的风险评分多项式为RS=Af*Bf+……+Am*Bm,Af,Am为对应项的系数,多靶点靶标为Bf,……,Bm,Bf和Bm既是包含在i个miRNA中的miRNA,也是包含在k个miRNA中的miRNA,是i个miRNA和k个miRNA的交集。

4.根据权利要求1所述的基于机器学习的前列腺癌多靶点靶标的筛选方法,其特征在于:步骤3)中,LASSO模型的正则化参数为0.63。

5.根据权利要求1所述的筛选方法,其特征在于:步骤1)中,M例前列腺癌的RNAseq数据需通过计算平均值去掉重复病例。

6.根据权利要求1所述的筛选方法,其特征在于:步骤2)中,j个miRNA数据中的j>50。

7.根据权利要求1所述的筛选方法,其特征在于:步骤1)中,下载N>50例正常前列腺组织的RNAseq数据和M>9N例前列腺癌的RNAseq数据。

8.一种对权利要求1-7任一项所述的筛选方法进行验证的方法,其特征在于:

9.根据权利要求8所述的验证的方法,其特征在于:

10.根据权利要求9所述的验证的方法,其特征在于:基因功能富集分析时输出结果曲线,如果结果曲线整体在0以下,则表明与高RS是负相关的,反之则为正相关。

...

【技术特征摘要】

1.一种基于机器学习的前列腺癌多靶点靶标的筛选方法,其特征在于包括以下步骤:

2.根据权利要求1所述的基于机器学习的前列腺癌多靶点靶标的筛选方法,其特征在于:步骤3)中所述的基于lasso的风险评分多项式为rs=(a1*b1)+(a2*b2)+……+(ai*bi)……,a1,a2,ai为对应的项系数,b1,b2,bi为对应的靶点靶标,i是靶点靶标的数量。

3.根据权利要求2所述的筛选方法,其特征在于:改写的风险评分多项式为rs=af*bf+……+am*bm,af,am为对应项的系数,多靶点靶标为bf,……,bm,bf和bm既是包含在i个mirna中的mirna,也是包含在k个mirna中的mirna,是i个mirna和k个mirna的交集。

4.根据权利要求1所述的基于机器学习的前列腺癌多靶点靶标的筛选方法,其特征在...

【专利技术属性】
技术研发人员:许航
申请(专利权)人:上海市肿瘤研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1