System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及生物学信息,特别涉及一种癌症分期方法、装置及电子设备。
技术介绍
1、癌症分期是决定癌症发展与扩散程度的方法,准确的对癌症进行分期,有利于对癌症患者制定最合理的治疗方案,并有效判断癌症的预后情况。
2、现有技术中,通常利用临床和病理检查等方法进行癌症分期,但是仅通过临床检查(验血,放射性检查,内窥镜检查等),对癌症分期判断的信息有限,具有局限性。病理检查虽然能更准确的判断分期,但需要进行外科手术以获得病理切片,而并非所有的肿瘤都需要进行手术治疗,且部分患者在病理检查前可能进行了化疗和放疗,一定程度上会低估肿瘤的真实分期情况,故利用病理检查的方法仍然具有局限性。并且,不同的癌症具有不同的分期系统,部分癌症没有合适的分期方法,常规的分期方法不具有普适性。
技术实现思路
1、本公开提供一种癌症分期方法、装置及电子设备,用于通过多个分类模型集成得到的分期预测模型对输入的甲基化数据集对应的癌症分期进行预测,保证预测准确性的同时提高癌症分期的普适性。
2、第一方面,本公开实施例提供的一种癌症分期方法,该方法包括:
3、获取目标对象的甲基化数据集;
4、将所述甲基化数据集输入到分期预测模型,输出所述目标对象的癌症分期值;
5、其中,所述分期预测模型是根据n个分类模型集成得到的,所述n个分类模型的模型参数是利用网格检索的方法进行优化得到的,所述n个分类模型是利用交叉验证的方法从m个分类模型中筛选得到的,所述m个分类模型是利用相同
6、作为一种可选的实施方式,获取目标对象的甲基化数据集,包括:
7、获取目标对象的目标甲基化位点对应的甲基化数据,根据所述目标甲基化位点对应的甲基化数据,确定所述甲基化数据集;
8、其中,所述目标甲基化位点是基于不同癌症分期值对应的相同甲基化位点的甲基化数据的差异程度,或甲基化位点对应的甲基化数据和不同癌症分期值的相关性确定的。
9、作为一种可选的实施方式,所述分期预测模型还包括标准化模型,所述标准化模型用于通过去均值和方差归一化的方法,对所述甲基化数据集中的甲基化数据进行标准化处理。
10、作为一种可选的实施方式,所述分期预测模型还包括降维模型,所述降维模型用于根据pca方法,对所述甲基化数据集中的甲基化数据进行降维处理。
11、作为一种可选的实施方式,通过如下方式确定所述分期预测模型:
12、利用所述数据集分别对所述m个分类模型进行独立训练,确定m个分类模型各自的分类准确度;
13、按照所述分类准确度,从m个分类模型中筛选出k个分类模型。
14、作为一种可选的实施方式,所述按照所述分类准确度,从m个分类模型中筛选出k个分类模型之后,还包括:
15、利用交叉验证的方法,从k个分类模型中筛选出所述n个分类模型,所述m≥k≥n;和/或,
16、利用网格检索的方法,对筛选出的分类模型的模型参数进行调整。
17、作为一种可选的实施方式,所述利用交叉验证的方法,从k个分类模型中筛选出所述n个分类模型,包括:
18、利用所述数据集,对k个分类模型分别进行交叉验证,得到k个分类模型各自的评价指标值;
19、根据k个分类模型各自的评价指标值,从k个分类模型中筛选出n个分类模型。
20、作为一种可选的实施方式,获取所述数据集之后,还包括:
21、从所述数据集包含的甲基化数据中,筛选出目标甲基化位点对应的甲基化数据,用于利用筛选出的甲基化数据对所述m个分类模型进行独立训练。
22、作为一种可选的实施方式,所述数据集包括不同目标对象的样本集,所述样本集包括各甲基化位点对应的甲基化数据,一个样本集对应一种癌症分期值;通过如下方式确定目标甲基化位点:
23、按照所述样本集对应的癌症分期值,将所述数据集划分为多个子集,一个子集对应一种癌症分期值,不同子集包含的样本集对应的癌症分期值不同;
24、针对每个甲基化位点,根据多个子集中分别与所述甲基化位点对应的甲基化数据,确定目标甲基化位点。
25、作为一种可选的实施方式,所述根据多个子集中分别与所述甲基化位点对应的甲基化数据,确定目标甲基化位点,包括:
26、若将所述数据集划分为两个子集,则针对每个甲基化位点,根据两个子集中分别与所述甲基化位点对应的甲基化数据的差异程度,确定目标甲基化位点;或,
27、若将所述数据集划分为两个以上的子集,则针对每个甲基化位点,根据每个子集中所述甲基化位点对应的甲基化数据和所述子集对应的癌症分期值之间的相关性,确定目标甲基化位点。
28、作为一种可选的实施方式,通过如下方式确定两个子集中分别与所述甲基化位点对应的甲基化数据的差异程度:
29、对两个子集中分别与所述甲基化位点对应的甲基化数据进行秩和检验,根据秩和校验值,确定所述差异程度;或,
30、通过如下方式确定每个子集中所述甲基化位点对应的甲基化数据和所述子集对应的癌症分期值之间的相关性:
31、对每个子集中所述甲基化位点对应的甲基化数据和所述子集对应的癌症分期值,进行卡方检验,根据卡方检验值,确定所述相关性。
32、作为一种可选的实施方式,所述多个子集包括两个以上的子集;所述按照所述样本集对应的癌症分期值,将所述数据集划分为多个子集,还包括:
33、若划分的多个子集中,存在样本集的数量低于阈值的子集时,则根据所述子集对应的癌症分期值,将所述子集合并到另一个子集中,并确定合并后的所述另一个子集对应的癌症分期值,以利用合并后的各子集确定目标甲基化位点及分类模型的训练;其中,所述另一个子集对应的癌症分期值最接近所述子集对应的癌症分期值。
34、作为一种可选的实施方式,还包括:
35、针对所述目标对象的样本集,去除样本集中癌旁正常组织的甲基化位点对应的甲基化数据,和/或,包含缺失值的甲基化位点对应的甲基化数据。
36、作为一种可选的实施方式,所述分期预测模型是根据如下方式集成得到的:
37、将n-1个分类模型的输出作为第n个分类模型的输入,将n个分类模型集成为所述分期预测模型;
38、其中所述n-1个分类模型的输入为所述数据集,所述第n个分类模型的输出为所述数据集对应的癌症分期值。
39、第二方面,本公开实施例还提供一种电子设备,包括处理器和存储器,所述存储器用于存储所述处理器可执行的程序,所述处理器用于读取所述存储器中的程序并执行如下步骤:
40、获取目标对象的甲基化数据集;
41、将所述甲基化数据集输入到分期预测模型,输出所述目标对象的癌症分期值;
42、其中,所述分期预测模型是根据n个分类模型集成得到的,所述n个分类本文档来自技高网...
【技术保护点】
1.一种癌症分期方法,其中,该方法包括:
2.根据权利要求1所述的方法,其中,获取目标对象的甲基化数据集,包括:
3.根据权利要求1所述的方法,其中,所述分期预测模型还包括标准化模型,所述标准化模型用于通过去均值和方差归一化的方法,对所述甲基化数据集中的甲基化数据进行标准化处理。
4.根据权利要求1所述的方法,其中,所述分期预测模型还包括降维模型,所述降维模型用于根据PCA方法,对所述甲基化数据集中的甲基化数据进行降维处理。
5.根据权利要求1所述的方法,其中,通过如下方式确定所述分期预测模型:
6.根据权利要求5所述的方法,其中,所述按照所述分类准确度,从m个分类模型中筛选出k个分类模型之后,还包括:
7.根据权利要求6所述的方法,其中,所述利用交叉验证的方法,从k个分类模型中筛选出所述n个分类模型,包括:
8.根据权利要求5所述的方法,其中,获取所述数据集之后,还包括:
9.根据权利要求2或8所述的方法,其中,所述数据集包括不同目标对象的样本集,所述样本集包括各甲基化位点对应的甲基
10.根据权利要求9所述的方法,其中,所述根据多个子集中分别与所述甲基化位点对应的甲基化数据,确定目标甲基化位点,包括:
11.根据权利要求10所述的方法,其中,通过如下方式确定两个子集中分别与所述甲基化位点对应的甲基化数据的差异程度:
12.根据权利要求9所述的方法,其中,所述多个子集包括两个以上的子集;所述按照所述样本集对应的癌症分期值,将所述数据集划分为多个子集,还包括:
13.根据权利要求9所述的方法,其中,还包括:
14.根据权利要求1所述的方法,其中,所述分期预测模型是根据如下方式集成得到的:
15.一种电子设备,其中,该电子设备包括处理器和存储器,所述存储器用于存储所述处理器可执行的程序,所述处理器用于读取所述存储器中的程序并执行权利要求1~14任一所述方法的步骤。
16.一种计算机存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1~14任一所述方法的步骤。
...【技术特征摘要】
1.一种癌症分期方法,其中,该方法包括:
2.根据权利要求1所述的方法,其中,获取目标对象的甲基化数据集,包括:
3.根据权利要求1所述的方法,其中,所述分期预测模型还包括标准化模型,所述标准化模型用于通过去均值和方差归一化的方法,对所述甲基化数据集中的甲基化数据进行标准化处理。
4.根据权利要求1所述的方法,其中,所述分期预测模型还包括降维模型,所述降维模型用于根据pca方法,对所述甲基化数据集中的甲基化数据进行降维处理。
5.根据权利要求1所述的方法,其中,通过如下方式确定所述分期预测模型:
6.根据权利要求5所述的方法,其中,所述按照所述分类准确度,从m个分类模型中筛选出k个分类模型之后,还包括:
7.根据权利要求6所述的方法,其中,所述利用交叉验证的方法,从k个分类模型中筛选出所述n个分类模型,包括:
8.根据权利要求5所述的方法,其中,获取所述数据集之后,还包括:
9.根据权利要求2或8所述的方法,其中,所述数据集包括不同目标对象的样本集,所述样本集包括各甲基...
【专利技术属性】
技术研发人员:宋阳,张雅琦,
申请(专利权)人:京东方科技集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。