System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及细胞基因分析,具体为一种非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法及应用。
技术介绍
1、首先,传统方法往往局限于分析单个或少数几个预设基因的表达差异,缺乏系统性和全面性,容易遗漏重要的基因信息,导致研究结果片面和不完整。
2、其次,传统方法在处理高维度基因数据时能力有限,难以有效识别和解析复杂的基因间相互作用和内在模式,无法充分挖掘数据中蕴含的深层信息。再者,传统方法无法自动学习数据中的内在规律,也难以准确评估每个基因及其组合对分类的贡献,因此在识别最具区分性的基因签名时效果欠佳。此外,传统方法在构建预测模型时往往采用简单的统计方法,难以应对生物数据的复杂性和噪声,导致模型的泛化能力和预测精度受限。
3、最后,传统方法缺乏对基因表达数据的全面、深入和高效处理能力,无法为肾透明细胞及其他细胞类型的研究提供可靠、创新的分析范式。这些问题严重制约了传统方法在基因表达分析中的应用效果和研究价值。
技术实现思路
1、本专利技术的目的在于提供一种非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法及应用,以解决上述
技术介绍
中提出的问题。
2、为实现上述目的,本专利技术目的之一在于,一种非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法,其方法步骤包括:
3、s1、收集细胞样本,其中细胞样本包括细胞样本id、样本类型和唾液酸转移酶基因表达数据;并将细胞样本分为细胞训练集和细胞验证集,选择细胞训练集
4、s2、根据总基因集中肾透明细胞样本的唾液酸转移酶基因表达数据和正常肾细胞的唾液酸转移酶基因表达数据,利用倍数变化以及t检验方法,比较两者的基因差异,并生成候选基因集;
5、s3、根据候选基因集,利用随机森林算法进行特征选择模型的构建;根据构建好的特征选择模型,选择最具区分性的基因组合,作为最佳基因签名;
6、s4、根据最佳基因签名选择总基因集中对应的唾液酸转移酶基因表达数据,生成基因签名数据集;根据基因签名数据集,利用随机森林算法进行预测模型的构建;
7、以及,选择细胞验证集中样本类型中为肾透明细胞样本和正常肾细胞样本,作为验证基因集,利用构建完成的预测模型对验证基因集进行样本类型的预测;根据预测的样本类型,利用倍数变化对预测模型进行验证。
8、作为本技术方案的进一步改进,所述利用倍数变化以及t检验方法,比较两者的基因差异,并生成候选基因集,具体包括:
9、对于总基因集中的每个唾液酸转移酶基因表达数据的基因类型所对应的表达值,计算其在肾透明细胞样本和正常肾细胞样本中的平均值和标准差;并计算每个基因类型在肾透明细胞样本与正常肾细胞样本中的平均值之比,生成每个基因类型在肾透明细胞样本与正常肾细胞样本中的倍数变化结果;
10、根据每个基因类型在肾透明细胞样本与正常肾细胞样本中的平均值和标准差,计算t统计量,公式如下:
11、,其中和分别表示基因类型在肾透明细胞样本和正常肾细胞样本中的平均值,和分别基因类型在表示肾透明细胞样本和正常肾细胞样本中的标准差,和分别基因类型在表示肾透明细胞样本和正常肾细胞样本中的样本数;
12、计算自由度,公式为,根据t统计量和自由度,查t分布表得到每个基因类型的值,其中值是统计学中用来量化观察到的数据与原假设之间差异程度的概率值;
13、设定值的阈值,以及设定倍数变化的阈值;筛选同时满足值和倍数变化阈值的基因类型,作为候选基因集。
14、作为本技术方案的进一步改进,所述利用随机森林算法进行特征选择模型的构建,具体包括:
15、将候选基因集组织成一个表格,其中行代表不同的细胞样本id,列包括唾液酸转移酶基因类型、表达值和样本类型;
16、利用组合原理,将候选基因集生成所有组合集;
17、从组合集中选择按照列表顺序选择基因组合,作为当前基因组合,根据当前基因组合提取表格中所对应的表达值和样本类型,并作为特征选择随机森林算法的训练集;
18、从特征选择随机森林算法的训练集中有放回地随机抽取样本,并构建特征选择随机森林中决策树的每个节点,通过从特征选择随机森林算法的训练集中的当前基因组合,随机a个特征作为候选,其中a为当前基因组合中基因类型总数的平方根;递归构建直到达到停止条件,停止条件包括但不限于达到预设的最大树深度、节点中的样本数少于预设的最小数量。
19、作为本技术方案的进一步改进,所述根据构建好的特征选择模型,选择最具区分性的基因组合,作为最佳基因签名,具体包括:
20、对组合集中每个的基因组合进行决策树的构建,共同形成特征选择模型,并根据每个的基因组合所对应的决策树,计算其平均重要性得分,其中平均重要性得基于该基因在树中降低不纯度的程度,对于组合中的每个基因,计算其在所有决策树中重要性得分的平均值,将组合中所有基因的平均重要性得分相加并取平均,得到该组合的平均重要性得分;
21、根据每个组合的平均重要性得分对所有基因组合进行降序排序,选择评分最高的组合作为能够有效区分肾透明细胞的唾液酸转移酶的最佳基因签名。
22、作为本技术方案的进一步改进,所述利用随机森林算法进行预测模型的构建,具体包括:
23、根据最佳基因签名中的基因组合,从总基因集中提取该基因组合中所对应的唾液酸转移酶基因的表达数据以及样本类型,并作为基因签名数据集;
24、根据基因签名数据集,利用随机森林算法进行预测模型的构建,通过对每棵预测决策树进行有放回地随机采样,在每个分支节点,随机选择基因签名数据集的子集进行分裂,重复直到达到预测模型收敛。
25、作为本技术方案的进一步改进,所述利用构建完成的预测模型对验证基因集进行样本类型的预测,具体包括:
26、对于验证基因集,提取与最佳基因签名对应的基因表达值,并输入到预测模型中的每棵预测决策树中,每棵预测决策树给出一个预测结果,汇总所有预测决策树的预测结果,采用多数投票法确定最终预测的样本类型。
27、作为本技术方案的进一步改进,所述对于预测后的验证基因集,利用倍数变化对其进行验证,具体包括:
28、对于验证基因集以及预测的样本类型,计算验证基因集中每个基因在预测的样本类型中的平均值,将该平均值与实际样本类型的平均值进行比值运算,生成验证倍数变化;
29、将验证倍数变化与设定的倍数变化阈值进行比较,若满足阈值要求,则将其预测模型作为最终模型进行输出,该模型将根据最佳基因签名中的基因类型,对新的细胞进行样本类型的预测。
30、本专利技术目的之二在于,提供了一种非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法在细胞基因分析的应用。
31、与现有技术相比,本专利技术的有益效果是:
32、1、该一种非疾病诊断目本文档来自技高网...
【技术保护点】
1.一种非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法,其特征在于,其步骤如下:
2.根据权利要求1所述的非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法,其特征在于,所述利用倍数变化以及t检验方法,比较两者的基因差异,并生成候选基因集,具体包括:
3.根据权利要求2所述的非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法,其特征在于,所述利用随机森林算法进行特征选择模型的构建,具体包括:
4.根据权利要求3所述的非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法,其特征在于,所述根据构建好的特征选择模型,选择最具区分性的基因组合,作为最佳基因签名,具体包括:
5.根据权利要求1所述的非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法,其特征在于,所述利用随机森林算法进行预测模型的构建,具体包括:
6.根据权利要求5所述的非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法,其特征在于,所述利用构建完成的预测模型对验证基因集进行样本类型的预测,具体包括:
...【技术特征摘要】
1.一种非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法,其特征在于,其步骤如下:
2.根据权利要求1所述的非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法,其特征在于,所述利用倍数变化以及t检验方法,比较两者的基因差异,并生成候选基因集,具体包括:
3.根据权利要求2所述的非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法,其特征在于,所述利用随机森林算法进行特征选择模型的构建,具体包括:
4.根据权利要求3所述的非疾病诊断目的的唾液酸转移酶基因签名用于肾透明细胞的标记方法,其特征在于,所述根据构建好的特征选择模型,选择最具区分性的基因组合,作为最佳基因签名,具体包括:<...
【专利技术属性】
技术研发人员:刘汇彧,杨海荣,邓文涛,车明月,
申请(专利权)人:东营市人民医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。