本发明专利技术涉及基于胃癌基因靶标与神经网络胃癌诊断方法,包括:获取胃癌样本以及普通样本数据,进行预处理;并建立神经网络模型,获取病人基因表达情况数据进行诊断。本发明专利技术的有益效果是:本发明专利技术建立以基因靶标INHBA,LYVE1,CD36,和COL10A1的神经网络模型,提出了一种低成本、便利的、低创的胃癌初步筛选的方法,以减少受检测者由于胃镜等方法成本高、创伤性强、不方便而放弃检测导致治疗时机延误的情况。不方便而放弃检测导致治疗时机延误的情况。不方便而放弃检测导致治疗时机延误的情况。
【技术实现步骤摘要】
基于胃癌基因靶标与神经网络胃癌诊断方法
[0001]本专利技术涉及生物信息领域,更确切地说,它涉及基于胃癌基因靶标与神经网络胃癌诊断方法。
技术介绍
[0002]胃癌是世界上最重要的癌症之一,其发病率和死亡率都很高。胃癌在早期通常没有明显症状,因此经常在晚期才被检测到。然而晚期胃癌的中位生存期一般8到12个月,因此尽快诊断胃癌十分重要。
[0003]胃镜是胃癌的标准诊断方法,但其成本高、侵入性强,给患者带来不便。许多没有症状患者由于胃镜的不便而没有进行胃镜检查,延误了治疗的时机。基于基因的检测方式侵入性低,创伤性低,同时依赖的基因种类越少,成本越低。基于特定靶标的基因检测方式是一种优良的胃癌初步辅助诊断方式。
技术实现思路
[0004]本专利技术的目的是针对胃癌检测成本高、不方便的情况,提供了基于胃癌基因靶标与神经网络胃癌诊断方法。
[0005]第一方面,提供了基于胃癌基因靶标与神经网络胃癌诊断方法,包括:
[0006]步骤1、获取数据:获取一定数量的胃癌病人样本和健康人士样本,包括其健康状况标签和INHBA,LYVE1,CD36,和COL10A1 4个基因表达情况数据;
[0007]步骤2、数据预处理:针对步骤1中数据,获取分组信息,对数据进行标准化处理,基于平台获取数据注释信息,完成探针与对应基因名称的转换以及相同基因的去重,重复基因取最大值,对数据进行归一化处理;
[0008]步骤3、训练模型:基于预处理后的数据,建立并训练神经网络模型;
[0009]步骤4、获取病人基因表达情况数据:针对待检测病人,获取其INHBA,LYVE1,CD36,和COL10A1 4个基因表达情况数据;
[0010]步骤5、诊断:针对步骤4中基因表达情况数据,归一化后输入神经网络模型,得到预测结果;
[0011]步骤6、重复利用:针对新病人,回到步骤4。
[0012]作为优选,步骤2和步骤5中的归一化方法为:针对每个样本数据维度间进行最大值最小值归一化。
[0013]作为优选,步骤3中,所述神经网络模型为五层全连接层神经网络模型。
[0014]作为优选,步骤3中,所述神经网络模型使用交叉熵为损失函数,权重比为训练数据中类别比例。
[0015]作为优选,步骤3中,所述神经网络模型使用ReLU函数作为激活函数,其公式如下:
[0016]ReLU(x)=max(0,x)
[0017]其中,x表示激活函数的输入,max(0,x)表示取最大值,激活函数置于全连接层之
后。
[0018]作为优选,步骤3中,所述神经网络模型采用正向传播算法,在全连接层中,当前层中各个神经元的数值是以上一层的各个神经元数值为输入乘以对应系数矩阵和偏置后再通过激活函数得到的,表示为:
[0019][0020]其中,X表示当前神经网络层的输入,W表示系数矩阵,b表示神经网络的偏置,α表示计算的神经原的数值;表示激活函数。
[0021]作为优选,步骤3中,所述神经网络模型通过反向传播算法进行优化,表示为:
[0022]argminloss(w,b)
[0023]其中,w表示神经网络的系数,b表示神经网络的偏置,loss表示损失函数;
[0024]因此,需计算和可得:
[0025][0026][0027][0028][0029]其中,lr表示学习率;z表示最后一层输出;w
*
和b
*
表示更新后的w和b。
[0030]作为优选,当loss函数为交叉熵时,计算公式如下:
[0031]loss(α)=CE(softMax(α))
[0032][0033][0034][0035][0036][0037][0038][0039]其中,CE表示交叉熵;y表示softMax函数各位输出;j和i和k表示各个位的编号;n表示位数。
[0040]第二方面,提供了一种基于胃癌基因靶标与神经网络胃癌诊断装置,用于执行第一方面任一所述的基于胃癌基因靶标与神经网络胃癌诊断方法,包括:
[0041]第一获取模块,用于获取一定数量的胃癌病人样本和健康人士样本,包括其健康状况标签和INHBA,LYVE1,CD36,和COL10A1 4个基因表达情况数据;
[0042]预处理模块,用于针对获取模块中的数据,获取分组信息,对数据进行标准化处理,基于平台获取数据注释信息,完成探针与对应基因名称的转换以及相同基因的去重,重复基因取最大值,对数据进行归一化处理;
[0043]训练模块,用于基于预处理后的数据,建立并训练神经网络模型;
[0044]第二获取模块,用于针对待检测病人,获取其INHBA,LYVE1,CD36,和COL10A1 4个基因表达情况数据;
[0045]诊断模块,用于针对第二获取模块中基因表达情况数据,归一化后输入神经网络模型,得到预测结果;
[0046]重复模块,用于针对新病人,回到第二获取模块。
[0047]第三方面,提供了一种计算机存储介质,所述计算机存储介质内存储有计算机程序;所述计算机程序在计算机上运行时,使得计算机执行第一方面任一所述的机器学习筛选胃癌关键基因方法。
[0048]本专利技术的有益效果是:本专利技术建立以基因靶标INHBA,LYVE1,CD36,和COL10A1的神经网络模型,提出了一种低成本、便利的、低创的胃癌初步筛选的方法,以减少受检测者由于胃镜等方法成本高、创伤性强、不方便而放弃检测导致治疗时机延误的情况。
附图说明
[0049]图1为本专利技术中建立神经网络诊断模型以及测试的流程图;
[0050]图2为诊断模型在GSE26899上测试结果;
[0051]图3为诊断模型在GSE29272上测试结果。
具体实施方式
[0052]下面结合实施例对本专利技术做进一步描述。下述实施例的说明只是用于帮助理解本专利技术。应当指出,对于本
的普通人员来说,在不脱离本专利技术原理的前提下,还可以对本专利技术进行若干修饰,这些改进和修饰也落入本专利技术权利要求的保护范围内。
[0053]作为一种实施例,本申请提供了基于胃癌基因靶标与神经网络胃癌诊断方法,图1表明本方法的整体实施流程。如图1中所示,本方法中包括了收集数据,建模训练,五次交叉验证,独立数据集验证等步骤,包括:
[0054]步骤1、获取数据:获取一定数量的胃癌病人样本和健康人士样本,包括其健康状
况标签和INHBA,LYVE1,CD36,和COL10A1 4个基因表达情况数据。
[0055]步骤1中,可以通过开源数据集GSE66229以获取样本。数据集公开于https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=gse66229,数据集包含胃癌样本300例以及普通样本100例。
[0056]步骤2、数据预处理:针对步骤1中数据,获取分组信息本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于胃癌基因靶标与神经网络胃癌诊断方法,其特征在于,包括:步骤1、获取数据:获取一定数量的胃癌病人样本和健康人士样本,包括其健康状况标签和INHBA,LYVE1,CD36,和COL10A1 4个基因表达情况数据;步骤2、数据预处理:针对步骤1中数据,获取分组信息,对数据进行标准化处理,基于平台获取数据注释信息,完成探针与对应基因名称的转换以及相同基因的去重,重复基因取最大值,对数据进行归一化处理;步骤3、训练模型:基于预处理后的数据,建立并训练神经网络模型;步骤4、获取病人基因表达情况数据:针对待检测病人,获取其INHBA,LYVE1,CD36,和COL10A1 4个基因表达情况数据;步骤5、诊断:针对步骤4中基因表达情况数据,归一化后输入神经网络模型,得到预测结果;步骤6、重复利用:针对新病人,回到步骤4。2.根据权利要求1所述的基于胃癌基因靶标与神经网络胃癌诊断方法,其特征在于,步骤2和步骤5中的归一化方法为:针对每个样本数据维度间进行最大值最小值归一化。3.根据权利要求2所述的基于胃癌基因靶标与神经网络胃癌诊断方法,其特征在于,步骤3中,所述神经网络模型为五层全连接层神经网络模型。4.根据权利要求3所述的基于胃癌基因靶标与神经网络胃癌诊断方法,其特征在于,步骤3中,所述神经网络模型使用交叉熵为损失函数,权重比为训练数据中类别比例。5.根据权利要求4所述的基于胃癌基因靶标与神经网络胃癌诊断方法,其特征在于,步骤3中,所述神经网络模型使用ReLU函数作为激活函数,其公式如下:ReLU(x)=max(0,x)其中,x表示激活函数的输入,max(0,x)表示取最大值,激活函数置于全连接层之后。6.根据权利要求5所述的基于胃癌基因靶标与神经网络胃癌诊断方法,其特征在于,步骤3中,所述神经网络模型采用正向传播算法,在全连接层中,当前层中各个神经元的数值是以上一层的各个神经元数值为输入乘以对应系数矩阵和偏置后再通过激活函数得到的,表示为:α=θ(WX+b)其中,X表示当前神经网络层的输入,W表示系数矩阵,b表示神经网络的偏置;α表示计算的神经原的数值;θ表示激活函数。7.根据权利要求6所述的基于胃癌基因靶...
【专利技术属性】
技术研发人员:黄舒帆,毕岗,尹居鑫,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。