面向不平衡数据的IgA肾病的预测分析系统技术方案

技术编号:36221263 阅读:21 留言:0更新日期:2023-01-04 12:19
本发明专利技术提供了面向不平衡数据的IgA肾病的预测分析系统,涉及数据处理分析技术领域;包括数据收集模块、数据预处理模块、数据归一化模块、模型训练模块以及模型预测模块;所述数据预处理模块,连接在数据收集模块上,对临床检查数据和病理检查数据进行预处理,构成临床数据F;数据归一化模块,连接在数据预处理模块上,将得到的IgA肾病患者的临床数据F进行数据归一化操作;模型训练模块,与所述数据归一化模块连接,用于训练面向不平衡数据的IgA肾病预测模型;模型预测模块,与模型训练模块相连接,预测临床样本的IgA肾病恶化概率;本发明专利技术的有益效果是:提高IgA肾病患者恶化概率的预测效率。效率。效率。

【技术实现步骤摘要】
面向不平衡数据的IgA肾病的预测分析系统


[0001]本专利技术涉及数据处理分析
,更具体的说,本专利技术涉及一种面向不平衡数据的IgA肾病的预测分析系统。

技术介绍

[0002]IgA全称指(Immunoglobulin A,即免疫球蛋白A)。IgA肾病是全世界最常见的免疫性肾小球肾炎;各个年龄段都有发病。但到目前为止,IgA肾病的发病的机制尚未得到有效地研究,对于IgA肾病的恶化预测仍依赖于肾活检这项有创操作,虽然经过医学治疗,能够取得一定的积极效果,但目前仍有高达20%

30%的患者可能恶化至终末期肾病(尿毒症)。因此通过神经网络的深度学习算法,预测患者的IgA肾病的恶化情况,有重要的科学意义和现实意义。
[0003]在实际的IgA肾病数据分析中,大多数的临床样本呈现出不平衡的数据分布,即:只有小部分的样本是恶化为终末期肾病(尿毒症)的,而大多数的患者样本则是健康的。这种样本的不平衡的数量分布使得对于用于IgA肾病的神经网络的训练非常困难。因为,一方面,数量过多的健康患者样本使得神经网络在经过训练之后过拟合,会更多地将IgA肾病恶化的预测结果偏置到数量大的健康患者样本;另一方面,数量有限的少量恶化的IgA肾病患者样本会让IgA肾病预测模型没有得到充分的训练,从而欠拟合,使得对于实际已经恶化的IgA肾病患者的数据分析结果不够准确。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供一种面向不平衡数据的IgA肾病的预测分析系统。
[0005]本专利技术解决其技术问题所采用的技术方案是:一种面向不平衡数据的IgA肾病的预测分析系统,其改进之处在于,包括数据收集模块、数据预处理模块、数据归一化模块、模型训练模块以及模型预测模块;
[0006]所述的数据收集模块,采集IgA肾病患者的临床检查数据、病理检查数据以及IgA肾病患者对应的恶化标签;
[0007]所述数据预处理模块,连接在数据收集模块上,对临床检查数据和病理检查数据进行预处理,剔除有数据缺失的样本,得到可用于模型训练及预测的临床检查数据和病例检查数据,再将两种数据进行拼接组合,构成临床数据F;
[0008]所述数据归一化模块,连接在数据预处理模块上,将得到的IgA肾病患者的临床数据F进行数据归一化操作,得到可用于模型训练及测试的数据集;
[0009]所述的模型训练模块,与所述数据归一化模块连接,用于训练面向不平衡数据的IgA肾病预测模型,所述不平衡数据为样本标签不平衡的样本分布;
[0010]所述模型预测模块,与模型训练模块相连接,使用面向不平衡数据的IgA肾病预测模型,预测临床样本的IgA肾病恶化概率。
[0011]在上述的结构中,所述的临床检查数据为通过医疗仪器对IgA肾病患者采集血液样本进行血液检查和采集尿液样本进行尿液检查得到的化验单数据,包括血肌酐、肾小球滤过率、血压、尿酸。
[0012]在上述的结构中,所述病理检查数据为通过对IgA肾病患者的肾脏进行切片进行活体检查得到的与所患肾脏病相关的数据。
[0013]在上述的结构中,所述的恶化标签为判断IgA肾病是否恶化,判断标准为是否达到终末期肾病或eGFR下降大于50%,其中eGFR为肾小球滤过率,终末期肾病指eGFR<15ml/min/1.73m2或开始进行肾脏替代治疗的时间持续3个月以上。
[0014]在上述的结构中,所述的临床数据表示为F=[f1,f2,...,f
n
],其中n表示共有n个指标,f
i
表示第i个指标,1≤i≤n;
[0015]将恶化标签处理为1和0的二分类标签Y,作为模型训练集测试的标签,其中1表示患者IgA肾病恶化,0表示IgA肾病没有恶化。
[0016]在上述的结构中,所述的数据集中的每一个数据样本包该患者的临床数据F及该患者对应的恶化标签;
[0017]数据集由训练集和测试集两部分构成,训练集由全部患者的70%的数据集构成,测试集由全部患者的30%的数据集构成。
[0018]在上述的结构中,通过以下公式将临床数据F映射到0

1之间,以避免数据范围相差过大而增加模型训练的难度:
[0019][0020]其中,f
i
为对应患者的临床数据,表示临床数据F中第i个临床数据指标;f
min
表示所有患者的第i个临床数据的最小值,f
max
表示所有患者的第i个临床数据的最大值;x
i
表示第i个临床数据被归一化之后的标准值,归一化之后的临床数据表示为X=[x1,x2,...,x
n
]。
[0021]在上述的结构中,所述模型训练模块采用面向不平衡数据的学习方法,训练面向不平衡数据的IgA肾病预测模型;所述面向不平衡数据的学习方法为采用重采样的方法,调整模型对于尾部样本的偏置,重采样是指按照对于样本分布的重新采样。
[0022]在上述的结构中,所述面向不平衡数据的IgA肾病预测模型的训练方法,采用渐进式采样的方法训练,渐进式采样的方法聚合了基于样本的均匀采样以及基于类别均衡的采样;
[0023]基于样本的均匀采样,指没有面向不平衡分布设计的均匀采样方法,按照均匀分布随机的选择一个样本作为训练样本,用于模型训练,其表示如下:
[0024][0025]其中,p
i
表示第i个样本被采样的概率,C表示所有类别的总数,n
i
表示第i个样本所包含样本的总数;
[0026]基于类别均衡的采样,首先从类集中按照均匀分布选择出一个类,然后从该类中,按照均匀分布选择出一个样本实例,用于后续的模型训练,其表示为:
[0027][0028]其中,p
i
表示第i个样本被采样的概率,C表示所有类别的总数;
[0029]渐进式采样的方法的函数表示为:
[0030][0031]其中,p
i
表示第i个样本被采样的概率,t表示第t个训练轮次,T表示训练的全部轮次,表示基于样本的采样方法和采样概率,如下所示:
[0032][0033]表示基于类别均衡的采样方法的采样概率,如下所示:
[0034][0035]在上述的结构中,将通过渐进式采样的临床数据用于IgA肾病分类器进行分类,进行IgA肾病恶化概率预测;
[0036]所述IgA肾病分类器,是一个二分类的神经网络,用于判别输入的患者样本是恶化的,还是未恶化的,输出分类器的判断结果,0表示恶化,1表示未恶化;
[0037]使用交叉熵函数作为损失函数进行模型训练,交叉熵函数的表示如下:
[0038][0039]其中,Y
i
表示第i个IgA肾病患者样本的真实的恶化标签,表示第i个IgA肾病患者样本的模型预测的肾病恶化概率。
[0040]在上述的结构中,在采用训练得到的面向不平衡数据的IgA肾病预测模型进行预测时,对于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向不平衡数据的IgA肾病的预测分析系统,其特征在于,包括数据收集模块、数据预处理模块、数据归一化模块、模型训练模块以及模型预测模块;所述的数据收集模块,采集IgA肾病患者的临床检查数据、病理检查数据以及IgA肾病患者对应的恶化标签;所述数据预处理模块,连接在数据收集模块上,对临床检查数据和病理检查数据进行预处理,剔除有数据缺失的样本,得到可用于模型训练及预测的临床检查数据和病例检查数据,再将两种数据进行拼接组合,构成临床数据F;所述数据归一化模块,连接在数据预处理模块上,将得到的IgA肾病患者的临床数据F进行数据归一化操作,得到可用于模型训练及测试的数据集;所述的模型训练模块,与所述数据归一化模块连接,用于训练面向不平衡数据的IgA肾病预测模型,所述不平衡数据为样本标签不平衡的样本分布;所述模型预测模块,与模型训练模块相连接,使用面向不平衡数据的IgA肾病预测模型,预测临床样本的IgA肾病恶化概率。2.根据权利要求1所述的面向不平衡数据的IgA肾病的预测分析系统,其特征在于,所述的临床检查数据为通过医疗仪器对IgA肾病患者采集血液样本进行血液检查和采集尿液样本进行尿液检查得到的化验单数据,包括血肌酐、肾小球滤过率、血压、尿酸。3.根据权利要求1所述的面向不平衡数据的IgA肾病的预测分析系统,其特征在于,所述病理检查数据为通过对IgA肾病患者的肾脏进行切片进行活体检查得到的与所患肾脏病相关的数据。4.根据权利要求1所述的面向不平衡数据的IgA肾病的预测分析系统,其特征在于,所述的恶化标签为判断IgA肾病是否恶化,判断标准为是否达到终末期肾病或eGFR下降大于50%,其中eGFR为肾小球滤过率,终末期肾病指eGFR<15ml/min/1.73m2或开始进行肾脏替代治疗的时间持续3个月以上。5.根据权利要求1所述的面向不平衡数据的IgA肾病的预测分析系统,其特征在于,所述的临床数据表示为F=[f1,f2,...,f
n
],其中n表示共有n个指标,f
i
表示第i个指标,1≤i≤n;将恶化标签处理为1和0的二分类标签Y,作为模型训练集测试的标签,其中1表示患者IgA肾病恶化,0表示IgA肾病没有恶化。6.根据权利要求5所述的面向不平衡数据的IgA肾病的预测分析系统,其特征在于,所述的数据集中的每一个数据样本包该患者的临床数据F及该患者对应的恶化标签;数据集由训练集和测试集两部分构成,训练集由全部患者的70%的数据集构成,测试集由全部患者的30%的数据集构成。7.根据权利要求5所述的面向不平衡数据的IgA肾病的预测分析系统,其特征在于,通过以下公式将临床数据F映射到0

1之间,以避免数据范围相差过大而增加模型训练的难度:其中,f
i
为对应患者的临床数据,表示临床数据F中第i个临床数据指标;f
min
表示所有患者的第i个临床数据的最小值,f
max
表示所有患者的第i个临床数据的最大值;x
i
表示第i个<...

【专利技术属性】
技术研发人员:段立新刘丹蕾魏凡越李文徐博润
申请(专利权)人:电子科技大学深圳高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1