一种高可靠肾小球滤过率预测模型的构建与评估方法及装置制造方法及图纸

技术编号:35274840 阅读:20 留言:0更新日期:2022-10-19 10:53
本发明专利技术公开了一种高可靠肾小球滤过率预测模型的构建与评估方法,包括;步骤(1):数据预处理;步骤(2):局部模型设定;步骤(3):局部模型构建;步骤(4):全局模型构建;步骤(5):全局模型的模型稳定性计算;步骤(6):全局模型GFR预测的准确性计算;步骤(7):GFR预测结果的稳定性计算;步骤(8):模型选择;该方法通过构建多个局部模型,通过这些模型的中值模型构建全局模型的技术方案,运用该方案可以获得高可靠的GFR预测模型。靠的GFR预测模型。靠的GFR预测模型。

【技术实现步骤摘要】
一种高可靠肾小球滤过率预测模型的构建与评估方法及装置


[0001]本专利技术属于肾小球滤过率预测模型
,具体涉及一种高可靠肾小球滤过率预测模型的构建与评估方法及装置。

技术介绍

[0002]直接测定GFR(Glomerular Filtration Rate,肾小球滤过率)的可操作性差,以血清肌酐浓度(SCr)为基础和以血清胱抑素C为基础的GFR公式预测法普遍应用于临床,根据公式计算所得的GFR称为eGFR(Estimated Glomerular Filtration Rate),成为诊断3~5期CKD的主要依据。这种方法费用低,对患者身体伤害小。但是存在以下问题:
[0003](1)现有的多种GFR预测模型中,每一个模型都是根据特定数据集建立,其推广能力未知,模型的优劣也难以确定;
[0004](2)由于有GFR金标准的数据的数量少,导致依据其构建的GFR预测模型的可靠性存在问题,显然用可靠性不高的GFR预测模型对GFR值进行预测,其预测结果的可靠性值得怀疑。
[0005]因此,亟需一种技术,能够针对小样本情况下的GFR预测问题,构建出高可靠的GFR预测模型,并对模型所给出的GFR预测结果的可靠性给与评价。
[0006]对GFR的预测,通常是建立患者身体指标以及肾脏代谢物指标等指标与GFR值关系的回归模型,这些指标包括诸如患者的年龄、性别、种族和血清肌酐值等。现有模型根据不同数据集构建,均是基于线性模型假设得到的线性回归模型。
[0007]目前还没有对一个模型是否可靠的研究,然而,这一问题特别重要,尤其对于肾脏病的GFR小样本数据更是如此,因为数据太少则构建出可靠的模型更有挑战性。
[0008]现有方法主要存在以下不足:
[0009](1)不考察GFR预测模型的可靠性。对GFR预测模型的评价,采用的是在现有数据上的预测准确率、均方误差、相关系数(R2)等评价指标,并未考察模型的可靠性问题,而不可靠模型是不可用的。
[0010](2)不考察GFR预测结果的可靠性。模型只给出对GFR的预测结果,却不考察这一结果的可靠性,会导致预测结果可能看似很好却可靠性不高从而不可信的问题。

技术实现思路

[0011]为了克服上述现有技术存在的不足,本专利技术的目的在于提供一种高可靠肾小球滤过率预测模型的构建与评估方法及装置,该方法提出构建多个局部模型,通过这些模型的中值模型构建全局模型的技术方案,运用该方案可以获得高可靠的GFR预测模型。
[0012]为了实现上述目的,本专利技术采用的技术方案是:
[0013]一种高可靠肾小球滤过率预测模型的构建与评估方法,包括;
[0014]步骤(1):数据预处理;
[0015]建模所用数据中,每个样本包含其临床特征的数值和其GFR的测定值,均为数值
型。
[0016]数据预处理分为两步,特征选择和log变换;
[0017]步骤(2):局部模型设定;
[0018]局部模型设定为线性回归模型,形如:
[0019]y=w
T
x+b
ꢀꢀꢀ
(4)
[0020]其中自变量x为模型输入,即用于预测GFR的特征值;y为模型输出,即模型根据输入所计算出的GFR预测值;w和b为模型参数,通过训练学得w和b之后,模型就得以确定;
[0021]式(4)给出的是局部模型的一般形式,通过设定不同的自变量次幂等,可以得到多种形式的局部模型。
[0022]步骤(3):局部模型构建;
[0023]对数据的采样去重处理和局部模型训练;
[0024]步骤(4):全局模型构建;
[0025]构建的GFR预测模型f(x),即全局模型,为所有局部模型的中值模型,取N个局部模型参数的中位数作为全局模型的参数,即:
[0026][0027]步骤(5):全局模型的模型稳定性计算;
[0028]用模型稳定性刻画一个模型的可靠性,对于所获得的全局模型f(x),计算其模型稳定性:
[0029][0030]这里的f
i
(x)是局部模型;
[0031]步骤(6):全局模型GFR预测的准确性计算;
[0032]①
数据采样去重处理;
[0033]对基础数据集进行有放回采样去重处理;这一过程重复M次得到M个采样数据集,记D
k
是对基础数据集进行第k次采样去重处理得到的采样数据集,这里采样次数M可尽可能大。
[0034]②
重采样数据的GFR预测;
[0035]对于数据集D
k
(k=1,2,...,M)中的任一样本x
i
,用全局模型f(x)预测其GFR的数值,即计算f(x
i
);
[0036]③
GFR预测结果的准确性;
[0037]对于每个采样数据集D
k
,计算其中样本的GFR预测值f(x
i
)与真实值y
i
之间的MSE,其计算公式为:
[0038][0039]这里,n为数据集D
k
中的样本数目,y
i
为数据集D
k
中第i个样本的标签值(即GFR的真实值),f(x
i
)为模型给出的第i个样本的预测值;
[0040]用M次采样的MSE的平均值刻画全局模型对GFR预测的准确性,其值越小表明全局模型对GFR的预测就越准确;
[0041]步骤(7):GFR预测结果的稳定性计算;
[0042]按照下述公式计算全局模型对GFR预测结果的稳定性,其中,M为采样集数量,D
k
(k=1,2,...,M)为第k个采样集,|D
k
|为采样集D
k
中的样本数量,x
i
代表采样集中第i个样本,y
i
为第i个样本的GFR标签真实值,f(x
i
)为模型给出的第i个样本的GFR预测值:
[0043][0044]步骤(8):模型选择;
[0045]对步骤(2)中设定的多种形式的局部模型,综合评判其对应的全局模型的模型稳定性、GFR预测结果的准确性以及这个预测结果的稳定性,选取三者最高的模型形式及其参数对应的全局模型,作为GFR的预测模型;当三者不能保证同时最高时,综合评判后选取三者都相对较高的全局模型。
[0046]所述步骤(1)中原始数据集从临床采集,其中包括22名慢性肾脏病患者的GFR测定值以及相应的91项特征,数据类型为数值型。
[0047]所述特征选择对这些候选特征筛选出排名前两位的特征:胱抑素C和年龄。本专利技术对特征选择的具体方法以及选择出的特征数量不做限制,如将本专利技术应用于其他数据集进行建模,可根据实际情况设定特征选择的方法。
[0048]所述log变换对GFR测定值及筛选出的特征自变量——胱本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高可靠肾小球滤过率预测模型的构建与评估方法,其特征在于,包括;步骤(1):数据预处理;建模所用数据中,每个样本包含其临床特征的数值和其GFR的测定值,均为数值型,数据预处理分为两步,特征选择和log变换;步骤(2):局部模型设定;局部模型设定为线性回归模型,形如:y=w
T
x+b
ꢀꢀꢀꢀ
(4)其中自变量x为模型输入,即用于预测GFR的特征值;y为模型输出,即模型根据输入所计算出的GFR预测值;w和b为模型参数,通过训练学得w和b之后,模型就得以确定;步骤(3):局部模型构建;数据的采样去重处理和局部模型训练;步骤(4):全局模型构建;构建的GFR预测模型f(x);步骤(5):全局模型的模型稳定性计算;用模型稳定性刻画一个模型的可靠性,对于所获得的全局模型f(x),计算其模型稳定性:步骤(6):全局模型GFR预测的准确性计算;包括数据采样去重处理、重采样数据的GFR预测和GFR预测结果的准确性;步骤(7):GFR预测结果的稳定性计算;按照下述公式计算全局模型对GFR预测结果的稳定性,其中,M为采样集数量,D
k
(k=1,2,...,M)为第k个采样集,|D
k
|为采样集D
k
中的样本数量,x
i
代表采样集中第i个样本,y
i
为第i个样本的GFR标签真实值,f(x
i
)为模型给出的第i个样本的GFR预测值:步骤(8):模型选择;对步骤(2)中设定的多种形式的局部模型,综合评判其对应的全局模型的模型稳定性、GFR预测结果的准确性以及这个预测结果的稳定性,选取三者最高的模型形式及其参数对应的全局模型,作为GFR的预测模型;当三者不能保证同时最高时,综合评判后选取三者都相对较高的全局模型。2.根据权利要求1所述的一种高可靠肾小球滤过率预测模型的构建与评估方法,其特征在于,所述步骤(1)中原始数据集从临床采集,其中包括22名慢性肾脏病患者的GFR测定值以及相应的91项特征,数据类型为数值型;所述特征选择对这些候选特征筛选出排名前两位的特征:胱抑素C和年龄;所述log变换对GFR测定值及筛选出的特征自变量——胱抑素C和年龄,取以e为底的对数,将经过特征选择及log变换后的数据集作为后续建模的基础数据集。3.根据权利要求1所述的一种高可靠肾小球滤过率预测模型的构建与评估方法,其特征在于,所述步骤(2)中,针对GFR预测问题,对因变量GFR的值y和特征自变量x=(x1,x2)
T
——年龄的值x1和胱抑素C的值x2取以e为底的对数,得x
′1=log
e
x1,x
′2=log
e
x2,y

=log
e
y,并用
该数据构建四种线性回归模型:

y

=a1x
′1+a2x
′2+a3(0+1型)

y

=c1(x
′1)2+c2(x
′2)2+c3x
′1x
′2+c4(0+2型)

y

=a1(x
′1)2+a2(x
′2)2+a3x
′1x
′2+a4x
′1+a5x
′2+b(0+1+2型)

y
...

【专利技术属性】
技术研发人员:张军英尹蚨伊金剑杰
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1