基于机器学习建立早期筛查轻链型淀粉样变性的方法及其应用技术

技术编号:31167803 阅读:17 留言:0更新日期:2021-12-04 13:25
本发明专利技术属于轻链型淀粉样变性早期筛查和人工智能技术领域,具体涉及一种基于机器学习结合临床常规化验和超声心动图建立早期筛查轻链型淀粉样变性的人工智能辅助系统的方法及其应用。本发明专利技术通过临床1064例轻链型淀粉样变性和非AL型淀粉样变性(心力衰竭、心肌病、肝脏疾病和肾脏疾病)的常规检验结果,利用RF、SVM、DNN和GBDT建立了AL型淀粉样变性的早期辅助筛查模型,预测可能性准确率可达90%以上。本发明专利技术提供的预警模型具有易于推广和使用方便的特点,大大提高基层医院对轻链型淀粉样变性的认知和患者的早期筛查,具有广阔的应用前景和深远的临床意义。和深远的临床意义。和深远的临床意义。

【技术实现步骤摘要】
基于机器学习建立早期筛查轻链型淀粉样变性的方法及其应用


[0001]本专利技术属于轻链型淀粉样变性早期筛查和人工智能
,具体涉及一种基于机器学习结合临床常规化验和超声心动图建立早期筛查轻链型淀粉样变性的人工智能辅助系统的方法及其应用。

技术介绍

[0002]原发性轻链型淀粉样变性是一种罕见的疾病,很难在早期阶段被诊断出来。它是由单克隆免疫球蛋白轻链错误折叠形成淀粉样蛋白,并沉积于组织器官,造成组织结构破坏、器官功能障碍并进行性进展的疾病。由于该病患者临床表现为多器官受累(包括肾、心脏、肝脏、皮肤软组织、外周神经、肺、腺体等多种器官及组织)以及多数临床医生对该疾病认识不足导致其在早期筛查诊断过程中经常出现被误诊或经过长期、多种检查才确诊的情况,这是全球血液学家面临的一个共同问题。
[0003]因为没有单一的影像学、血液或尿液检查可以作为轻链型淀粉样变性早期筛查的指标导致该病难以诊断。心脏和肾脏是最常受影响的器官,常见的症状有肾功能不全、心肌病和胸腔积液,然而,这些症状往往与常见疾病相似,因此,患者通常首先被转诊到肾脏科、心脏科和胃肠科进行常规检查。虽然现有技术如免疫固定电泳(IFE)、无血清轻链(FLC)和刚果红染色可以用于筛查诊断与慢性肾功能不全和心脏衰竭方面的AL型淀粉样变性,然而,医生通常不会对有早期症状的病人进行这些有针对性且侵入性的检查。因此,亟需建立一种无创、经济、简单并且与临床常规检测指标相结合就能在早期准确筛查出AL型淀粉样变性的方法。

技术实现思路

[0004]针对上述问题,本专利技术提供一种基于机器学习结合临床常规化验和超声心动图建立早期筛查轻链型淀粉样变性的人工智能辅助系统的方法及其应用。本专利技术建立的方法以检验数据整合为突破口,采用大数据分析和机器学习的方法,提出将临床上常规检验和心脏回声自动整合,建立AL型淀粉样变性筛查模型,对AL型淀粉样变性进行早期预警,提高诊断率,为了解和早期诊断罕见疾病提供了新的有效思路。
[0005]为了实现上述目的,本专利技术提供了如下技术方案:
[0006]本专利技术提供一种基于机器学习算法早期筛查轻链型淀粉样变性的方法,其特征在于:步骤如下:
[0007]步骤1:采集样本数据,根据使用目前的诊断标准和医学判断,收集相应训练特征;
[0008]步骤2:数据处理:
[0009]1)处理样本集中缺失的值:需要确定提取的原始数据是否包含空值,如果所包含的缺失值超过了指定的阈值,则认为该数据是不充分的信息,将从集合中删除;如果所包含的缺失值低于阈值,则认为这部分数据是有用的,并将用该测试的正常范围的中位数来填
充;假设缺失项为正常值,从而减少使用异常值可能造成的偏差;
[0010]2)选择MissForest作为缺失值填补方法对数据进行进一步处理;
[0011]步骤3:基于样本数据的训练特征,构建机器学习算法模型。
[0012]进一步地,步骤1中作为训练特征的10个特征包括:年龄、血清肌酐、总胆红素、肌钙蛋白I、NT

proBNP、白蛋白、碱性磷酸酶、室间隔、左室后壁和射血分数。
[0013]进一步地,步骤1中作为训练特征的7个特征包括:年龄、血清肌酐、总胆红素、肌钙蛋白I、NT

proBNP、白蛋白和碱性磷酸酶。
[0014]进一步地,所述步骤4中机器学习算法模型包括以下一种或几种的组合:即随机森林、支持向量机、深度神经网络和梯度提升决策树。
[0015]更近一步地,所述随机森林模型是一种以决策树为基础的集成学习算法,其构造过程如下:
[0016]1)假设有N个样本,则有放回的随机选择n个样本;使用择好了的n个样本用来训练一个决策树,作为决策树根节点处的样本;
[0017]2)当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m<M;然后从这m个属性中采用基尼系数来选择1个属性作为该节点的分裂属性;基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好;基尼系数的计算公式为:其中p
i,k
是第i个节点上类别为k的训练实例占比;
[0018]3)决策树形成过程中每个节点都要按照步骤2来分裂,一直到不能够再分裂为止;
[0019]4)按照步骤1~3建立大量的决策树,这样就构成了随机森林了。
[0020]更近一步地,所述支持向量机是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,SVM的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题;SVM想要的就是找到各类样本点到超平面的距离最远,也就是找到最大间隔超平面;
[0021]任意超平面可以用下面这个线性方程来描述:w
T
x+b=0;点(x1,x1,
……
,x1)到超平面的距离为:其中根据支持向量的定义可知,支持向量到超平面的距离为d,其他点到超平面的距离大于d,于是:
[0022][0023]就可以得到最大间隔超平面的上下两个超平面。
[0024]更近一步地,所述深度神经网络是一种基本的深度学习模型,由输入层、输出层和隐层组成;每一层由许多神经元组成,其输出用作下一层神经元的输入;每个神经元的参数,即“权重”是随机生成的,并通过算法进行调整,以最大限度地提高预测性能;
[0025]神经元权重更新规则:
[0026]其中ω
i,j
是第i个输入神经元和第j个输出神经元的连接权重,x
i
是当前训练实例
的第i个输入值,是当前训练实例的第j个输出神经元的输出,y
i
是当前训练实例的第j个输出神经元的目标输出,δ是学习率;
[0027]对于DNN,该模型具有更多超过四个隐藏层似乎过于合适,两个隐藏层分层不合适;因此,有三个隐藏的网络构建了层,每层包含256个神经元并应用了ReLU激活函数。
[0028]更近一步地,所述梯度提升决策树模型的方法使用CART模型(分类和回归树)作为基本分类器;GBDT采用加性模型(即主函数的线性组合),不断减小残差;
[0029]采用加性模型的聚合分类器如下:
[0030][0031]对于二分类问题,使用似然估计函数作为损失函数:
[0032]L(y,F(x))=log(1+exp(

2yF(x)))
[0033]其中F(x)表示F(x)集合的加权和,计算实例i=1,2,3,......,m的梯度的负值;在迭代过程中,损耗函数残差或梯度的负极被拟合;下面的函数是迭代t中损失函数到实例i的梯度的负值:
[0034][0035]用(xi,rti)拟合一棵回归树作为第t棵回归树,其对应的叶节点Rij(j为叶节点数);根据以下函数计算最佳拟合值,并确定每个实例的最小损失
[0036][0037]学习权重按以下函数更新:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习算法早期筛查轻链型淀粉样变性的方法,其特征在于,所述方法的步骤如下:步骤1:采集样本数据,根据使用目前的诊断标准和医学判断,收集相应训练特征;步骤2:数据处理:1)处理样本集中缺失的值:需要确定提取的原始数据是否包含空值,如果所包含的缺失值超过了指定的阈值,则认为该数据是不充分的信息,将从集合中删除;如果所包含的缺失值低于阈值,则认为这部分数据是有用的,并将用该测试的正常范围的中位数来填充;假设缺失项为正常值,从而减少使用异常值可能造成的偏差;2)选择MissForest作为缺失值填补方法对数据进行进一步处理;步骤3:基于样本数据的训练特征,构建机器学习算法模型。2.根据权利要求1所述的一种基于机器学习早期筛查轻链型淀粉样变性的方法,其特征在于,步骤1中作为训练特征的10个特征包括:年龄、血清肌酐、总胆红素、肌钙蛋白I、NT

proBNP、白蛋白、碱性磷酸酶、室间隔、左室后壁和射血分数。3.根据权利要求1所述的一种基于机器学习早期筛查轻链型淀粉样变性的方法,其特征在于,步骤1中作为训练特征的7个特征包括:年龄、血清肌酐、总胆红素、肌钙蛋白I、NT

proBNP、白蛋白和碱性磷酸酶。4.根据权利要求1所述的一种基于机器学习早期筛查轻链型淀粉样变性的方法,其特征在于,所述步骤4中机器学习算法模型包括以下一种或几种的组合:即随机森林、支持向量机、深度神经网络和梯度提升决策树。5.根据权利要求4所述的方法,其特征在于,所述随机森林模型是一种以决策树为基础的集成学习算法,其构造过程如下:1)假设有N个样本,则有放回的随机选择n个样本;使用择好了的n个样本用来训练一个决策树,作为决策树根节点处的样本;2)当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m<M;然后从这m个属性中采用基尼系数来选择1个属性作为该节点的分裂属性;基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好;基尼系数的计算公式为:;其中是第i个节点上类别为k的训练实例占比;3)决策树形成过程中每个节点都要按照步骤2来分裂,一直到不能够再分裂为止;4)按照步骤1~3建立大量的决策树,这样就构成了随机森林了。6.根...

【专利技术属性】
技术研发人员:王慧涵李剑何涛燕玮陈剑
申请(专利权)人:中国医科大学附属盛京医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1