一种基于迁移学习的疾病领域间病人相似性度量迁移系统技术方案

技术编号:15792325 阅读:215 留言:0更新日期:2017-07-10 00:12
本发明专利技术一种基于迁移学习的疾病领域间病人相似性度量迁移系统,属于计算机人工智能软件技术领域。本发明专利技术系统通过构建数据预处理子模块、相似性度量评价子模块、相似性度量学习子模块、相似性度量迁移子模块四个子模块,完成疾病领域内病人相似性的度量和疾病领域间病人相似性的迁移。本发明专利技术目的在于克服在监督信息获取困难和特定疾病领域病人样本数量稀少的情况下传统度量学习无法有效工作的问题。此系统可以为当前精准医疗场景提供服务支持。

【技术实现步骤摘要】
一种基于迁移学习的疾病领域间病人相似性度量迁移系统
本专利技术涉及一种基于迁移学习的疾病领域间病人相似性度量系统,属于计算机人工智能软件

技术介绍
随着医疗卫生服务的信息化进程推进,医院、体检中心等大型医疗机构产生了大量的医疗电子健康记录。数据内容主要来自医院的电子病历、区域卫生信息平台采集的居民健康档案等,包含大量非结构化/半结构化的数据。如何通过病人门诊、住院、用药及健康等相关数据给出具有临床意义的病人间相似度度量,是在临床决策支持和病人群体识别研究中的一个重要任务。基于病人相似度的案例查询可以成为医生的技术补充,医生根据此项技术可以对病人进行初步诊断,病人相似度还可以应用在病人群体识别及病人风险分级等诸多领域。如何获得合适的病人相似度成了病人相似性度量系统的关键性问题,较早期的病人相似性度量系统是利用已知的度量公式来直接对系统中的病人向量进行相似性度量,例如使用欧氏距离、余弦相似度、皮尔逊相关系数等方法在向量上直接运算。采用这种方式的病人相似性度量系统因为不需要训练过程,在处理速度上相对于采用度量学习方法的系统会有很大程度的提高;但在计算准确度上也相应的会有一定的差距。相对于上述利用公式直接计算的病人相似性度量系统,目前在医疗领域应用比较广泛的是利用度量学习的病人相似性度量系统,系统中将病人相似度问题转化成有监督的距离度量学习问题,从而合理利用医疗专家的反馈信息。WangFei等人提出了基于局部监督信息的病人相似度学习LSML算法(参见文献:J.Sun,F.Wang,J.Hu,Supervisedpatientsimilaritymeasureofheterogeneouspatientrecords,ACMSIGKDD,2012,16–24),该算法利用医疗专家对病人所打的标签作为监督信息,通过比较标签是否相等,来识别出以某个病人为中心的一定范围内的同构邻居和异构邻居,再通过拉近(pull)同构邻居,推远(push)异构邻居来学习出一种泛化的Mahalanobis距离。从局部进行计算的LSML算法是目前病人相似性度量领域准确率最高的算法,IBMWatson研究院也基于此算法开发出了一套基于病人相似性度量的辅助诊疗检索系统,通过查询相似病人,方便医生根据相似的病人进行诊断。由于深度学习技术日趋成熟,各领域开始利用深度学习来试图取得更好的效果。目前在医疗领域,利用深度度量学习方法的病人相似性度量系统也取得了更高的准确率。相比于传统的度量学习,在利用深度度量学习的系统中病人向量不再被直接使用,而是利用自动编码机或卷积神经网络对向量进行进一步低维度处理,再在低维度空间中优化系统定义的损失函数,最终将得到的病人相似度提供给医生使用。当然,基于深度度量学习的系统在取得高准确度的同时,它的计算成本也会大大提高,所以系统对应的计算速度较前两类系统有着一定的差距。上述三类的病人相似性度量系统可以在特定疾病领域中取得不错的效果,根据实际医疗需求在计算速度和准确度两方面来进行选择合适的系统构建方案,但是三类系统在医疗领域仍然存在以下两个共性的问题:(1)病人相似性度量系统中病人监督信息的获取十分困难,这个过程需要领域专家人工地对病人进行判断,同时收集整理这些专家信息的操作也是一个耗时耗力的过程;(2)在某些特殊疾病领域,病人样本的数量十分有限,无法有效利用现有系统中的方法得到病人样本集中的度量信息,这就直接导致了该疾病领域在病人相似性度量系统中是一个“灰色领域”,无法被使用和研究;在医疗领域,上述两个局限性极大程度的限制了病人相似性度量系统的使用,因为缺少病人样本的未知疾病领域是医疗上的重点研究领域,但已有的几类系统都无法在这种特殊领域中取得好的效果,甚至无法进行学习或计算。显然,这样的病人相似性度量系统在当前的医疗大数据环境下是不可以接受的,而利用迁移学习技术可以有效的解决这类问题,通过迁移相关的已知疾病领域知识到目标疾病领域(未知疾病领域)上,完成系统在未知疾病领域上度量的计算。目前在许多领域中,迁移学习技术的应用系统已经被成功开发,例如图像识别领域成功地通过迁移相关类别照片包含的知识来识别目标领域的照片内容。但在医疗领域中尚未开发出基于迁移学习的应用系统,所以本专利技术基于迁移学习的病人相似性度量系统可以有效解决当前系统中主要存在的两点问题。
技术实现思路
本专利技术的目的在于:克服在监督信息获取困难和特定疾病领域病人样本数量稀少的情况下已有的三类病人相似性度量系统无法有效工作的问题,提供一种能够将已知的源疾病领域中的度量迁移到目标疾病领域中的病人相似性度量系统,从而保证了对目标疾病领域中病人情况研究的顺利开展。本专利技术技术解决方案:一种基于迁移学习的疾病领域间病人相似性度量迁移系统,包括数据预处理子模块、相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块;数据预处理子模块,完成病人健康数据预处理任务;从医院数据库得到病人的四类信息数据,所述四类信息数据为病人基本信息、用药信息、化验信息和诊断信息数据,将上述四类信息数据分别进行数据清洗、医疗规则检验、标准化、向量化处理,得到病人特征向量矩阵,为相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块提供支持;相似性度量评价子模块,完成病人间相似性的评价任务;根据数据预处理子模块得到的病人特征向量矩阵,抽取所述矩阵中关于诊断信息的ICD10疾病编码,利用Jaccard系数来评价病人间的相似性,得到病人间相似性的评价结果,作为监督信息为相似性度量学习子模块和相似性迁移学习子模块提供支持;相似性度量学习子模块,完成疾病领域内病人相似性的度量工作;将从数据预处理子模块和相似性度量评价子模块分别得到的病人特征向量矩阵和病人间相似性的评价结果,利用度量学习模型处理,得到疾病领域内的度量矩阵,为相似性迁移学习子模块提供支持;相似性迁移学习子模块,完成疾病领域间病人相似性的迁移工作;根据预处理子模块得到的病人特征向量矩阵、相似性度量评价子模块得到的病人间相似性的评价结果和度量学习子模块得到的疾病领域内的度量矩阵,经过迁移学习模型处理,得到病人计算相似度适用的度量矩阵,完成在疾病领域间的病人相似性迁移工作。所述数据预处理子模块具体实现过程如下:(1)病人健康数据的数据清洗过程,是将数据中的缺失值、异常值、不一致值数据找到并进行相应的处理,丢弃缺失值、异常值、不一致值数据;(2)在清洗后的数据上进行医疗规则检验,即查看数据是否满足规定的医疗数据结构标准,若不满足需要增补相应字段,转至步骤(1);否则转至步骤(3);(3)经步骤(1)、(2)处理后的数据进行数据标准化操作,即对病人基本信息、用药信息、化验信息和诊断信息数据中的字段进行特征组合、离散化、归一化处理,转至步骤(4);所述病人基本信息中主要包含性别、年龄、民族、血型四类特征;病人用药信息中主要包含用药种类、用药时间、用药剂量三类特征的组合;病人化验信息中主要包含化验类别、化验部位、化验结果三类特征的组合;病人诊断信息中主要包含ICD10疾病编码,并将该编码作为两个学习子模块的监督信息;(4)将标准化后的病人健康数据根据病人唯一ID(身份证号)进行合并,整理得到病人特征向量矩阵。所述相似性度量本文档来自技高网
...
一种基于迁移学习的疾病领域间病人相似性度量迁移系统

【技术保护点】
一种基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:包括数据预处理子模块、相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块;数据预处理子模块,完成病人健康数据预处理任务;从医院数据库得到病人的四类信息数据,所述四类信息数据为病人基本信息、用药信息、化验信息和诊断信息数据,将上述四类信息数据分别进行数据清洗、医疗规则检验、标准化、向量化处理,得到病人特征向量矩阵,为相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块提供支持;相似性度量评价子模块,完成病人间相似性的评价任务;根据数据预处理子模块得到的病人特征向量矩阵,抽取所述矩阵中关于诊断信息的ICD10疾病编码,利用Jaccard系数来评价病人间的相似性,得到病人间相似性的评价结果,作为监督信息为相似性度量学习子模块和相似性迁移学习子模块提供支持;相似性度量学习子模块,完成疾病领域内病人相似性的度量工作;将从数据预处理子模块和相似性度量评价子模块分别得到的病人特征向量矩阵和病人间相似性的评价结果,利用度量学习模型处理,得到疾病领域内的度量矩阵,为相似性迁移学习子模块提供支持;相似性迁移学习子模块,完成疾病领域间病人相似性的迁移工作;根据预处理子模块得到的病人特征向量矩阵、相似性度量评价子模块得到的病人间相似性的评价结果和度量学习子模块得到的疾病领域内的度量矩阵,经过迁移学习模型处理,得到病人计算相似度适用的度量矩阵,完成在疾病领域间的病人相似性迁移工作。...

【技术特征摘要】
1.一种基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:包括数据预处理子模块、相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块;数据预处理子模块,完成病人健康数据预处理任务;从医院数据库得到病人的四类信息数据,所述四类信息数据为病人基本信息、用药信息、化验信息和诊断信息数据,将上述四类信息数据分别进行数据清洗、医疗规则检验、标准化、向量化处理,得到病人特征向量矩阵,为相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块提供支持;相似性度量评价子模块,完成病人间相似性的评价任务;根据数据预处理子模块得到的病人特征向量矩阵,抽取所述矩阵中关于诊断信息的ICD10疾病编码,利用Jaccard系数来评价病人间的相似性,得到病人间相似性的评价结果,作为监督信息为相似性度量学习子模块和相似性迁移学习子模块提供支持;相似性度量学习子模块,完成疾病领域内病人相似性的度量工作;将从数据预处理子模块和相似性度量评价子模块分别得到的病人特征向量矩阵和病人间相似性的评价结果,利用度量学习模型处理,得到疾病领域内的度量矩阵,为相似性迁移学习子模块提供支持;相似性迁移学习子模块,完成疾病领域间病人相似性的迁移工作;根据预处理子模块得到的病人特征向量矩阵、相似性度量评价子模块得到的病人间相似性的评价结果和度量学习子模块得到的疾病领域内的度量矩阵,经过迁移学习模型处理,得到病人计算相似度适用的度量矩阵,完成在疾病领域间的病人相似性迁移工作。2.根据权利要求1所述的基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:所述数据预处理子模块具体实现过程如下:(1)病人健康数据的数据清洗过程,是将数据中的缺失值、异常值、不一致值数据找到并进行相应的处理,丢弃缺失值、异常值、不一致值数据;(2)在清洗后的数据上进行医疗规则检验,即查看数据是否满足规定的医疗数据结构标准,若不满足需要增补相应字段,转至步骤(1);否则转至步骤(3);(3)经步骤(1)、(2)处理后的数据进行数据标准化操作,即对病人基本信息、用药信息、化验信息和诊断信息数据中的字段进行特征组合、离散化、归一化处理,转至步骤(4);所述病人基本信息包含性别、年龄、民族、血型四类特征;病人用药信息包含用药种类、用药时间、用药剂量三类特征的组合;病人化验信息包含化验类别、化验部位、化验结果三类特征的组合;病人诊断信息包含ICD10疾病编码,并将该编码作为两个学习子模块的监督信息;(4)将标准化后的病人健康数据根据病人唯一身份证号ID进行合并,整理得到病人特征向量矩阵。3.根据权利要求1所述的基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:所述相似性度量评价子模块具体实现过程如下:(1)将数据预处理子模块输出的病人特征向量矩阵中与诊断信息相关的病人ICD10疾病编码提取出来,构成病人唯一身份证号ID与其ICD10疾病编码序列的对应数组;(2)处理每位病人的ICD10疾病编码序列,截取编码前n位作为病人诊断标签,对该病人的标签进行去重操作;(3)在步骤(2)输出的病人标签基础上,利用公式(1)计算两两病人间相似度...

【专利技术属性】
技术研发人员:刘杰倪嘉志马志柔吴怀林叶丹
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1