【技术实现步骤摘要】
一种基于迁移学习的疾病领域间病人相似性度量迁移系统
本专利技术涉及一种基于迁移学习的疾病领域间病人相似性度量系统,属于计算机人工智能软件
技术介绍
随着医疗卫生服务的信息化进程推进,医院、体检中心等大型医疗机构产生了大量的医疗电子健康记录。数据内容主要来自医院的电子病历、区域卫生信息平台采集的居民健康档案等,包含大量非结构化/半结构化的数据。如何通过病人门诊、住院、用药及健康等相关数据给出具有临床意义的病人间相似度度量,是在临床决策支持和病人群体识别研究中的一个重要任务。基于病人相似度的案例查询可以成为医生的技术补充,医生根据此项技术可以对病人进行初步诊断,病人相似度还可以应用在病人群体识别及病人风险分级等诸多领域。如何获得合适的病人相似度成了病人相似性度量系统的关键性问题,较早期的病人相似性度量系统是利用已知的度量公式来直接对系统中的病人向量进行相似性度量,例如使用欧氏距离、余弦相似度、皮尔逊相关系数等方法在向量上直接运算。采用这种方式的病人相似性度量系统因为不需要训练过程,在处理速度上相对于采用度量学习方法的系统会有很大程度的提高;但在计算准确度上也相应的会有一定的差距。相对于上述利用公式直接计算的病人相似性度量系统,目前在医疗领域应用比较广泛的是利用度量学习的病人相似性度量系统,系统中将病人相似度问题转化成有监督的距离度量学习问题,从而合理利用医疗专家的反馈信息。WangFei等人提出了基于局部监督信息的病人相似度学习LSML算法(参见文献:J.Sun,F.Wang,J.Hu,Supervisedpatientsimilaritymeasu ...
【技术保护点】
一种基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:包括数据预处理子模块、相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块;数据预处理子模块,完成病人健康数据预处理任务;从医院数据库得到病人的四类信息数据,所述四类信息数据为病人基本信息、用药信息、化验信息和诊断信息数据,将上述四类信息数据分别进行数据清洗、医疗规则检验、标准化、向量化处理,得到病人特征向量矩阵,为相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块提供支持;相似性度量评价子模块,完成病人间相似性的评价任务;根据数据预处理子模块得到的病人特征向量矩阵,抽取所述矩阵中关于诊断信息的ICD10疾病编码,利用Jaccard系数来评价病人间的相似性,得到病人间相似性的评价结果,作为监督信息为相似性度量学习子模块和相似性迁移学习子模块提供支持;相似性度量学习子模块,完成疾病领域内病人相似性的度量工作;将从数据预处理子模块和相似性度量评价子模块分别得到的病人特征向量矩阵和病人间相似性的评价结果,利用度量学习模型处理,得到疾病领域内的度量矩阵,为相似性迁移学习子模块提供支持;相似性迁移学习子模块 ...
【技术特征摘要】
1.一种基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:包括数据预处理子模块、相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块;数据预处理子模块,完成病人健康数据预处理任务;从医院数据库得到病人的四类信息数据,所述四类信息数据为病人基本信息、用药信息、化验信息和诊断信息数据,将上述四类信息数据分别进行数据清洗、医疗规则检验、标准化、向量化处理,得到病人特征向量矩阵,为相似性度量评价子模块、相似性度量学习子模块和相似性迁移学习子模块提供支持;相似性度量评价子模块,完成病人间相似性的评价任务;根据数据预处理子模块得到的病人特征向量矩阵,抽取所述矩阵中关于诊断信息的ICD10疾病编码,利用Jaccard系数来评价病人间的相似性,得到病人间相似性的评价结果,作为监督信息为相似性度量学习子模块和相似性迁移学习子模块提供支持;相似性度量学习子模块,完成疾病领域内病人相似性的度量工作;将从数据预处理子模块和相似性度量评价子模块分别得到的病人特征向量矩阵和病人间相似性的评价结果,利用度量学习模型处理,得到疾病领域内的度量矩阵,为相似性迁移学习子模块提供支持;相似性迁移学习子模块,完成疾病领域间病人相似性的迁移工作;根据预处理子模块得到的病人特征向量矩阵、相似性度量评价子模块得到的病人间相似性的评价结果和度量学习子模块得到的疾病领域内的度量矩阵,经过迁移学习模型处理,得到病人计算相似度适用的度量矩阵,完成在疾病领域间的病人相似性迁移工作。2.根据权利要求1所述的基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:所述数据预处理子模块具体实现过程如下:(1)病人健康数据的数据清洗过程,是将数据中的缺失值、异常值、不一致值数据找到并进行相应的处理,丢弃缺失值、异常值、不一致值数据;(2)在清洗后的数据上进行医疗规则检验,即查看数据是否满足规定的医疗数据结构标准,若不满足需要增补相应字段,转至步骤(1);否则转至步骤(3);(3)经步骤(1)、(2)处理后的数据进行数据标准化操作,即对病人基本信息、用药信息、化验信息和诊断信息数据中的字段进行特征组合、离散化、归一化处理,转至步骤(4);所述病人基本信息包含性别、年龄、民族、血型四类特征;病人用药信息包含用药种类、用药时间、用药剂量三类特征的组合;病人化验信息包含化验类别、化验部位、化验结果三类特征的组合;病人诊断信息包含ICD10疾病编码,并将该编码作为两个学习子模块的监督信息;(4)将标准化后的病人健康数据根据病人唯一身份证号ID进行合并,整理得到病人特征向量矩阵。3.根据权利要求1所述的基于迁移学习的疾病领域间病人相似性度量迁移系统,其特征在于:所述相似性度量评价子模块具体实现过程如下:(1)将数据预处理子模块输出的病人特征向量矩阵中与诊断信息相关的病人ICD10疾病编码提取出来,构成病人唯一身份证号ID与其ICD10疾病编码序列的对应数组;(2)处理每位病人的ICD10疾病编码序列,截取编码前n位作为病人诊断标签,对该病人的标签进行去重操作;(3)在步骤(2)输出的病人标签基础上,利用公式(1)计算两两病人间相似度...
【专利技术属性】
技术研发人员:刘杰,倪嘉志,马志柔,吴怀林,叶丹,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。