一种基于散列桶邻域的慢病分类标记方法技术

技术编号:35017181 阅读:14 留言:0更新日期:2022-09-24 22:43
本发明专利技术属于医疗检测领域,具体涉及一种基于散列桶邻域的慢病分类标记方法,该方法包括:获取待测用户的个人信息数据,得到医学条件属性集;确定散列函数,采用散列函数将患者空间中的患者样本依次划分到邻域诊断桶中,得到基于邻域诊断慢病的散列桶序列;确定待测用户的诊断邻域;根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患病的概率;根据待诊患者邻域中满足多数投票原则的若干最大概率慢病标签,计算选择距离度最大的慢病标签,根据慢病标签对患者进行分类;通过采用本发明专利技术使用的方法,医疗人员可根据预测结果辅助判断患者是否患有慢病,能够极大的提高慢病预测效率与医学诊断质量。病预测效率与医学诊断质量。病预测效率与医学诊断质量。

【技术实现步骤摘要】
一种基于散列桶邻域的慢病分类标记方法


[0001]本专利技术属于医疗检测领域,具体涉及一种基于散列桶邻域的慢病分类标记方法。

技术介绍

[0002]在医疗大数据中相关调查表明,糖尿病、冠心病、肺癌、胃癌、食管癌等 10大慢病占据了全人群疾病总负担的40%以上。面对多源异构高噪的健康医疗大数据,慢病诊断涉及的数据量正呈现爆炸式的增长,涉及到大量关于患者、疾病和医生的信息,而这些信息往往是不完整和不一致的,仅通过医生的专业知识和医学经验对患者进行诊断和评估,不但会大量消耗人力物力,同时效率低下,甚至无法完成疾病的诊断。因此,诸如邻域粗糙集模型等数据挖掘方法可应用于慢病的诊断和预测中,快速有效实现多种慢病一体化预测预警,构建可解释性的慢病诊断医疗模型。
[0003]对于医疗健康大数据中广泛存在的数值型数据,传统粗糙集模型处理时必须先进行离散化,这会导致医学信息大量丢失,在慢病医学的数据处理过程中造成很大的障碍。天津大学的胡清华教授基于拓扑空间球形邻域引入了邻域粗糙集模型,使用邻域信息粒代替传统粗糙集中的等价关系,使其既可以支持离散型医疗数据又可以支持数值型医疗数据,并进一步地邻域粗糙集推广到分类预测应用中,实现了一种基于多数原则的邻域分类器。然而传统邻域分类器对患者样本分类预测时,必须先构建患者的邻域信息粒,该过程需要遍历患者样本空间中的所有训练患者样本,导致了分类器诊断的时间效率低下。相应地,在邻域粗糙集属性约简机制中,浙江大学的刘勇教授提出了基于散列桶划分缩小邻域搜索空间的属性快速约简算法,通过散列映射明显缩小了患者样本邻域的检索范围,有效解决了患者邻域计算时间复杂度过高的问题。
[0004]面对医疗健康大数据中患者样本的信息量大、不完备、不确定、冗余等问题,当前已有邻域分类器在慢病的诊断和预测方面主要存在以下不足:1)患者样本的邻域计算量大,导致构建患者样本邻域的时间复杂度高;2)邻域半径的设定带有人为设定的随机参数,不能自适用于不同分布的医疗数据集;3)分类器中的多数投票规则不能辩别邻域中患者样本间的差异,故该原则不能适用于所有患者样本的诊断和预测。因此,如何有效利用人群生命周期健康医疗大数据,结合数据挖掘方法,实现多种慢病的预测预警机制,是目前亟待解决的问题。

技术实现思路

[0005]为解决以上现有计算存在的问题,本专利技术提出了一种基于散列桶邻域的慢病分类标记方法,该方法包括:获取待测用户的医学数据,并将获取的医学数据转换为患者决策信息表,将患者决策信息表中数据输入到基于散列桶邻域的慢病分类模型中,得到待测用户的各慢病患病的概率,若该待测用户中至少两种慢病的患病概率均为最大且相同,则选择邻域中慢病距离度最大的用户进行标记;
[0006]采用基于散列桶邻域的慢病分类模型对待测用户的医学信息数据进行处理并标
记患者所患慢病的过程包括:
[0007]S1:将待测用户的个人医学数据转化为慢病决策信息表,对慢病决策信息表中的医学条件属性值进行归一化处理,得到医学条件属性集;
[0008]S2:根据医学条件属性集确定特殊患者样本和散列函数,采用散列函数将患者空间中的患者样本依次划分到一系列有序的邻域诊断桶中,得到基于邻域诊断慢病的散列桶序列;
[0009]S3:根据基于邻域诊断慢病的散列桶序列确定待测用户的诊断邻域;
[0010]S4:根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患各种慢病的概率,计算并得到最大患病概率;根据最大患病概率所对应的慢病标签,若待测用户邻域中概率最大的慢病标签唯一,则将该患者存储到该类别的集合中;若待测用户邻域中概率最大的患病标签不唯一,则执行步骤S5;
[0011]S5:根据距离投票原则,针对待诊患者邻域中存在多个满足多数投票原则最大概率慢病标签,计算以上慢病标签在患者邻域中的距离度,进而选择距离度最大的慢病标签,将患者标记为该类慢病。
[0012]优选的,获取待测用户的个人医学属性值包括:收缩压、胆固醇、维生素D、血红蛋白浓度、淋巴细胞百分比、C反应蛋白以及尿素。
[0013]优选的,对决策信息表中的数据进行归一化处理的公式为:
[0014][0015]其中,x
ij
表示第i个患者样本的第j个医学属性的值,max(x
j
)表示第j个医学属性的最大值,min(x
j
)表示第j个医学属性的最小值。
[0016]优选的,得到基于邻域诊断慢病的散列桶序列的过程包括:
[0017]步骤1:提取医学条件属性集中每个医学条件属性的最小值,根据最小值确定特殊患者样本;
[0018]步骤2:计算患者样本和特殊样本的欧式距离;根据患者样本和特殊样本的欧式距离构建邻域诊断桶序列;
[0019]步骤3:构建散列函数,采用散列函数将患者样本映射到邻域诊断桶序列中,得到基于邻域诊断慢病的散列桶序列。
[0020]进一步的,计算患者样本和特殊样本的欧式距离公式为:
[0021][0022]其中,x
i
表示第i个患者样本,x
j
表示第j个患者样本,m表示患者样本的数量,x
ik
表示第i个患者样本在第j个医学属性下的医学属性值。
[0023]进一步的,构建的邻域诊断桶为:
[0024][0025]其中,x
i
表示第i个患者样本,U表示患者样本集,∧表示且运算,Δ(x0,x
i
) 表示患者样本x0到患者样本x
i
的欧式距离,wid表示散列桶宽度,w表示散列键,表示向上取整。
[0026]优选的,确定待测用户的诊断邻域包括:根据基于邻域诊断慢病的散列桶序列确
定自适应邻域诊断半径,根据自适应邻域诊断半径确定待测用户的诊断邻域。
[0027]优选的,计算每个待测用户被预测患各种慢病的概率公式为:
[0028][0029]其中,D
k
表示患者邻域U中第k种慢病的患者集合,δ(x)表示待诊患者的诊断邻域,∩表示求交运算。
[0030]优选的,计算距离度最大的慢病标签的公式为:
[0031][0032][0033]其中,表示慢病标签d
k
的距离度,d
k
表示诊断邻域δ(x)中满足多数投票规则的慢病决策标签,x
i
表示第i个患者样本,表示患者样本x
i
的距离度, d
j
表示慢病标签,表示取最大值对应的慢病标签d
k

[0034]本专利技术的有益效果:
[0035]1)通过采用本专利技术使用的方法,医疗人员可根据预测结果辅助判断患者是否患有慢病,能够极大的提高慢病预测效率与医学诊断质量;
[0036]2)传统邻域分类器构建待诊患者的诊断邻域时,需要计算于患者样本空间中所有患者样本的距离,随着患者数目增多,将面对极高的时间复杂度。本专利技术基于散列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于散列桶邻域的慢病分类标记方法,其特征在于,包括:获取待测用户的医学数据,并将获取的医学数据转换为患者决策信息表,将患者决策信息表中数据输入到基于散列桶邻域的慢病分类模型中,得到待测用户的各慢病患病的概率,若该待测用户中至少两种慢病的患病概率均为最大且相同,则选择邻域中慢病距离度最大的用户进行标记;采用基于散列桶邻域的慢病分类模型对待测用户的医学信息数据进行处理并标记患者所患慢病的过程包括:S1:将待测用户的个人医学数据转化为慢病决策信息表,对慢病决策信息表中的医学条件属性值进行归一化处理,得到医学条件属性集;S2:根据医学条件属性集确定特殊患者样本和散列函数,采用散列函数将患者空间中的患者样本依次划分到邻域诊断桶序列中,得到基于邻域诊断慢病的散列桶序列;S3:根据基于邻域诊断慢病的散列桶序列确定待测用户的诊断邻域;S4:根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患各种慢病的概率;计算得到待测用户邻域中概率值最大的慢病标签,若待测用户邻域中概率最大的慢病标签唯一,则将该患者存储到该慢病类别的集合中;若待测用户邻域中概率最大的患病标签不唯一,则执行步骤S5;S5:根据距离投票规则分类标记待诊患者所患慢病,针对待诊患者邻域中多个满足多数投票原则的最大概率慢病标签,计算得到其中距离度最大的慢病标签,根据该慢病标签对患者进行分类,将该患者存储到该慢病类别的集合中。2.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,获取待测用户的个人医学条件属性值包括:收缩压、胆固醇、维生素D、血红蛋白浓度、淋巴细胞百分比、C反应蛋白以及尿素。3.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,将获取的医学数据转换为患者决策信息表的过程包括:对医学数据中的患者的医学条件属性值进行归一化处理,得到患者决策信息表,归一化处理的公式为:其中,x
ij
表示第i个患者样本的第j个医学属性的值,max(x
j
)表示第j个医学属性的最大值,min(x
j
)表示第j个医学属性的最小值。4.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,得到基于邻域诊断慢病的散列桶序列的过程...

【专利技术属性】
技术研发人员:张清华肖嘉瑜艾志华程云龙高满胡峰
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1