当前位置: 首页 > 专利查询>南通大学专利>正文

一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法技术

技术编号:38331845 阅读:37 留言:0更新日期:2023-07-29 09:14
本发明专利技术提供了一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法,属于精神分裂症的生物标记物选择技术领域;解决了数据集中样本分布不一致的技术问题。其技术方案为:首先,在主节点Master上,读取大规模精神分裂症病历图像数据,对其进行预处理和划分,并将数据子集广播到相应的子节点上,在第i子节点Slaver

【技术实现步骤摘要】
一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法


[0001]本专利技术涉及医学信息智能诊断
,尤其涉及一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法。

技术介绍

[0002]脑疾病的识别是医学图像分析中的一个热点问题,脑图像的识别对脑疾病的预测有重要影响。随着静息态磁共振成像技术的发展,许多研究者开始关注脑区之间的功能连通性。大量研究发现,许多精神疾病都与患者大脑的功能连接有关。这些联系提供了潜在的生物标记物用于脑科疾病的临床诊断。精神分裂症是一种常见的精神疾病。通过对脑功能网络矩阵的信息进行处理,可以获得预测精神分裂症的生物学信息,从而提高精神分裂症的预测性能。特征选择是一种有效的预处理方法,它去除了对分类没有帮助的特征,提高了分类的泛化能力。
[0003]目前,没有任何可靠的诊断技术可以用来诊断精神疾病,而精神分裂症的高发率已经成为世界卫生关注的焦点。由于患者数量和需要处理的数据量庞大,迫切需要一个新的方法来有效的从众多数据中提取有助于精神分裂症预测的大脑区域,通过特征选择可以有效的帮助医生分析精神分裂症高风险患者,为医学图像分析的改进提供了一个新的方向。

技术实现思路

[0004]针对传统的基于近邻算法来处理不平衡数据,无法处理不同分布的数据,单向粒度的构建方法会导致部分噪声数据和离群点的被归入到粒度模型中,增加粒度的不确定性的技术问题,而提出了一种用于精神分裂症病历图像特征选择的稀疏双向K近邻Spark方法;首先,基于稀疏约束函数得到每个样本的最优K值;其次,在粒度化过程中采用双向互邻策略。第三,动态优化策略是应用于提高特征选择算法的性能。最后,利用所提出的特征选择方法对大脑区域进行选择,提高了预测性能。
[0005]本专利技术的专利技术思想为:首先,在主节点上,读取大规模精神分裂症病历图像数据,对其进行预处理和划分,并将数据子集广播到相应的子节点上。在子节点上,通过Spark并行化的稀疏约束模型刻画样本之间的联系,得到样本最优的K个邻居(K为邻居个数)。然后,在粒化过程中引入双向互邻策略,构造基于稀疏双向的Spark粗糙集模型。在子节点上,将启发式特征选择方法和动态优化策略结合,选取预测精神分裂症的重要脑区域。本专利技术的有益效果为:该方法解决了数据集中样本分布不一致的问题,有助于精神分裂症的预测,为医学图像分析的改进提供了一个新的方向。
[0006]本专利技术是通过如下措施实现的:一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法,包括以下步骤:
[0007]S1:在主节点Master上,读取大规模静息态功能磁共振成像(简称RS

fMRI)的精神
分裂症病历图像数据集,将分布不平衡的RS

fMRI数据存储到数据库的分布式文件中,并进行数据预处理和划分操作。RS

fMRI图像经过数据预处理后,使用解剖自动标记模板将其划分为若干个大脑区域。在大脑网络中,每个大脑区域代表一个独立的节点,分别提取每个节点的平均体素时间序列,将每个区域相似度较高的聚类到一起,计算每个区域的聚类系数,将系数转为一组一维特征向量,用这些系数来表示大脑网络的拓扑结构,建立脑区之间的脑功能连接网络,定义节点时间序列矩阵。
[0008]将精神分裂症病历图像转换为一个四元组决策信息系统S=(U,C∪D,V,f),其中U={x1,x2,
……
,x
n
}表示数据集中精神分裂症病历图像的患者对象集合,m表示精神分裂症病历的患者个数,x
m
表示第m个样本;C={a1,a2,

,a
n
}表示精神分裂症病理属性的非空有限集合,n表示精神分裂症病理属性的个数,a
n
表示第n个属性;D={d1,d2,
……
,d
N
}表示精神分裂症病历决策类别的非空有限集合,N表示精神分裂症病历决策类别的个数,d
N
表示第N个决策类别,且V=∪
a∈C∪D
V
a
,V
a
是数据集属性a下数据对象所有可能的数据取值,f:U
×
C∪D

V表示一个信息函数,它为每个精神分裂症病历图像赋予一个信息值,即x∈U,f(x,a)∈V
a

[0009]S2:在Spark框架中,建立主控节点Master和子节点Slave
i
之间的通信。读取精神分裂症病历的数据集,将数据集S合划分成M个精神分裂症数据子集{S1,S2,
……
,S
M
},其中S
M
表示第M个数据子集,且满足数据子集之和等于数据集,满足任意数据子集的交集为空,并将其广播到相应的子节点上。在子节点Slaver
i
上,使用留一法列出病历图像样本x
i
,x
i
表示第i个精神分裂症病历图像样本。通过Spark并行化的稀疏约束模型计算图像样本x
i
和其他样本(x1,x2,
……
,x
i
‑1,x
i+1
,
……
,x
j
)之间的相关性,x
j
表示第j个数据集,其中j<n。当行内尽可能多的元素为0时,约束才可能取得最小,即使得矩阵出现尽可能多的全零行,得到权重矩阵W,元素大小反应样本紧密程度,通过非零元素个数得到样本最优的K个邻居,获得K值,构造基于Spark并行化的稀疏K近邻粒度模型。利用所有样本最优的K个邻居,生成关系矩阵,表示每个样本之间的距离关系;
[0010]S3:在子节点Slave
i
中引入双向互邻策略,通过病历图像样本x和样本y的互邻信息重叠区域来判断,当样本x和样本y都属于对方的最近邻粒度,则样本y被选为样本x的最近邻,得到基于稀疏双向的Spark粗糙集模型。令B表示精神分裂症病理特征非空有限集合的子集,则稀疏双向最近邻定义如下:
[0011]SMK
B
(x
i
)={K
B
(x
i
)|x
i
∈K
B
(x
j
)∩x
j
∈K
B
(x
i
)}
ꢀꢀꢀ
(12)
[0012]其中,x关于特征子集B的最优邻居为x
i
表示精神分裂症病历图像数据子集中第i个样本,x
j
表示精神分裂症病历图像数据子集中第j个样本,K
B
(x
j
)表示样本x
j
在特征子集B下的K个邻居,K
B
(x
i
)表示样本x
i
在特征子集B下的K个邻居;
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法,其特征在于,包括以下步骤:S1:在主节点Master上,读取大规模静息态功能磁共振成像的精神分裂症病历图像数据集,将分布不平衡的RS

fMRI数据存储到数据库的分布式文件中,并进行数据预处理和划分操作,RS

fMRI图像经过数据预处理后,使用解剖自动标记模板将其划分为若干个大脑区域,在大脑网络中,每个大脑区域代表一个独立的节点,分别提取每个节点的平均体素时间序列,将每个区域相似度较高的聚类到一起,计算每个区域的聚类系数,将系数转为一组一维特征向量,用这些系数来表示大脑网络的拓扑结构,建立脑区之间的脑功能连接网络,定义节点时间序列矩阵;将精神分裂症病历图像转换为一个四元组决策信息系统S=(U,C∪D,V,f),其中U={x1,x2,
……
,x
n
}表示数据集中精神分裂症病历图像的患者对象集合,m表示精神分裂症病历的患者个数,x
m
表示第m个样本;C={a1,a2,...,a
n
}表示精神分裂症病理属性的非空有限集合,n表示精神分裂症病理属性的个数,a
n
表示第n个属性;D={d1,d2,
……
,d
N
}表示精神分裂症病历决策类别的非空有限集合,N表示精神分裂症病历决策类别的个数,d
N
表示第N个决策类别,且V=∪
a∈C∪D
V
a
,V
a
是数据集属性a下数据对象所有可能的数据取值,f:U
×
C∪D

V表示一个信息函数,它为每个精神分裂症病历图像赋予一个信息值,即x∈U,f(x,a)∈V
a
;S2:在Spark框架中,建立主控节点Master和子节点Slave
i
之间的通信,读取精神分裂症病历的数据集,将数据集S合划分成M个精神分裂症数据子集{S1,S2,
……
,S
M
},其中S
M
表示第M个数据子集,且满足数据子集之和等于数据集,满足任意数据子集的交集为空,并将其广播到相应的子节点上,在子节点Slaver
i
上,使用留一法列出病历图像样本x
i
,x
i
表示第i个精神分裂症病历图像样本,通过Spark并行化的稀疏约束模型计算图像样本x
i
和其他样本(x1,x2,
……
,x
i
‑1,x
i+1
,
……
,x
j
)之间的相关性,x
j
表示第j个数据集,其中j<n,当行内尽可能多的元素为0时,约束才可能取得最小,即使得矩阵出现尽可能多的全零行,得到权重矩阵W,元素大小反应样本紧密程度,通过非零元素个数得到样本最优的K个邻居,获得K值,构造基于Spark并行化的稀疏K近邻粒度模型,利用所有样本最优的K个邻居,生成关系矩阵,表示每个样本之间的距离关系;S3:在子节点Slave
i
中引入双向互邻策略,通过病历图像样本x和样本y的互邻信息重叠区域来判断,当样本x和样本y都属于对方的最近邻粒度,则样本y被选为样本x的最近邻,得到基于稀疏双向的Spark粗糙集模型,令B表示精神分裂症病理特征非空有限集合的子集,则稀疏双向最近邻定义如下:其中,x关于特征子集B的最优邻居为x
i
表示精神分裂症病历图像数据子集中第i个样本,x
j
表示精神分裂症病历图像数据子集中第j个样本,K
B
(x
j
)表示样本x
j
在特征子集B下的K个邻居,K
B
(x
i
)表示样本x
i
在特征子集B下的K个邻居;S4:将启发式特征选择方法和动态优化策略结合,在子节点Slave
i
上,基于粒度的模型采用条件熵来评估模型的不确定性,在属性C

B子集中寻找具有最大属性重要度SIG(a
i
,B,
D)对应的属性,其中a
i
表示第i个属性,将其加入到属性集B中,若属性a
i
冗余则继续计算下一个具有最大属性重要度的属性,比较依赖性γ
B
(D)和γ
C
(D),将属性集B中的冗余属性删除,γ
B
(D)表示属性子集B对于决策类D的依赖度,γ
C
(D)表示条件属性C对于决策类D的依赖度,利用依赖关系来评估近似的区域,得到各个子节点计算出的病理属性约简子集集合{R1,R2,
……
,R
M
},其中M表示子节点的个数,R
M
表示第M个子节点求出的属性子集,根据基于稀疏双向的Spark并行模型对数据进行特征选择,由此选取预测精神分裂症的重要脑区域。2.根据权利要求1所述的一种用于精神分裂症病历图像特...

【专利技术属性】
技术研发人员:鞠恒荣单婷婷尹涛樊晓雪丁卫平黄嘉爽陆杨
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1