基于数据分簇和集成学习的孤独症谱系障碍的诊断系统技术方案

技术编号:38207268 阅读:7 留言:0更新日期:2023-07-21 16:55
本发明专利技术属于脑影像领域和机器学习领域,为了解决现有技术存在数据量少、磁共振成像涉及参数较多及实施较复杂的问题,提供了基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其包括脑功能连接相关性矩阵构建模块,用于获取被试的单模态磁共振影像,构建被试的脑功能连接相关性矩阵;特征向量获取模块,用于基于信息熵对被试的脑功能连接相关性矩阵进行降维处理,获得被试的特征向量;孤独症谱系障碍诊断模块,用于基于诊断模型对被试的特征向量进行处理,得到最终诊断结果。本发明专利技术考虑了数据的个体异质性和中心异质性,有效地缓解了数据异质性对分类结果的影响,有助于提升模型诊断的准确率。断的准确率。断的准确率。

【技术实现步骤摘要】
基于数据分簇和集成学习的孤独症谱系障碍的诊断系统


[0001]本专利技术属于脑影像领域和机器学习领域,尤其涉及一种基于数据分簇和集成学习的孤独症谱系障碍的诊断系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]孤独症谱系障碍(Autism Spectrum Disorder,ASD)是一种因脑发育异常导致的终身疾病,患者的主要表现为沟通障碍、社交障碍以及存在刻板性、重复性行为。该疾病在初期不易被察觉,且目前主流诊断依然基于行为观察、详细病史采集和精神评估。病情严重程度易受社会环境的影响,尽早地诊断和干预有助于疾病的治疗。因此,许多研究借助脑影像数据获取脑连接特征用于诊断ASD疾病,期待找到一些能应用于早期诊断的功能指标。
[0004]磁共振影像为探究人类大脑结构和功能提供了技术手段,研究者可以借助机器学习技术把大量磁共振影像数据作为数据集,训练出高效率的诊断模型进而能总结出可靠的影像学检查指标。但是磁共振影像数据易受采集机器型号、采集磁场强度和采集流程规范等客观因素的影响,导致数据集中不同采集中心的数据质量不同,即存在中心异质性。此外,ASD患者之间因为生活环境、年龄、智力、病情程度等个人因素不同,导致数据集中不同个体的数据质量不同,即存在个体异质性。异质性会影响机器学习的模型训练效果,从而影响人们对ASD的诊断和对发病原因的探索。
[0005]现阶段基于磁共振影像的ASD患者诊断的研究,主要聚焦于通过改进学习模型、引入新型优化方法、增加训练样本数据类型(多模态技术)来提升诊断模型的准确率,忽略了数据异质性对模型结果的影响。其余涉及到解决异质性问题的模型仅考虑通过借助机器学习技术学习磁共振扫描参数影响成像效果的规律来纠正数据从而提升数据质量,缓和数据异质性。但是该方法存在数据量少、磁共振成像涉及参数较多、实施较复杂的缺点。

技术实现思路

[0006]为了解决上述
技术介绍
中存在的技术问题,本专利技术提供一种基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其因考虑了数据的个体异质性和中心异质性,在模型训练开始前对数据集进行预处理,有效地缓解了数据异质性对分类结果的影响,有助于提升模型诊断的准确率。
[0007]为了实现上述目的,本专利技术采用如下技术方案:一种基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其包括:脑功能连接相关性矩阵构建模块,其用于获取被试的单模态磁共振影像,构建被试的脑功能连接相关性矩阵;特征向量获取模块,其用于基于信息熵对被试的脑功能连接相关性矩阵进行降维处理,获得被试的特征向量;
孤独症谱系障碍诊断模块,其用于基于诊断模型对被试的特征向量进行处理,得到最终诊断结果;其中,所述诊断模型包括同质基学习器和决策学习器;同质基学习器的训练数据集构建过程为:将孤独症谱系障碍组和健康对照组的特征向量依次进行分布编码及结合空间距离分簇,再将分簇数据按照预设组合规则,组装成拥有孤独症谱系障碍组样本和健康对照组样本的数据子集;决策学习器的训练数据集由同质基学习器输出的孤独症谱系障碍的概率值构建。
[0008]作为一种实施方式,在同质基学习器的训练数据集构建过程中,分布编码的过程为:设定编码阈值,计算样本中每个位置数值和0差值的绝对值;若绝对值大于编码阈值,则该位置编码为1;若绝对值小于等于编码阈值,则该位置编码为0,最终每个样本获得一串多维的01编码。
[0009]作为一种实施方式,在同质基学习器的训练数据集构建过程中,对分布编码进行一次或多次池化操作。
[0010]作为一种实施方式,对分布编码进行一次或多次池化操作的过程为:在每一次池化操作中设置一个预设宽度的滑动窗口,从编码串第一位开始进行预设步长的滑动操作;根据0和1的数量,对孤独症谱系障碍组和健康对照组进行重新编码。
[0011]作为一种实施方式,所有池化操作完成之后将编码转成十进制数得到量化后的空间分布数值,空间分布数值越相近,则高相关性数据的空间分布越相似。
[0012]作为一种实施方式,结合空间距离使用层次聚类的方法对分布编码后的特征向量进行分簇。
[0013]作为一种实施方式,组装拥有孤独症谱系障碍组样本和健康对照组样本的数据子集的过程为:以孤独症谱系障碍组中的每个簇为主簇;针对主簇之外的孤独症谱系障碍组簇按照取样总数为原主簇样本数的预设百分比进行随机采样;使用分层随机采样方式对对照组中的各个簇分别采样后放进主簇中。
[0014]作为一种实施方式,在所述特征向量获取模块中,基于信息熵对被试的脑功能连接相关性矩阵进行降维处理的过程为:每一个被试取严格上三角矩阵作为初始数据,然后将脑功能连接相关性矩阵从上到下遍历转换成一列多维向量;将每个被试的列向量中相同位置的数值取出,组合成一个一维数组;利用信息熵公式计算每个一维数组的熵值;然后使用熵值对所有一维数组进行排序,取熵值最大的前预设数量的数组的下标作为第二轮降维后的数据采集索引;最后将所有的特征向量按照数据采集索引进行取值降维,得到一个新的降维后的特征向量。
[0015]作为一种实施方式,在所述脑功能连接相关性矩阵构建模块中,构建被试的脑功
能连接相关性矩阵之前,还包括:对被试的单模态磁共振影像进行预处理。
[0016]作为一种实施方式,预处理流程包括:去时间点、头动及时间层矫正、空间标准化及平滑滤波。
[0017]与现有技术相比,本专利技术的有益效果是:(1)本专利技术提出的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,因考虑了数据的个体异质性和中心异质性,在模型训练开始前对数据集进行预处理,有效地缓解了数据异质性对分类结果的影响,有助于提升模型诊断的准确率。
[0018](2)本专利技术因采用单模态数据,与多模态数据诊断技术相比有采集数据量少,经济负担小的优点。与目前的缓解数据异质性方法相比,从数据处理阶段而非数据采集阶段下手,不涉及磁共振设备的硬件知识和成像原理,操作实施更加简单。
[0019](3)本专利技术在样本分簇步骤中引入新的相似度指标,该指标结合了数据值大小和数据空间分布两个部分,通过使用二进制编码与转换算法将数据空间分布信息量化成一个数值,在分簇标准上多纳入了空间信息,增加了参考维度,有利于提升分簇的准确性,更加贴切实际需要。
[0020]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0021]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0022]图1是本专利技术实施例的一种基于数据分簇和集成学习的孤独症谱系障碍的诊断系统原理图;图2为本专利技术实施例的基于信息熵的特征向量降维流程图;图3为本专利技术实施例的基于多维相似度指标的样本分簇流程图;图4为本专利技术实施例的组装数据子集流程图;图5为本专利技术实施例的多模型训练与决策训练流程图;图6为本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,包括:脑功能连接相关性矩阵构建模块,其用于获取被试的单模态磁共振影像,构建被试的脑功能连接相关性矩阵;特征向量获取模块,其用于基于信息熵对被试的脑功能连接相关性矩阵进行降维处理,获得被试的特征向量;孤独症谱系障碍诊断模块,其用于基于诊断模型对被试的特征向量进行处理,得到最终诊断结果;其中,所述诊断模型包括同质基学习器和决策学习器;同质基学习器的训练数据集构建过程为:将孤独症谱系障碍组和健康对照组的特征向量依次进行分布编码及结合空间距离分簇,再将分簇数据按照预设组合规则,组装成拥有孤独症谱系障碍组样本和健康对照组样本的数据子集;决策学习器的训练数据集由同质基学习器输出的孤独症谱系障碍的概率值构建。2.如权利要求1所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,在同质基学习器的训练数据集构建过程中,分布编码的过程为:设定编码阈值,计算样本中每个位置数值和0差值的绝对值;若绝对值大于编码阈值,则该位置编码为1;若绝对值小于等于编码阈值,则该位置编码为0,最终每个样本获得一串多维的01编码。3.如权利要求1或2所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,在同质基学习器的训练数据集构建过程中,对分布编码进行一次或多次池化操作。4.如权利要求3所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,对分布编码进行一次或多次池化操作的过程为:在每一次池化操作中设置一个预设宽度的滑动窗口,从编码串第一位开始进行预设步长的滑动操作;根据0和1的数量,对孤独症谱系障碍组和健康对照组进行重新编码。5.如权利要求4所述的基于数据分簇和集成学习的孤独症谱系障碍的诊断系统,其特征在于,所有池...

【专利技术属性】
技术研发人员:魏珑徐鑫贾守强魏佑震仲苏玉
申请(专利权)人:山东建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1