实现精神分裂症药物疗效评估和预测的方法、装置、处理器及其计算机可读存储介质制造方法及图纸

技术编号:39054827 阅读:19 留言:0更新日期:2023-10-12 19:48
本发明专利技术涉及一种实现精神分裂症药物疗效评估和预测的方法,其中,该方法包括以下步骤:选定特定受试者以及与其对应匹配的健康人群,分别进行血浆样本数据收集;对收集到的数据集进行随机打乱,并将其划分为测试数据集和训练数据集,建立精神分裂症标志物模型,并通过该模型确认优化后的数据特征组合;基于建立的XGBoost模型,通过个体化打分工具评估和预测相应受试者的药物疗效,完成对精神分裂症药物疗效预测的处理。本发明专利技术还涉及一种相应的装置、处理器及其存储介质。采用了本发明专利技术的该实现精神分裂症药物疗效预测的方法、装置、处理器及其存储介质,作为中间预测结果,有利于优化精神分裂症临床治疗的准确性和策略性。化精神分裂症临床治疗的准确性和策略性。化精神分裂症临床治疗的准确性和策略性。

【技术实现步骤摘要】
实现精神分裂症药物疗效评估和预测的方法、装置、处理器及其计算机可读存储介质


[0001]本专利技术涉及人工智能
,尤其涉及医疗预测,具体是指一种实现精神分裂症药物疗效评估和预测的方法、装置、处理器及其计算机可读存储介质。

技术介绍

[0002]目前精神分裂症的分析和评估主要依赖于临床医生对患者的症状和病史的主观评估。然而,患者的主观感受和表达很容易影响临床医生的判断,不同医生可能会根据其经验和判断做出不同诊断。此外,精神分裂症临床症状复杂,异质性高,与其他严重精神障碍,如双相情感障碍和重度抑郁障碍存在症状重叠,因此病人可能会被错误地归为其他精神疾病。此外,对于一些轻度或早期症状的患者,可能不容易被识别。流行病学研究显示近25%的精神分裂症患者存误诊或漏诊,导致治疗延迟或治疗不当。同时,患者对抗精神分裂症药物的反应存在高度异质性,医生无法提前预测患者对药物疗效和副作用的敏感性,加剧了精神分裂症治疗的困难。
[0003]过往基因血液标志物的研究主要利用线性回归、逻辑回归等简单分析手段进行药物疗效预测的模型建立。线性回归、逻辑回归等简单分析手段只能建立线性关系或者一些特定形式的非线性关系,难以处理更为复杂的关系。这些简单分析手段对数据噪声比较敏感,当数据中存在异常值或者噪声数据时,模型容易出现过拟合或欠拟合的情况。在建模时这些简单的分析手段通常只考虑单一的特征变量,难以处理多个特征变量之间的交互作用。此外,这些模型建立中并没有考虑标志物在区分其他易混淆精神疾病(例如双相障碍、重度抑郁)的能力,也无法进行个体化水平的诊断和预测。然而,个体化水平的精准诊断和预测对临床应用至关重要。XGBoost是一种利用梯度增强树的集成方法,是一种强大的机器学习算法。它能够处理高维和稀疏数据,建立更为复杂的非线性关系,具有更高的灵活性。XGBoost可以组合多个弱模型来生成准确的分类和预测,对噪声数据具有一定的鲁棒性,即使样本量很小也可以得到较准确的结果。此外,XGBoost利用了树模型的组合能力,可以自动挖掘特征之间的交互关系,并进行特征选择。因此,我们应用基于XGBoost的机器学习来开发新的基于血液细胞外囊泡蛋白的生物标志物,并产生用于在个体化水平精准预测精神分裂症和预测抗精神分裂症药物反应的打分系统。

技术实现思路

[0004]本专利技术的目的是克服了上述现有技术的缺点,提供了一种实现精神分裂症药物疗效评估和预测的方法、装置、处理器及其计算机可读存储介质。
[0005]为了实现上述目的,本专利技术的实现精神分裂症药物疗效评估和预测的方法、装置、处理器及其计算机可读存储介质如下:
[0006]该实现精神分裂症药物疗效评估和预测的方法,其主要特点是,所述的方法包括以下步骤:
[0007](1)选定特定受试者以及与其对应匹配的健康人群,分别进行血浆样本数据收集;
[0008](2)对收集到的数据集进行随机打乱,并将其划分为测试数据集和训练数据集,利用XGboost算法建立精神分裂症标志物的预测模型,并通过该模型确认优化后的数据特征组合;
[0009](3)基于建立的XGBoost模型,通过个体化打分工具评估和预测相应受试者的药物疗效,以完成对精神分裂症药物疗效预测的处理。
[0010]较佳地,所述的血浆样本数据包括年龄和性别均相互匹配的细胞外囊泡中的蛋白数据,该数据源具体包括:
[0011]第一组样本:精神分裂症患者与健康人群;
[0012]第二组样本:精神分裂症患者与双相障碍患者;
[0013]第三组样本:精神分裂症患者与重性抑郁在患者。
[0014]较佳地,所述的步骤(2)具体为:
[0015]选择曲线下面积(AUC)最高的XGBoost模型作为最终的预测模型,并基于该模型确定优化的数据特征组合,用于评估所述的预测模型。所述的数据特征包括:曲线下面积(AUC)、准确性、敏感性、特异性、阴性预测值和阳性预测值。
[0016]较佳地,所述的预测模型通过网格搜索以获取性能最佳的超参数组合,具体为:
[0017]首先,所述的网格搜索会为每一个超参数设定一组候选值,并以此生成该候选值的笛卡尔积,形成超参数的组合网格,其次,所述的网格搜索会对每个超参数组合进行模型训练和评估,从而找到性能最佳的超参数组合。
[0018]较佳地,所述的步骤(2)利用网格搜索具体进行以下处理:
[0019](2.1)将获取到的样本数据均匀划分为预设个数的组,其中一组用于分析评估,剩下的组用于训练处理,并对数据集进行随机打乱,重复进行预设次数的交叉验证;
[0020](2.2)对于决定模型的迭代次数的参数,将其设置为100到1000的范围;
[0021](2.3)执行网格搜索,以找到学习率和gamma参数的最佳值,其中,所述的学习率的搜索范围为0.001、0.01至0.1,所述的gamma参数的搜索范围为0.05、0.1、0.3、0.4、0.5和0.6,运行所述的学习率和gamma参数的所有可能组合进行模型调优,并选择性能最佳的组合作为最优值;
[0022](2.4)使用最佳的学习率和gamma值,对树的最大深度(max_depth)和最小叶子节点样本权重和(min_child_weight)参数进行网格搜索,设置搜索范围为1到8;
[0023](2.5)对L2正则化参数reg lambda和subsample分别进行网格搜索,搜索范围分别为0到0.9;
[0024](2.6)最后,对上述gamma、reg lambda和subsample参数同时进行网格搜索,重新检查模型,观察gamma,reg lambda和subsample参数和第上述步骤(2.3)和(2.4)的计算结果是否有差异,如果不一样则替换为当前的参数。
[0025]较佳地,所述的步骤(3)的个体化打分工具通过计算个性化判别分数进行评估和预测处理,其具体通过以下公式实现:
[0026][0027]其中,x
i
为第i个训练样本,f
k
(x
i
)为第k棵树的分数,F为包含所有回归树的函数的
空间,为是模型对第i个样本的预测结果,通过对所有XGBoost模型的每一个数的预测结果求和得到;
[0028]待优化的目标函数由以下公式进行表示:
[0029][0030]其中,为可微损失函数,用于衡量模型是否适合训练数据集,y
i
是样本i的实际值,为模型的正则项,用于惩罚模型的复杂性,当模型的复杂性增加时,会扣除相应的分数,Ω(f
k
)表示第k棵树的复杂度,由树的叶子结点数,以及叶子结点的权重控制T表示叶子结点数量,w
j
表示第i个叶子结点的权重。bj(θ)为模型的目标函数,通过最小化该目标函数来求解模型参数。
[0031]较佳地,所述的XGBoost模型使用细胞外囊泡来源的C3,C4,C4BPA,PROS1以及血浆C4进行精本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现精神分裂症药物疗效评估和预测的方法,其特征在于,所述的方法包括以下步骤:(1)选定特定受试者以及与其对应匹配的健康人群,分别进行血浆样本数据收集;(2)对收集到的数据集进行随机打乱,并将其划分为测试数据集和训练数据集,利用XGboost算法建立精神分裂症标志物模型,并通过该模型确认优化后的数据特征组合;(3)基于建立的XGBoost模型,通过个体化打分工具评估和预测相应受试者的药物疗效,以完成对精神分裂症药物疗效预测的处理。2.根据权利要求1所述的实现精神分裂症药物疗效评估和预测的方法,其特征在于,所述的血浆样本数据包括细胞外囊泡中的蛋白数据,该数据源具体包括:第一组样本:精神分裂症患者与健康人群;第二组样本:精神分裂症患者与双相障碍患者;第三组样本:精神分裂症患者与重性抑郁在患者。3.根据权利要求1所述的实现精神分裂症药物疗效评估和预测的方法,其特征在于,所述的步骤(2)具体为:选择曲线下面积(AUC)最高的XGBoost模型作为最终预测模型,并基于该模型确定优化的数据特征组合,用于评估所述的预测模型;所述的数据特征包括:曲线下面积(AUC)、准确性、敏感性、特异性、阴性预测值和阳性预测值。4.根据权利要求3所述的实现精神分裂症药物疗效评估和预测的方法,其特征在于,所述的模型通过网格搜索以获取性能最佳的超参数组合,超参数具体指模型迭代次数,学习率,gamma参数,树的最大深度,最小叶子节点样本权重和,reg lambda以及subsample;具体流程为:首先,网格搜索会为每一个超参数设定一组候选值,并以此生成该候选值的笛卡尔积,形成超参数的组合网格,其次,网格搜索会对每个超参数组合进行模型训练和评估,从而找到性能最佳的超参数组合。5.根据权利要求4所述的实现精神分裂症药物疗效评估和预测的方法,其特征在于,所述的步骤(2)利用网格搜索具体进行以下处理:(2.1)将获取到的样本数据均匀划分为预设个数的组,其中一组用于分析评估,剩下的组用于训练处理,并对数据集进行随机打乱,重复进行预设次数的交叉验证;(2.2)对于决定模型的迭代次数的参数,将其设置为100到1000的范围;(2.3)执行网格搜索,以找到学习率和gamma参数的最佳值,其中,所述的学习率的搜索范围为0.001、0.01至0.1,所述的gamma参数的搜索范围为0.05、0.1、0.3、0.4、0.5和0.6,运行所述的学习率和gamma参数的所有可能组合进行模型调优,并选择性能最佳的组合作为最优...

【专利技术属性】
技术研发人员:薛婷崔东红
申请(专利权)人:上海市精神卫生中心上海市心理咨询培训中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1