一种基于自动化机器学习的前列腺癌风险分类方法及装置制造方法及图纸

技术编号:35340453 阅读:23 留言:0更新日期:2022-10-26 12:04
本发明专利技术公开了一种基于自动化机器学习的前列腺癌风险分类方法及装置,属于疾病风险预测技术领域。本发明专利技术综合临床多模态大数据,包含患者的人口统计学、现有分子标志物、生命体征、疾病描述、检查检验、诊断、病理、医嘱、影像等,更为准确、全面地预测患者疾病状态;利用NLP技术,在大量的超声报告中提取了“前列腺截面面积”这一特征,该特征能在预测前列腺癌的算法中发挥及其重要作用,极大地提升模型的预测效果,并且利用自动化机器学习,几乎搜索了业内所有常见的分类算法及其参数空间,最优的预测指标——AUC,可以达到0.84。可以达到0.84。可以达到0.84。

【技术实现步骤摘要】
一种基于自动化机器学习的前列腺癌风险分类方法及装置


[0001]本专利技术涉及一种基于自动化机器学习的前列腺癌风险分类方法及装置,属于疾病风险预测


技术介绍

[0002]在世界范围内,前列腺癌发病率排名第二,死亡率排名第五,是严重威胁男性健康的高发疾病。在我国,前列腺癌的发病率年增长率高达7.2%,成为我国肿瘤发病率增长最快的肿瘤。早期前列腺癌局限于前列腺包膜内,行前列腺癌根治手术或者放疗,5年生存率接近100%,但当肿瘤扩散或转移时,肿瘤的生存率急剧下降,5年生存率只有28%。因此,前列腺癌的早期诊断、早期治疗非常重要。
[0003]前列腺特异性抗原(Prostate specific antigen, PSA)作为目前PCa最为公认、应用最为广泛的分子诊断标记物,在目前PCa筛查方面起着极为重要的作用,但它在明显提高肿瘤诊断率的同时并不能预测前列腺癌的危险程度,导致了前列腺癌的过度诊断和过度治疗。具体原因如下为如下:格里森评分(GS)是评价前列腺癌危险程度的一个重要指标,GS≤6时为临床非显著性或低风险前列腺癌,仅需要密切随访而不需要采取任何治疗手段。GS≥7时为临床显著性前列腺癌,需要综合其他检查结果实施根治性手术或根治性放疗等治疗方案。由于PSA筛查的广泛应用,导致了临床上大量的患者接受了不必要的穿刺活检,也检出了大量无需临床干预的低风险前列腺癌,增加了患者的痛苦也浪费了医疗资源。因此,临床实践上需要一种精准的前列腺癌风险预测方法或系统,以来提高临床显著性前列腺癌的检出率,减少非必要前列腺穿刺活检,避免过度医疗。
[0004]近年来,随着人工智能的迅速发展,相关算法在各个行业中的应用不断涌现,尤其是在处理与整合临床上多参数、多维度的信息方面发挥着重要作用。临床数据信息包含患者的人口统计学、生命体征、疾病描述、检查检验、诊断、病理、医嘱、影像等信息,由于其数据的多态性,模式的复杂性,传统的统计学模型难以表达出其潜在的模式及关系,基于此,我们改进并运用多种人工智能算法,融合临床多模态数据,进行多参数模型搜索,以期找到最优的模型,解决临床显著性前列腺癌检测的这一难题。

技术实现思路

[0005]本专利技术提供一种基于自动化机器学习的前列腺癌风险分类方法及装置,它解决了以下问题:1、目前医疗实践中并没有综合多模态临床数据的模型或系统进行临床显著性前列腺癌的预测;2、目前使用的新型分子标志物,预测准确性低,且操作复杂,价格昂贵;3临床目前常用的MRI检测,使用场景有限,且增加患者经济负担。
[0006]本专利技术所要解决的技术问题采取以下技术方案来实现:一种基于自动化机器学习的前列腺癌风险分类方法,包括以下步骤:步骤1、获取患者的经腹前列腺B超报告,通过NLP方法提取前列腺截面面积,结石或钙化特征;
步骤2、获取患者基本信息、分子标记物、检验检查数据,融合前列腺截面面积,检验检查数据进行预处理;步骤3、风险预测,通过网络协议获取就诊或入院检查信息,包含步骤1中所需临床数据,预处理后输入已经建好的自动化机器学习模型,获得患者的前列腺癌风险评分;步骤4、模型评估,评估指标利用AUC,AUC的取值范围在0.5和1之间,AUC越接近1.0,模型预测性能越高,AUC接近0.5时,则模型无应用价值;步骤5、把优化得到的模型部署到计算设备中,利用网络接口接受患者的实时数据,输入预测模型,获取患者的风险等级。
[0007]作为优选实例,所述步骤2中患者基本信息包括年龄、性别、身高、体重。
[0008]作为优选实例,所述步骤2中分子标记物包括前列腺特异性抗原、游离前列腺特异性抗原。
[0009]作为优选实例,所述步骤2中检验检查数据包括血常规、尿常规、肝肾功能、血糖、前列腺B超。
[0010]作为优选实例,所述步骤2中数据预处理包括化验项标准化、前列腺B超报告结构化和异常数据处理。
[0011]作为优选实例,所述化验项标准化为分别对化验数据的化验单位、定性结果、定量结果、化验值状态、化验名称、化验名称标本、参考范围和诊断结果等进行规范,建立化验标准数据库,利用标准消除设备量纲、或使用环境差异,让不同患者的检验指标具有可比性。
[0012]作为优选实例,所述前列腺B超报告结构化为针对采集的超声报告文本,利用CRF或正则表达式抽取出前列腺的左右径、上下径或前后径,并计算出患者的前列腺截面面积。
[0013]作为优选实例,所述异常数据处理为进行缺失值填充,保证PSA、年龄、前列腺截面面积非空。
[0014]作为优选实例,所述自动化机器模型的建立步骤为:A)数据采集,对接合作医院His、Lis、EMR等系统,采集患者临床数据,包括上述步骤1所需所有数据;B)数据预处理,针对采集的数据,经过步骤1、步骤2处理;C)建立研究队列,剔除错误数据、异常数据,以及缺失率较大检验项目,保证PSA、年龄、前列腺截面面积非空,且PSA∈[4,20]建立研究队列;D)数据集分割,将研究队列数据集分割为训练集、验证集、测试集,分割比例依次为 80%:10%:10%;E)模型训练,利用自动化机器学习工具学习AutoML,利用GA算法进行超参数搜索,构建前列腺患癌风险预测模型。
[0015]作为优选实例,所述自动化机器学习工具包括TPOT、Auto

Sklearn、Hyperopt。
[0016]作为优选实例,根据预测概率值对测试集排序,分别选择敏感性阈值90%的点,则对应的风险阈值为18.8%,以18.8%为风险评分的阈值为决策点,对大于18.8%患者进行前列腺穿刺手术。
[0017]一种基于自动化机器学习的前列腺癌风险分类的装置,包括处理器、内存、数据库和网络接口,且部署有本申请中所述的预测模型。
[0018]本专利技术的有益效果是:
1、综合临床多模态大数据,包含患者的人口统计学、现有分子标志物、生命体征、疾病描述、检查检验、诊断、病理、医嘱、影像等,更为准确、全面地预测患者疾病状态;2、利用NLP技术,在大量的超声报告中提取了“前列腺截面面积”这一特征,该特征能在预测前列腺癌的算法中发挥及其重要作用,极大地提升模型的预测效果;3、本专利技术利用自动化机器学习,几乎搜索了业内所有常见的分类算法及其参数空间,最优的预测指标——AUC,可以达到0.84。
附图说明
[0019]图1为本专利技术实施例提供的基于自动机化器学习技术的前列腺癌风险预测流程示意图;图2为本专利技术实施例提供的设备硬件架构示意图;图3为根据预测概率值对测试集排序的统计图。
具体实施方式
[0020]为了对本专利技术的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本专利技术。
[0021]如图1所示,前列腺癌风险分类方法包括:步骤1、获取患者的经腹前列腺B超报告,通过NLP方法提取前列腺截面面积,结石或钙化特征,如表1中的“左右径*上下径,前列腺结石或钙化”;步骤2、获取患者基本信息、检验检查数据,融合前列腺截面面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自动化机器学习的前列腺癌风险分类方法,其特征在于:包括以下步骤:步骤1、获取患者的经腹前列腺B超报告,通过NLP方法提取前列腺截面面积,结石或钙化特征;步骤2、获取患者基本信息、分子标记物、检验检查数据,融合前列腺截面面积,检验检查数据进行预处理;步骤3、风险预测,通过网络协议获取就诊或入院检查信息,包含步骤1中所需临床数据,预处理后输入已经建好的自动化机器学习模型,获得患者的前列腺癌风险评分;步骤4、模型评估,评估指标利用AUC,AUC的取值范围在0.5和1之间,AUC越接近1.0,模型预测性能越高,AUC接近0.5时,则模型无应用价值;步骤5、把优化得到的模型部署到计算设备中,利用网络接口接受患者的实时数据,输入预测模型,获取患者的风险等级。2.根据权利要求1所述的一种基于自动化机器学习的前列腺癌风险分类方法,其特征在于:所述步骤2中患者基本信息包括年龄、性别、身高、体重。3.根据权利要求1所述的一种基于自动化机器学习的前列腺癌风险分类方法,其特征在于:所述步骤2中分子标记物包括前列腺特异性抗原、游离前列腺特异性抗原。4.根据权利要求1所述的一种基于自动化机器学习的前列腺癌风险分类方法,其特征在于:所述步骤2中检验检查数据包括血常规、尿常规、肝肾功能、血糖、前列腺B超。5.根据权利要求1所述的一种基于自动化机器学习的前列腺癌风险分类方法,其特征在于:所述步骤2中数据预处理包括化验项标准化、前列腺B超报告结构化和异常数据处理。6.根据权利要求5所述的一种基于自动化机器学习的前列腺癌风险分类方法,其特征在于:所述化验项标准化为分别对化验数据的化验单位、定性结果、定量结果、化验值状态、化验名称、化验名称标本、参考范围和诊断结果等进行规范,建立化验标准数据库,利用标准消除设备量纲、或使用环境差异,让不同患者的检验指标具有可比性。7.根据权利要求5所述...

【专利技术属性】
技术研发人员:王富博韦春梦张会勇程继文陈俊毅魏雪栋徐斌何星
申请(专利权)人:广西医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1