当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于文本分割的再入院预测方法技术

技术编号:29494247 阅读:26 留言:0更新日期:2021-07-30 19:07
本发明专利技术公开了一种基于文本分割的再入院预测方法。本发明专利技术方法从深度学习方法存在医疗文本输入长度限制以及现有再入院方法没有考虑文本中不同内容的影响等问题出发,对医学文本进行分割,将分割得到的医疗文本段作为输入,同时考虑了诊断编码以及不同文本段的内容对预测的影响。该方法首先对每一个文本段进行表示学习,得到每一部分的向量表征;随后利用Attention机制给对应文本段的向量表征赋权值,通过加权组合得到文本整体特征表示;最后通过全连接层预测再入院可能性。该方法利用文本中不同内容的重要性提高了模型的预测性能,并通过可视化的方式解释了预测结果。

【技术实现步骤摘要】
一种基于文本分割的再入院预测方法
本专利技术属于利用医疗文本的再入院情况预测工作,主要是针对长期反复入院患者的一个可能性参考,提出了一种基于文本分割的再入院预测方法。
技术介绍
非计划性再入院是指病人在出院后一定时间内又再次入院。据报道有近20%的病人在30天内会再次入院,而其中至少有近一半的情况属于完全可以避免的非计划性再入院。非计划性再入院对患者、医护人员和医院存在不同程度的影响。相比有计划的入院情况来说,计划外再入院的病人会花费更多的医疗资源,造成医疗成本上升。在美国,每年在这些非必要的医疗情况上就需要多花费20亿美元。因此,非计划性再入院率已成为评估医院医疗水平和护理质量的一项重要指标。人们做了非常多的工作减少非计划性再入院情况。有关部门制定了相关法案,对再入院率过高的医院处以罚款,并在网站上公开再入院率报告。医疗保险也减少了对超过30天再次入院情况的报销,医疗保险委员会提出对低绩效医院和高绩效医院进行差别补偿,以及将住院和门诊费用捆绑等方案控制非计划性再入院率。为了降低非计划性再入院比例,医院开始对患者进行相关指导,加强护理人员的护理流程,但医院所提出的非计划性再入院率降低计划目前仅适用于具有某些特定医学诊断的患者,具有一定局限性。人们发现通过再入院预测也可以降低再入院率。再入院预测是指预测病人首次出院后在某段时间内再入院的可能性。再入院预测对于患者和医院有着重大意义,提前预测出可能会再入院的病人有助于判断病人是否应该从ICU出院从而预防再入院的发生。根据临床记录进行正确的再入院预测可以有效指导医疗资源的利用,提醒医护人员提前做好准备,为患者延长住院时间或者做进一步的检查来避免下一次入院情况的发生。有效的再入院预测可以帮助医生提前识别和关注高危患者,从而及时采取有效的干预措施减少非必要的再次入院,最终可以提升护理水平、节省相关医疗费用。患者可以通过再入院预测结果了解当前身体状况,合理规划自己的就诊计划。医疗文本却因为其长达好几千字的记录给实际使用过程带来难度,考虑到医疗文本记录方式具有内容相关性,对文本进行分割是一种解决以上难点的有效方法,这样也以便后续再入院预测等任务的成果使用。在实际场景中,频繁的入院出院对病人和医院都有负面影响,利用上一次的住院记录来预测再次住院可能性成为许多研究人员热衷的研究方向。自然语言处理(NaturalLanguageProcessing,NLP)中的技术,例如深度学习,可以通过以端到端的方式提取有效特征,由此获得医学文本表示。现有基于深度学习的再入院预测方法主要有两个方面的问题:(1)普通的模型在处理长文本时难度较大,像长短期记忆网络(LongShort-termMemoryNetwork,LSTM)在文本过长的情况下可能会出现梯度爆炸或者梯度消失之类的问题。现有基于BERT的模型虽然在各项任务上都获得了最优结果,但也无法一次性处理超过512个字符的情况。(2)文本中的每一部分的内容都以同等重要性对待,从直观上来说,在进行预测任务时每一块应该起到了不同作用。
技术实现思路
(一)专利技术目的:为了解决以上问题,我们提出了基于文本内容分割的方法。根据内容分割原始医疗文本,每一部分都独立由预训练的ClinicalBERT进行表示,疾病诊断代码给予不同的分段的医疗文本权重,最后利用分类模型得到最后的预测结果。这样能够调节文本输入过长的问题,同时不同部分内容达成的影响不同,所受到的关注度也不一样。(二)技术方案:为实现上述目的,本专利技术采用的技术方案为:步骤1:与传统处理长文本的方法不同,本专利技术根据MIMIC-Ⅲ出院摘要的数据的结构和具体内容,首先利用文本分割方法或者正则匹配得到文本每个关键字所对应部分的文本内容。步骤2:表示学习模块目标是学习到每个部分的向量表示,本专利技术使用了ClinicalBERT进行这一步。模型中每一部分的表示都是由ClinicalBERT独立建模得到对应向量表示,能够应对医疗文本过长的难点。步骤3:得到每个部分的向量表示之后,本章方法采用了Attention机制凸显某个部分的特殊作用,也使用了带温度的softmax方法提升效果。根据重要程度赋予权值,Attention值越大表示这一部分对于整体预测重要越大。步骤4:在Attention阶段,对比了诊断编码的影响,本专利技术额外对比了使用诊断编码向量的方式,利用诊断信息衡量每一个文本段落的重要性。ClinicalBERT预训练模型也一样在此用来学习文本的特征表示。步骤5:通过Attention机制赋值之后,每一个文本段对应的句序列表示都有对应的权值,利用句序列表示根据权值相加后产生全新的句嵌入。线性层和sigmoid转换被用来计算最后阶段的再入院可能性,其中分类阈值为0.5。训练好模型后,在测试集中对模型进行再入院可能性预测,得到当前预测性能。优选地,所述步骤1中,对于MIMIC-Ⅲ数据来说,在文本中有着明显字段标识,通过正则表达式匹配的方法可以获得每个部分,根据统计数据选取出现频率最高的几个字段,每一个病人的出院摘要都有对应的多个文本段。优选地,所述步骤2中,由于利用通用语料进行预训练的特点,BERT模型在专业语料上向量表示的效果一般,所以本文采用了基于ClinicalBERT的向量表示。ClinicalBERT起源于BERT,是通过在PubMed等医疗相关语料库上进行预训练之后学习到的深度表示。优选地,所述步骤3中,为了获得每个部分的重要性,本文在模型中使用了Attention机制。Attention机制的作用就是计算出所有文本块的重要性,并赋予相应的权值。大小不一的权值反映了对应文本块在预测时起到的作用。计算方式为α(μ)=υT·tanh(Wμμ)、c=μ·softmax(α(μ)),其中μ代指了句嵌入的组合,c是句嵌入与对应权值相乘得到最后隐层的值。优选地,所述步骤4中,额外使用了诊断编码作为影响权值的因素使用。相应地,权重计算方式为α(μ,ν)=υT·tanh(Wμμ+Wνν),ν即med2vec所表示的诊断编码,Wν即ν对应的矩阵,在训练时也会不断更新。优选地,所述步骤5中,对于所有文本段的特征表示通过加权组合得到最终的句嵌入是整体特征的集中表示,即每个样例的分类向量,分类向量最终通过sigmoid函数进行0,1划分。训练好模型后,在测试集中对模型进行测试,评估模型各项性能。(三)有益效果本专利技术提出了分割文本,根据诊断编码赋予对应权值来预测30天内再次入院可能性的方法。实验结果表明,提出的模型相比BERT在计算效率和模型性能都有着显著提升。通过计算每个部分的重要性,我们也更容易弄清楚哪一块是重要文本,由此解释预测结果。附图说明图1为本专利技术方法具体实施流程图;图2为本专利技术方法解释性说明。具体实施方式为了让本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术中技术方案进一步详细的说明:实施例1本专利技术方法具体实施流本文档来自技高网
...

【技术保护点】
1.一种基于文本分割的再入院预测方法,其特征在于包括下列步骤:/n步骤1:与传统处理长文本的方法不同,本专利技术根据MIMIC-Ⅲ出院摘要的数据的结构和具体内容,首先利用文本分割方法或者正则匹配得到文本每个关键字所对应部分的文本内容。/n步骤2:表示学习模块目标是学习到每个部分的向量表示,本专利技术使用了ClinicalBERT进行这一步。模型中每一部分的表示都是由ClinicalBERT独立建模得到对应向量表示,能够应对医疗文本过长的难点。/n步骤3:得到每个部分的向量表示之后,本章方法采用了Attention机制凸显某个部分的特殊作用,也使用了带温度的softmax方法提升效果。根据重要程度赋予权值,Attention值越大表示这一部分对于整体预测重要越大。/n步骤4:在Attention阶段,对比了诊断编码的影响,本专利技术额外对比了使用诊断编码向量的方式,利用诊断信息衡量每一个文本段落的重要性。ClinicalBERT预训练模型也一样在此用来学习文本的特征表示。/n步骤5:通过Attention机制赋值之后,每一个文本段对应的句序列表示都有对应的权值,利用句序列表示根据权值相加后产生全新的句嵌入。线性层和sigmoid转换被用来计算最后阶段的再入院可能性,其中分类阈值为0.5。训练好模型后,在测试集中对模型进行再入院可能性预测,得到当前预测性能。/n...

【技术特征摘要】
1.一种基于文本分割的再入院预测方法,其特征在于包括下列步骤:
步骤1:与传统处理长文本的方法不同,本发明根据MIMIC-Ⅲ出院摘要的数据的结构和具体内容,首先利用文本分割方法或者正则匹配得到文本每个关键字所对应部分的文本内容。
步骤2:表示学习模块目标是学习到每个部分的向量表示,本发明使用了ClinicalBERT进行这一步。模型中每一部分的表示都是由ClinicalBERT独立建模得到对应向量表示,能够应对医疗文本过长的难点。
步骤3:得到每个部分的向量表示之后,本章方法采用了Attention机制凸显某个部分的特殊作用,也使用了带温度的softmax方法提升效果。根据重要程度赋予权值,Attention值越大表示这一部分对于整体预测重要越大。
步骤4:在Attention阶段,对比了诊断编码的影响,本发明额外对比了使用诊断编码向量的方式,利用诊断信息衡量每一个文本段落的重要性。ClinicalBERT预训练模型也一样在此用来学习文本的特征表示。
步骤5:通过Attention机制赋值之后,每一个文本段对应的句序列表示都有对应的权值,利用句序列表示根据权值相加后产生全新的句嵌入。线性层和sigmoid转换被用来计算最后阶段的再入院可能性,其中分类阈值为0.5。训练好模型后,在测试集中对模型进行再入院可能性预测,得到当前预测性能。


2.根据权利要求1所述的基于文本分割的再入院预测方法,其特征为所述步骤1中对于MIMIC-Ⅲ数据来说,在文本中有着明显字段标识,通过正则表达式匹配的方法可以获得每个部分,根据统计数据选取出现频率最高的几个字段,...

【专利技术属性】
技术研发人员:刘叶段俊文
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1