基于医学知识注入提示的少样本ICD编码方法和系统技术方案

技术编号:37812382 阅读:13 留言:0更新日期:2023-06-09 09:42
本发明专利技术涉及一种基于医学知识注入提示的少样本ICD编码方法和系统,该方法能够根据输入的医学文本生成最佳的ICD编码,提高了医学文本和ICD编码之间的匹配准确性。该方法包括以下步骤:S1:对输入的医学文本进行预处理;S2:通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集,并且使用分层三重态损失对longformer模型进行预训练,将结构化的医学领域知识注入到longformer模型中;S3:利用UMLS为每个ICD编码c生成一个对应的编码描述,并将预处理后的医学文本t、编码描述和固定的文本模板拼接在一起,形成一个新的输入序列,并利用训练好的longformer模型对输入序列进行分类,得出ICD编码的分类结果。得出ICD编码的分类结果。得出ICD编码的分类结果。

【技术实现步骤摘要】
基于医学知识注入提示的少样本ICD编码方法和系统


[0001]本专利技术属于医疗数据处理
,特别是涉及基于医学知识注入提示的少样本ICD编码方法和系统。

技术介绍

[0002]多标签文本分类是一种自然语言处理(NLP)中常见的任务,它涉及到为一个实例分配多个类别标签。例如,在学术论文标签、新闻分类、亚马逊产品标签和医疗编码等应用中,都需要对一个实例进行多标签分类。而多标签分类任务比单标签分类任务更难,因为要考虑类别之间的组合和关系。
[0003]在实际应用中,许多类别标签出现频率较低,导致训练数据不足。例如,在国际疾病自动分类(ICD)编码任务中,给定一份出院病历作为输入,需要分配多个与该病历相关联的ICD疾病编码和手术编码作为输出。这些编码对于后续医疗计费非常重要。然而,在MIMIC

III数据集中,共有8692个ICD

9编码,其中4115个(47.3%)代码出现次数少于6次,203个(2.3%)编码从未出现过。由于临床医学对准确性要求很高,医学研究者希望模型能够对低频编码也能做出高精度的预测。然而,由于训练模型的样本数量有限,这就面临了数据稀疏性问题。

技术实现思路

[0004]为了解决现有技术中存在的问题,本专利技术提供了一种基于医学知识注入提示的少样本ICD编码方法,旨在解决低频编码出现率低和数据稀疏性两个问题。
[0005]本专利技术采用以下步骤:步骤S1,对输入的医学文本t进行预处理;步骤S2,通过统一医学语言系统UMLS和国际疾病分类ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集,并且使用分层三重态损失对longformer模型进行预训练,将结构化的医学领域知识注入到longformer模型中;步骤S3,利用UMLS为每个ICD编码c生成一个对应的编码描述,并将预处理后的医学文本t、编码描述和固定的文本模板拼接在一起,形成一个新的输入序列,并利用训练好的longformer模型对输入序列进行分类,得出ICD编码的分类结果。
[0006]进一步的,步骤S1中的预处理包括:删除所有标识标记,将标点符号和非字母数字字符替换为空白,去除多余的空白。
[0007]进一步的,步骤S2的具体实现方式如下;S21,首先通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集;具体地说,对于每个ICD编码c,从医学知识图中获取与之相关联的同义词、缩写、上位概念或下位概念,并根据关联关系划分正负样本,正样本为编码c的缩写或同义词,负样本为编码c的上下级编码、同级编码;S22,构建动态阈值控制的分层三重态损失Triplet Loss损失函数,小批次B的分
层三重态损失可表示为:
[0008]其中是小批次B中的所有三联体,B中三联体的数量,每个三联体包括一个锚点,正样本,负样本,正样本为锚点的缩写或同义词,负样本为锚点的上位概念或下位概念;是一个动态参数,它是根据锚点和负样本之间的文本相似度来计算的;步骤S23,将数据集D输入到longformer模型,在训练过程中,longformer模型不断地调整参数,以最小化损失函数,最终,得到一个训练好的longformer模型,将输入映射到输出空间中,在ICD编码问题中,输出是一个概率分布,表示每个类别的概率。
[0009]进一步的,对于三元组,动态参数计算为:
[0010]其中,锚点和负样本为父子关系表示两样本为同一类中的上下级编码,锚点和负样本为兄弟关系表示两样本为同一类中的同级编码;设定,表示锚点和不同类间的负样本之间距离至少为π,而与锚点属于同一类的负样本将至少是范围内的距离,,是反余弦函数,因此。
[0011]进一步的,将医学文本t、编码描述和固定的文本模板拼接在一起,形成一个新的输入序列:
[0012]代表输入的医学文本,代表编码的类别数,mask为模型完型填空的占位符,代表ICD编码,代表ICD编码描述,“该患者[mask]患有”是固定的文本模板。
[0013]本专利技术还提供一种基于医学知识注入提示的少样本ICD编码系统,包括如下模块:预处理模块,用于对输入的医学文本t进行预处理;模型训练模块,用于通过统一医学语言系统UMLS和国际疾病分类ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集,并且使用分层三重态损失对longformer模型进行预训练,将结构化的医学领域知识注入到longformer模型中;编码模块,用于利用UMLS为每个ICD编码c生成一个对应的编码描述,并将预处理后的医学文本t、编码描述和固定的文本模板拼接在一起,形成一个新的输入序列,并利用训练好的longformer模型对输入序列进行分类,得出ICD编码的分类结果。
[0014]进一步的,预处理模块中的预处理包括:删除所有标识标记,将标点符号和非字母数字字符替换为空白,去除多余的空白。
[0015]进一步的,模型训练模块的具体实现方式如下;S21,首先通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集;具体地说,对于每个ICD编码c,从医学知识图中获取与之相关联的同义词、缩写、上位
概念或下位概念,并根据关联关系划分正负样本,正样本为编码c的缩写或同义词,负样本为编码c的上下级编码、同级编码;S22,构建动态阈值控制的分层三重态损失Triplet Loss损失函数,小批次B的分层三重态损失可表示为:
[0016]其中是小批次B中的所有三联体,B中三联体的数量,每个三联体包括一个锚点,正样本,负样本,正样本为锚点的缩写或同义词,负样本为锚点的上位概念或下位概念;是一个动态参数,它是根据锚点和负样本之间的文本相似度来计算的;步骤S23,将数据集D输入到longformer模型,在训练过程中,longformer模型不断地调整参数,以最小化损失函数,最终,得到一个训练好的longformer模型,将输入映射到输出空间中,在ICD编码问题中,输出是一个概率分布,表示每个类别的概率。
[0017]进一步的,对于三元组,动态参数计算为:
[0018]其中,锚点和负样本为父子关系表示两样本为同一类中的上下级编码,锚点和负样本为兄弟关系表示两样本为同一类中的同级编码;设定,表示锚点和不同类间的负样本之间距离至少为π,而与锚点属于同一类的负样本将至少是范围内的距离,,是反余弦函数,因此。
[0019]进一步的,将医学文本t、编码描述和固定的文本模板拼接在一起,形成一个新的输入序列:
[0020]代表输入的医学文本,代表编码的类别数,mask为模型完型填空的占位符,代表ICD编码,代表ICD编码描述,“该患者[mask]患有”是固定的文本模板。
[0021]与现有技术相比,上述方案的有益效果:预注入知识可以提高预训练模型的知识表示能力,使其能够更好地理解和回答基于知识的问题,预训练可以利用对比学习范式,使得预训练模型能够捕获更多的共性特征,从而提高其在下游任务上的泛化性能。本专利技术方法可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于医学知识注入提示的少样本ICD编码方法,其特征在于,包括以下步骤:步骤S1,对输入的医学文本t进行预处理;步骤S2,通过统一医学语言系统UMLS和国际疾病分类ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集,并且使用分层三重态损失对longformer模型进行预训练,将结构化的医学领域知识注入到longformer模型中;步骤S3,利用UMLS为每个ICD编码c生成一个对应的编码描述,并将预处理后的医学文本t、编码描述和固定的文本模板拼接在一起,形成一个新的输入序列,并利用训练好的longformer模型对输入序列进行分类,得出ICD编码的分类结果。2.根据权利要求1所述的基于医学知识注入提示的少样本ICD编码方法,其特征在于:步骤S1中的预处理包括:删除所有标识标记,将标点符号和非字母数字字符替换为空白,去除多余的空白。3.根据权利要求1所述的基于医学知识注入提示的少样本ICD编码方法,其特征在于:步骤S2的具体实现方式如下;S21,首先通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集;具体地说,对于每个ICD编码c,从医学知识图中获取与之相关联的同义词、缩写、上位概念或下位概念,并根据关联关系划分正负样本,正样本为编码c的缩写或同义词,负样本为编码c的上下级编码、同级编码;S22,构建动态阈值控制的分层三重态损失Triplet Loss损失函数,小批次B的分层三重态损失可表示为:;其中是小批次B中的所有三联体,B中三联体的数量,每个三联体包括一个锚点,正样本,负样本,正样本为锚点的缩写或同义词,负样本为锚点的上位概念或下位概念;是一个动态参数,它是根据锚点和负样本之间的文本相似度来计算的;步骤S23,将数据集D输入到longformer模型,在训练过程中,longformer模型不断地调整参数,以最小化损失函数,最终,得到一个训练好的longformer模型,将输入映射到输出空间中,在ICD编码问题中,输出是一个概率分布,表示每个类别的概率。4.根据权利要求3所述的基于医学知识注入提示的少样本ICD编码方法,其特征在于:对于三元组,动态参数计算为:;其中,锚点和负样本为父子关系表示两样本为同一类中的上下级编码,锚点和负样本为兄弟关系表示两样本为同一类中的同级编码;设定,表示锚点和不同类间的负样本之间距离至少为π,而与锚点属于同一类的负样本将至少是范围内的距离,,是反余弦函数,因此。
5.根据权利要求1所述的基于医学知识注入提示的少样本ICD编码方法,其特征在于:步骤S3中,将医学文本t、编码描述和固定的文本模板拼接在一起,形成一个新的输入序列:;代表输入的医学文本,代表编码的类别数,mask为模型完型填空的占位符,代表ICD编码,代表ICD编码描述,“该患者[mask]患有”是固定的文本模板。6.基于医学知识注入...

【专利技术属性】
技术研发人员:刘军平杨士臣朱强彭涛胡新荣
申请(专利权)人:武汉纺织大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1