基于医学知识注入提示的少样本ICD编码方法和系统技术方案

技术编号：37812382 阅读：13 留言：0更新日期：2023-06-09 09:42

本发明专利技术涉及一种基于医学知识注入提示的少样本ICD编码方法和系统，该方法能够根据输入的医学文本生成最佳的ICD编码，提高了医学文本和ICD编码之间的匹配准确性。该方法包括以下步骤：S1：对输入的医学文本进行预处理；S2：通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集，并且使用分层三重态损失对longformer模型进行预训练，将结构化的医学领域知识注入到longformer模型中；S3：利用UMLS为每个ICD编码c生成一个对应的编码描述，并将预处理后的医学文本t、编码描述和固定的文本模板拼接在一起，形成一个新的输入序列，并利用训练好的longformer模型对输入序列进行分类，得出ICD编码的分类结果。得出ICD编码的分类结果。得出ICD编码的分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于医学知识注入提示的少样本ICD编码方法和系统

[0001]本专利技术属于医疗数据处理
，特别是涉及基于医学知识注入提示的少样本ICD编码方法和系统。

技术介绍

[0002]多标签文本分类是一种自然语言处理(NLP)中常见的任务，它涉及到为一个实例分配多个类别标签。例如，在学术论文标签、新闻分类、亚马逊产品标签和医疗编码等应用中，都需要对一个实例进行多标签分类。而多标签分类任务比单标签分类任务更难，因为要考虑类别之间的组合和关系。
[0003]在实际应用中，许多类别标签出现频率较低，导致训练数据不足。例如，在国际疾病自动分类(ICD)编码任务中，给定一份出院病历作为输入，需要分配多个与该病历相关联的ICD疾病编码和手术编码作为输出。这些编码对于后续医疗计费非常重要。然而，在MIMIC
‑
III数据集中，共有8692个ICD
‑
9编码，其中4115个(47.3%)代码出现次数少于6次，203个(2.3%)编码从未出现过。由于临床医学对准确性要求很高，医学研究者希望模型能够对低频编码也能做出高精度的预测。然而，由于训练模型的样本数量有限，这就面临了数据稀疏性问题。

技术实现思路

[0004]为了解决现有技术中存在的问题，本专利技术提供了一种基于医学知识注入提示的少样本ICD编码方法，旨在解决低频编码出现率低和数据稀疏性两个问题。
[0005]本专利技术采用以下步骤：步骤S1，对输入的医学文本t进行预处理；步骤S2，通过统一医学语言系统UMLS和国...

【技术保护点】

【技术特征摘要】
1.基于医学知识注入提示的少样本ICD编码方法，其特征在于，包括以下步骤：步骤S1，对输入的医学文本t进行预处理；步骤S2，通过统一医学语言系统UMLS和国际疾病分类ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集，并且使用分层三重态损失对longformer模型进行预训练，将结构化的医学领域知识注入到longformer模型中；步骤S3，利用UMLS为每个ICD编码c生成一个对应的编码描述，并将预处理后的医学文本t、编码描述和固定的文本模板拼接在一起，形成一个新的输入序列，并利用训练好的longformer模型对输入序列进行分类，得出ICD编码的分类结果。2.根据权利要求1所述的基于医学知识注入提示的少样本ICD编码方法，其特征在于：步骤S1中的预处理包括：删除所有标识标记，将标点符号和非字母数字字符替换为空白，去除多余的空白。3.根据权利要求1所述的基于医学知识注入提示的少样本ICD编码方法，其特征在于：步骤S2的具体实现方式如下；S21，首先通过UMLS和ICD本体的医学知识图中的同义词、缩写、层次结构构建数据集；具体地说，对于每个ICD编码c，从医学知识图中获取与之相关联的同义词、缩写、上位概念或下位概念，并根据关联关系划分正负样本，正样本为编码c的缩写或同义词，负样本为编码c的上下级编码、同级编码；S22，构建动态阈值控制的分层三重态损失Triplet Loss损失函数，小批次B的分层三重态损失可表示为：；其中是小批次B中的所有三联体，B中三联体的数量，每个三联体包括一个锚点，正样本，负样本，正样本为锚点的缩写或同义词，负样本为锚点的上位概念或下位概念；是一个动态参数，它是根据锚点和负样本之间的文本相似度来计算的；步骤S23，将数据集D输入到longformer模型，在训练过程中，longformer模型不断地调整参数，以最小化损失函数，最终，得到一个训练好的longformer模型，将输入映射到输出空间中，在ICD编码问题中，输出是一个概率分布，表示每个类别的概率。4.根据权利要求3所述的基于医学知识注入提示的少样本ICD编码方法，其特征在于：对于三元组，动态参数计算为：；其中，锚点和负样本为父子关系表示两样本为同一类中的上下级编码，锚点和负样本为兄弟关系表示两样本为同一类中的同级编码；设定，表示锚点和不同类间的负样本之间距离至少为π，而与锚点属于同一类的负样本将至少是范围内的距离，，是反余弦函数，因此。
5.根据权利要求1所述的基于医学知识注入提示的少样本ICD编码方法，其特征在于：步骤S3中，将医学文本t、编码描述和固定的文本模板拼接在一起，形成一个新的输入序列：；代表输入的医学文本，代表编码的类别数，mask为模型完型填空的占位符，代表ICD编码，代表ICD编码描述，“该患者[mask]患有”是固定的文本模板。6.基于医学知识注入...

【专利技术属性】
技术研发人员：刘军平，杨士臣，朱强，彭涛，胡新荣，
申请(专利权)人：武汉纺织大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人