当前位置: 首页 > 专利查询>之江实验室专利>正文

基于信息提取的患者病历数据筛选方法、装置和介质制造方法及图纸

技术编号:39318826 阅读:8 留言:0更新日期:2023-11-12 16:00
本发明专利技术涉及基于信息提取的患者病历数据筛选方法、装置和介质,方法包括以下步骤:S1、建立训练数据集;S2、采用S1的训练数据集对大语言模型进行微调,实现对分析模型的训练;S3、将预处理后的实际的病历数据输入训练好的分析模型,模型依次对数据进行信息提取和信息推理,然后重复信息提取和信息推理,直至满足迭代终止条件,此时得到提取结果;S4、获取自然文本描述的筛选条件,训练好的分析模型对筛选条件进行解析,提取关键信息,改写为对应的正则表达式,在S3的提取结果中筛选符合正则表达式的病历信息,以筛选符合条件的患者。与现有技术相比,本发明专利技术具有上下文理解能力强、系统友好度好等优点。好度好等优点。好度好等优点。

【技术实现步骤摘要】
基于信息提取的患者病历数据筛选方法、装置和介质


[0001]本专利技术涉及患者信息筛选的
,尤其是涉及一种基于信息提取的患者病历数据筛选方法、装置和介质。

技术介绍

[0002]临床研究是为了评估新药、新治疗方法或其他医疗干预措施的疗效和安全性而进行的科学研究。在进行临床研究之前,研究人员需要招募符合研究标准的患者,并对其进行筛选,以确保研究的可靠性和有效性。因此,患者筛选是临床研究中非常重要的任务。
[0003]在患者筛选过程中,研究人员需要根据研究的目的和标准,根据患者的病历信息筛选出符合条件的患者。通常,这些标准可以包括年龄、性别、病史、病情严重程度、治疗历史等因素。如果筛选不当,将可能导致研究结果的偏差,影响研究的可靠性和有效性,甚至可能对参与研究的患者造成不必要的伤害。因此,为了确保研究结果的可靠性和有效性,并保障参与研究患者的权益和安全,需要尽可能准确的分析患者病历的信息,对患者信息进行筛选。
[0004]如何快速地从海量电子病历数据中筛选出符合临床研究入排条件的患者是目前临床研究患者筛选过程中的关键问题,这里涉及到信息提取任务,通过将电子病历中蕴含的医疗信息进行提取来对患者进行条件筛选。在患者筛选任务中,常用的信息提取方法包括实体识别、关系提取等。
[0005]现有电子病历数据筛选的方法包括使用通用的电子病历信息提取方法结果用于患者筛选和使用机器学习方法直接对电子病历进行特征分析从而实现自动筛选。
[0006]使用通用的电子病历信息提取方法结果进行筛选时,在信息提取结果基础上通过数据查询工具以“概念”+“约束”的形式进行患者信息筛选,强依赖于信息提取结果,而由于信息提取任务本身只对文本中明确提到的信息进行提取,不会进行推理过程,故这种方法只能针对电子病历中明确写出的内容进行筛选。未明确写出,但语义上已表达出对应内容的,如“体温39度”但未明确写“发热”的内容,由于原文没有“发热”内容,故通用信息提取工具无法从中提取出相应结果,在筛选发热患者队列时,就无法将该患者信息纳入筛选结果,而这样的结果是与预期相悖的。
[0007]使用机器学习方法直接对电子病历进行特征分析从而实现自动筛选的方法,由于电子病历数据通常包含大量的噪声和缺失值,会对机器学习算法的训练和预测产生影响,同时机器学习算法的稳定性和泛化能力可能会受到电子病历数据的异构性和非平衡性等因素的影响,从而导致算法预测结果不稳定或存在偏差。并且由于机器学习算法通常是基于训练数据学习特征之间的关系和模式,并对新的数据进行预测,如果某些特征在训练数据中出现的次数很少,或者在某些样本中不存在,那么机器学习算法可能无法学习到这些特征和目标变量之间的关系,从而导致预测不准确,或遗漏部分患者信息。
[0008]此外,现有技术在进行筛选条件录入时,多要求使用者输入对应的条件,或构建相应的查询表达式,如“(年龄>30) and (症状 包含 发烧+咳嗽) and (无药物过敏史)”之
类,从而实现概念筛选的目的,但患者筛选任务的用户多为医学工作者,对于输入明确的符合系统要求的查询条件或构建查询表达式等操作会增加额外工作量,且可能因为使用不熟练而导致录入错误的筛选条件。
[0009]综上,现有的病历数据筛选方法难以分析不明确的病历信息,同时由于电子病历的异构性,机器学习方法无法在大量的噪声和缺失值的情况下进行良好的筛选,而筛选条件录入时往往需要人为输入复杂的查询表达式,效率低且易出错。

技术实现思路

[0010]本专利技术的目的就是为了克服现有的病历数据筛选方法的无法对不明确信息进行分析,筛选的结果不准确的问题而提供的一种基于信息提取的患者病历数据筛选方法、装置和介质。
[0011]本专利技术的目的可以通过以下技术方案来实现:本专利技术的一方面,提出一种基于信息提取的患者病历数据筛选方法,方法包括以下步骤:S1、建立训练数据集,其中每条数据包括指令、输入和输出三部分,指令为实体提取型指令或关系提取型指令或信息推理型指令,输入为病历原文,输出为与指令对应的实体或关系或推理结果;S2、采用S1的训练数据集对大语言模型进行微调,实现对分析模型的训练;S3、将预处理后的实际的病历数据输入训练好的分析模型,模型依次对数据进行信息提取和信息推理,然后重复信息提取和信息推理,进行迭代提取,直至满足迭代终止条件,此时得到提取结果;S4、获取自然文本描述的筛选条件,训练好的分析模型对筛选条件进行解析,提取关键信息,改写为对应的正则表达式,在S3的提取结果中筛选符合正则表达式的病历信息,以筛选符合条件的患者。
[0012]进一步地,建立训练数据集的过程包括以下步骤:S11、定义实体的类型和实体间关系的类型,对用于训练的病历数据进行预处理,并对预处理后的数据标注,标注具体包括:从病历数据中筛选出属于实体的类型的信息,以及属于实体间关系的类型的信息,将筛选出的信息进行标注,同时,根据标注的信息,标注推理结果,及其对应的来源字段,所述来源字段来自病历数据;S12、定义指令模板、输入模板和输出模板,其中指令模板包括实体提取型指令模板、关系提取型指令模板和信息推理型指令模板;S13、将S11的部分标注后的病历数据填充输入模板,并根据标注后的病历数据中标注的信息确定一条指令,将指令填充到指令模板,将标注的信息中,与指令对应的实体或关系或推理结果和对应的来源字段填充输出模板,填充后得到的三个模板合为一条训练数据,重复S13,直至对于同一部分数据,根据标注后的病历数据无法确定新的指令;S14、对S11的其他标注后的病历数据执行S13,直至遍历所有的标注后的病历数据,得到多条训练数据,训练数据整合得到训练数据集。
[0013]进一步地,信息推理型指令模板包括临床所见指令、疾病风险指令、诊断指令和治
疗建议指令。
[0014]进一步地,信息提取的具体步骤为:建立并执行实体提取型指令和关系提取型指令,输出实体或关系。
[0015]进一步地,信息推理的具体步骤为:根据信息提取输出的实体或关系,构建并执行对应的信息推理型指令,输出推理结果和来源字段;输出推理结果和来源字段前,采用核采样法和温度系数调整法,先使同一信息推理型指令输出不同的多个推理结果,再采用主投票的方式进行选择,通过对多个推理结果进行权重累积,然后选择得到最高权重的结果作为最终输出的推理结果,同时输出最终的推理结果的来源字段。
[0016]进一步地,迭代终止条件为:分析模型无法继续提取出新的实体或关系,同时也无法继续输出新的推理结果。
[0017]进一步地,对分析模型的训练的过程中,对于大语言模型中的一个稠密层中的模型参数采用低秩分解方式进行微调,设调整后的参数为,其中,为初始化的参数,为需要更新的模型参数,为升维矩阵,为降维矩阵,,,且A和B的秩为r, 的秩为m或n,A和B为的低秩矩阵;训练时,首先对矩阵使用随机高斯初始化,对矩阵使用0进行初始化,因此在训练的开始为0,在迭代参数过程中,原始参数被冻结且不接受梯度更新,仅学习低秩参数和B本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信息提取的患者病历数据筛选方法,其特征在于,方法包括以下步骤:S1、建立训练数据集,其中每条数据包括指令、输入和输出三部分,指令为实体提取型指令或关系提取型指令或信息推理型指令,输入为病历原文,输出为与指令对应的实体或关系或推理结果;S2、采用S1的训练数据集对大语言模型进行微调,实现对分析模型的训练;S3、将预处理后的实际的病历数据输入训练好的分析模型,模型依次对数据进行信息提取和信息推理,然后重复信息提取和信息推理,进行迭代提取,直至满足迭代终止条件,此时得到提取结果;S4、获取自然文本描述的筛选条件,训练好的分析模型对筛选条件进行解析,提取关键信息,改写为对应的正则表达式,在S3的提取结果中筛选符合正则表达式的病历信息,以筛选符合条件的患者。2.根据权利要求1所述的一种基于信息提取的患者病历数据筛选方法,其特征在于,建立训练数据集的过程包括以下步骤:S11、定义实体的类型和实体间关系的类型,对用于训练的病历数据进行预处理,并对预处理后的数据标注,标注具体包括:从病历数据中筛选出属于实体的类型的信息,以及属于实体间关系的类型的信息,将筛选出的信息进行标注,同时,根据标注的信息,标注推理结果,及其对应的来源字段,所述来源字段来自病历数据;S12、定义指令模板、输入模板和输出模板,其中指令模板包括实体提取型指令模板、关系提取型指令模板和信息推理型指令模板;S13、将S11的部分标注后的病历数据填充输入模板,并根据标注后的病历数据中标注的信息确定一条指令,将指令填充到指令模板,将标注的信息中,与指令对应的实体或关系或推理结果和对应的来源字段填充输出模板,填充后得到的三个模板合为一条训练数据,重复S13,直至对于同一部分数据,根据标注后的病历数据无法确定新的指令;S14、对S11的其他标注后的病历数据执行S13,直至遍历所有的标注后的病历数据,得到多条训练数据,训练数据整合得到训练数据集。3.根据权利要求2所述的一种基于信息提取的患者病历数据筛选方法,其特征在于,信息推理型指令模板包括临床所见指令、疾病风险指令、诊断指令和治疗建议指令。4.根据权利要求2所述的一种基于信息提取的患者病历数据筛选方法,其特征在于,信息提取的具体步骤为:建立并执行实体提取型指令和关系提取型指令,输出实体或关系。5.根据权利要求4所述的一种基于信息提取的患者病历数据筛选方法,其特征在于,信息推理的具体步骤为:根据信息提取输出的实体或关系,构建并执行对应的信息推理型指令,输出推理结果和来源字段;输出推理结果和来源字段前,采用核采样法和温度系数调整法,先使同一信息推理型指令输出不同的多个推理结果,再采用主投票的方式进行选择,通过对多个推理结果进行权重累积,然后选择得到最高权重的结果作为最终输出的推理结果,同时输出最终的推理结果的来源字段。
6.根据权利要求5所述的一种基于信息提取的患者病历数据筛选方法,其特征在于,迭代终止条件为:分析模型无法继续提取出新的实体或关系,同时也无法继续输出新的推理结果。7.根据权利要求1所述的一种基于信息提取的患者病历数据筛选方法,其特征在于,对分析模型的训练的过程中,对于大语言模型中的一个稠密层中的模型参数采用低秩分解方式进行微调,设调整后的参数为,其中,为初始化的参数,为需要更新的模型参数,为升维矩阵,为降维矩阵,,,且A和B的秩为r, 的秩为m或n,A和B为的低秩矩阵;训练时,首先对矩阵使用随机高斯初始化,对矩阵使用0进行初始化,因此在训练的开始为0,在迭代参数过程中,原始参数被冻结且不接受梯度更新,仅学习低秩参数和B,最终得到调整后的参数,得到训练完成的分析模型。8.根据权利要求1所述的一种基于信息提取的患者病历数据筛选方法,其特征在于,训练好的分析模型对筛选条件进行解析的具体步骤为:将自然语言的筛选条件输入训练好的分析模型,模型建立并执行实体提取型指令和关系提取型指令,输出实体或关系,输出的实体或关系作为关键信息。9.一种基于信息提取的患者病历数据筛选装置,其特征在于,装置包括:训练数据集建立模块(1)、分析模型训练模块(2)、信息提取和信息推理模块(3)、筛选信息模块(4),其中,训练数据集建立模块(1)用于建立训练数据集,其中每条数据包括指令、输入和输出三部分,指令为实体提取型指令或关系提取型指令或信息推理型指令,输入为病历原文...

【专利技术属性】
技术研发人员:李劲松史黎鑫汪洋包飞飞周天舒田雨
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1