基于信息提取的患者病历数据筛选方法、装置和介质制造方法及图纸

技术编号：39318826 阅读：8 留言：0更新日期：2023-11-12 16:00

本发明专利技术涉及基于信息提取的患者病历数据筛选方法、装置和介质，方法包括以下步骤：S1、建立训练数据集；S2、采用S1的训练数据集对大语言模型进行微调，实现对分析模型的训练；S3、将预处理后的实际的病历数据输入训练好的分析模型，模型依次对数据进行信息提取和信息推理，然后重复信息提取和信息推理，直至满足迭代终止条件，此时得到提取结果；S4、获取自然文本描述的筛选条件，训练好的分析模型对筛选条件进行解析，提取关键信息，改写为对应的正则表达式，在S3的提取结果中筛选符合正则表达式的病历信息，以筛选符合条件的患者。与现有技术相比，本发明专利技术具有上下文理解能力强、系统友好度好等优点。好度好等优点。好度好等优点。

全部详细技术资料下载

【技术实现步骤摘要】
基于信息提取的患者病历数据筛选方法、装置和介质

[0001]本专利技术涉及患者信息筛选的
，尤其是涉及一种基于信息提取的患者病历数据筛选方法、装置和介质。

技术介绍

[0002]临床研究是为了评估新药、新治疗方法或其他医疗干预措施的疗效和安全性而进行的科学研究。在进行临床研究之前，研究人员需要招募符合研究标准的患者，并对其进行筛选，以确保研究的可靠性和有效性。因此，患者筛选是临床研究中非常重要的任务。
[0003]在患者筛选过程中，研究人员需要根据研究的目的和标准，根据患者的病历信息筛选出符合条件的患者。通常，这些标准可以包括年龄、性别、病史、病情严重程度、治疗历史等因素。如果筛选不当，将可能导致研究结果的偏差，影响研究的可靠性和有效性，甚至可能对参与研究的患者造成不必要的伤害。因此，为了确保研究结果的可靠性和有效性，并保障参与研究患者的权益和安全，需要尽可能准确的分析患者病历的信息，对患者信息进行筛选。
[0004]如何快速地从海量电子病历数据中筛选出符合临床研究入排条件的患者是目前临床研究患者筛选过程中的关键问题，这里涉及到信息提取任务，通过将电子病历中蕴含的医疗信息进行提取来对患者进行条件筛选。在患者筛选任务中，常用的信息提取方法包括实体识别、关系提取等。
[0005]现有电子病历数据筛选的方法包括使用通用的电子病历信息提取方法结果用于患者筛选和使用机器学习方法直接对电子病历进行特征分析从而实现自动筛选。
[0006]使用通用的电子病历信息提取方法结果进行筛选时，在信息提取...

【技术保护点】

【技术特征摘要】
1.一种基于信息提取的患者病历数据筛选方法，其特征在于，方法包括以下步骤：S1、建立训练数据集，其中每条数据包括指令、输入和输出三部分，指令为实体提取型指令或关系提取型指令或信息推理型指令，输入为病历原文，输出为与指令对应的实体或关系或推理结果；S2、采用S1的训练数据集对大语言模型进行微调，实现对分析模型的训练；S3、将预处理后的实际的病历数据输入训练好的分析模型，模型依次对数据进行信息提取和信息推理，然后重复信息提取和信息推理，进行迭代提取，直至满足迭代终止条件，此时得到提取结果；S4、获取自然文本描述的筛选条件，训练好的分析模型对筛选条件进行解析，提取关键信息，改写为对应的正则表达式，在S3的提取结果中筛选符合正则表达式的病历信息，以筛选符合条件的患者。2.根据权利要求1所述的一种基于信息提取的患者病历数据筛选方法，其特征在于，建立训练数据集的过程包括以下步骤：S11、定义实体的类型和实体间关系的类型，对用于训练的病历数据进行预处理，并对预处理后的数据标注，标注具体包括：从病历数据中筛选出属于实体的类型的信息，以及属于实体间关系的类型的信息，将筛选出的信息进行标注，同时，根据标注的信息，标注推理结果，及其对应的来源字段，所述来源字段来自病历数据；S12、定义指令模板、输入模板和输出模板，其中指令模板包括实体提取型指令模板、关系提取型指令模板和信息推理型指令模板；S13、将S11的部分标注后的病历数据填充输入模板，并根据标注后的病历数据中标注的信息确定一条指令，将指令填充到指令模板，将标注的信息中，与指令对应的实体或关系或推理结果和对应的来源字段填充输出模板，填充后得到的三个模板合为一条训练数据，重复S13，直至对于同一部分数据，根据标注后的病历数据无法确定新的指令；S14、对S11的其他标注后的病历数据执行S13，直至遍历所有的标注后的病历数据，得到多条训练数据，训练数据整合得到训练数据集。3.根据权利要求2所述的一种基于信息提取的患者病历数据筛选方法，其特征在于，信息推理型指令模板包括临床所见指令、疾病风险指令、诊断指令和治疗建议指令。4.根据权利要求2所述的一种基于信息提取的患者病历数据筛选方法，其特征在于，信息提取的具体步骤为：建立并执行实体提取型指令和关系提取型指令，输出实体或关系。5.根据权利要求4所述的一种基于信息提取的患者病历数据筛选方法，其特征在于，信息推理的具体步骤为：根据信息提取输出的实体或关系，构建并执行对应的信息推理型指令，输出推理结果和来源字段；输出推理结果和来源字段前，采用核采样法和温度系数调整法，先使同一信息推理型指令输出不同的多个推理结果，再采用主投票的方式进行选择，通过对多个推理结果进行权重累积，然后选择得到最高权重的结果作为最终输出的推理结果，同时输出最终的推理结果的来源字段。
6.根据权利要求5所述的一种基于信息提取的患者病历数据筛选方法，其特征在于，迭代终止条件为：分析模型无法继续提取出新的实体或关系，同时也无法继续输出新的推理结果。7.根据权利要求1所述的一种基于信息提取的患者病历数据筛选方法，其特征在于，对分析模型的训练的过程中，对于大语言模型中的一个稠密层中的模型参数采用低秩分解方式进行微调，设调整后的参数为，其中，为初始化的参数，为需要更新的模型参数，为升维矩阵，为降维矩阵，，，且A和B的秩为r，的秩为m或n，A和B为的低秩矩阵；训练时，首先对矩阵使用随机高斯初始化，对矩阵使用0进行初始化，因此在训练的开始为0，在迭代参数过程中，原始参数被冻结且不接受梯度更新，仅学习低秩参数和B，最终得到调整后的参数，得到训练完成的分析模型。8.根据权利要求1所述的一种基于信息提取的患者病历数据筛选方法，其特征在于，训练好的分析模型对筛选条件进行解析的具体步骤为：将自然语言的筛选条件输入训练好的分析模型，模型建立并执行实体提取型指令和关系提取型指令，输出实体或关系，输出的实体或关系作为关键信息。9.一种基于信息提取的患者病历数据筛选装置，其特征在于，装置包括：训练数据集建立模块（1）、分析模型训练模块（2）、信息提取和信息推理模块（3）、筛选信息模块（4），其中，训练数据集建立模块（1）用于建立训练数据集，其中每条数据包括指令、输入和输出三部分，指令为实体提取型指令或关系提取型指令或信息推理型指令，输入为病历原文...

【专利技术属性】
技术研发人员：李劲松，史黎鑫，汪洋，包飞飞，周天舒，田雨，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人