【技术实现步骤摘要】
一种入院记录缺失文本补充方法
[0001]本专利技术涉及自然语言处理
,具体涉及一种入院记录缺失文本补充方法。
技术介绍
[0002]电子病历的应用,为医生书写病历节省了大量的宝贵时间,同时医生在入院记录的书写过程会因为打字错误或者套用电子病历模板而引起一些病历出现缺失文本的情况,导致一些重要的指标没有在电子病历中呈现。这些缺失文本的存在会导致入院记录的书写质量低下,甚至引发一些医患纠纷。由于医院中每天产生数以千计的入院记录,医生除了书写入院记录之外还有大量的工作,所以没有大量的时间对书写的入院记录进行一遍一遍的查看修改。利用人工智能技术对入院记录中存在的缺失文本的位置自动检测和自动补充是提高入院记录书写质量和减轻医生修改入院记录负担的最有效的途径之一。
[0003]基于有监督学习的方式,需要人工对入院记录出现的缺失文本的位置进行标注,然而医学领域文本数据的标注对标注人员的素质要求较高,这就会导致时间和人力成本较高昂。在通用领域常常会BERT模型检测缺失字的位置,然后通过对缺失字的位置设置mask标签来对相应位置的缺失字的进行填充。但是入院记录作为医院中的大病历,要求覆盖内容比较全面,因此入院记录的文本长度较长,存在大量大于1000字的单段文本。而BERT模型适用的文本长度不能超过512字,Transformer模型随着文本的长度增长计算量指数级增大。使用文本槽填充的方式需要对缺失字的位置添加占位符,这需要提前获取到缺失字的字数,按照字数创建相关数量的占位符来对文本进行填充,这对于缺失单字的文本填充效果 ...
【技术保护点】
【技术特征摘要】
1.一种入院记录缺失文本补充方法,其特征在于,包括如下步骤:a)建立入院记录文本数据集;b)对入院记录文本数据集进行数据预处理操作,利用预处理后的入院记录文本数据集构建入院记录缺失文本位置识别训练样本,根据入院记录缺失文本位置识别训练样本构建缺失文本补充模型训练样本;c)利用缺失文本位置识别训练样本训练基于Longformer缺失文本位置识别模型,得到入院记录缺失文本位置识别训练样本中文本的标签序列,通过损失函数训练缺失文本位置识别模型,得到训练后的缺失文本位置识别模型;d)建立缺失文本补充模型;e)计算损失函数,利用损失函数训练缺失文本补充模型;得到训练后的缺失文本补充模型;f)接收输入入院记录数据,对该入院记录数据进行预处理操作;g)将预处理后的入院记录数据输入到训练后的缺失文本位置识别模型中,输出入院记录数据的文本标签序列;h)将预处理后的入院记录数据和入院记录数据的文本标签序列输入到训练后的缺失文本补充模型中,输出得到g个补充的缺失文本序列。2.根据权利要求1所述的入院记录缺失文本补充方法,其特征在于,步骤a)中入院记录文本数据集包括:医院各个科室产生的入院记录文本,所述入院记录文本的内容包括:主诉、现病史、个人史、既往史、婚姻史、体格检查、辅助检查、初步诊断。3.根据权利要求1所述的入院记录缺失文本补充方法,其特征在于,步骤b)包括如下步骤:b
‑
1)以入院记录文本数据集中的段落为单位构建样本,对样本中前后的空格进行删除,对样本中连续的多个空格替换成单一空格,完成入院记录文本数据集的预处理操作;b
‑
2)预处理后的入院记录文本数据集中的入院记录缺失文本类型包括:因打字原因造成单个字词或标点的缺失、因引用病历模板造成描述性语言的缺失、因病历模板中缺乏要点造成的要点的缺失,对于因打字原因造成单个字词或标点的缺失采用随机删除的方式对预处理后的入院记录文本数据集中的单个字词或者标点符号进行删除,然后对预处理后的入院记录文本数据集中的文本序列构建标签,如果文字的前一个位置或后一个位置存在缺失文本,则该文字的标签为1,如果文字的前一个位置或后一个位置不存在缺失文本,则该文字的标签为0,对于因引用模板造成描述性语言的缺失根据病历模板中的指标名称随机将指标中的描述语句删除,删除后对预处理后的入院记录文本数据集中的文本序列构建标签,如果文字的前一个位置或后一个位置存在缺失文本,则该文字的标签为1,如果文字的前一个位置或后一个位置不存在缺失文本,则该文字的标签为0,对于因病历模板中缺乏要点造成的要点的缺失随机删除掉两个语义分隔符中的文本内容,删除后对预处理后的入院记录文本数据集中的文本序列构建标签,如果文字的前一个位置或后一个位置存在缺失文本,则该文字的标签为1,如果文字的前一个位置或后一个位置不存在缺失文本,则该文字的标签为0,完成入院记录缺失文本位置识别训练样本的建立;b
‑
3)步骤b
‑
2)中删除的预处理后的入院记录文本数据集中的单个字词或者标点符号、随机删除的指标中的描述语句、随机删除的两个语义分隔符中的文本内容中共包含j个由
字和标点构成的字符,将所有删除的j个字符构成目标序列文本,将删除后的文本、文字标签以及目标序列文本组成缺失文本补充模型训练样本。4.根据权利要求3所述的入院记录缺失文本补充方法,其特征在于:步骤b
‑
2)中的语义分隔符为句号或逗号。5.根据权利要求1所述的入院记录缺失文本补充方法,其特征在于,步骤c)包括如下步骤:c
‑
1)利用字嵌入法将入院记录缺失文本位置识别训练样本中每一个字映射成一个n维的实数向量,利用m
×
n的矩阵表示输入的样本,m为入院记录缺失文本位置识别训练样本中字的个数;c
‑
2)将m
×
n的矩阵输入到Longformer模型中,输出得到状态s,通过公式计算得到输入的样本中每个字作为正样本的概率值P,式中e为自然常数,W为权重矩阵,b为偏置向量,P={p1,p2,...,p
i
,...,p
m
},p
i
为第i个字的预测为正样本的概率值,i∈{1,2,...,m};c
‑
3)通过公式计算得到入院记录缺失文本位置识别训练样本中第i个字的标签E
i
,α为...
【专利技术属性】
技术研发人员:张伯政,寇燕明,张述睿,吴军,高希余,
申请(专利权)人:众阳健康科技集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。