医疗影像诊断报告实体提取方法、装置及设备制造方法及图纸

技术编号:31792228 阅读:20 留言:0更新日期:2022-01-08 10:51
本说明书实施例公开了一种医疗影像诊断报告实体提取方法、装置及设备,所述方法将医疗影像诊断报告中的非结构化文本利用离线训练的命名实体识别模型,可以得到能够表征医疗影像诊断报告文本中各个实体的标签。命名实体识别模型使用了郑码编码作为汉字特征,提升了医疗影像诊断报告中文本的特征表示的准确性,进而提升了医疗影像诊断报告的实体提取结果的准确性。并且,通过对命名实体识别模型输出的带标签的文本进行影像诊断报告复杂实体后处理,获得医疗影像诊断报告的实体提取结果,使提升了医疗影像诊断报告实体提取结果的统一性和准确性。一性和准确性。一性和准确性。

【技术实现步骤摘要】
医疗影像诊断报告实体提取方法、装置及设备


[0001]本说明书属于计算机
,尤其涉及一种医疗影像诊断报告实体提取方法、装置及设备。

技术介绍

[0002]在医疗领域中,近年来,随着科技的不断发展,医学影像学得到了快速发展,影像检查对于疾病的发现与定位有着越来越重要的价值,能为临床对疾病的诊断和治疗方案的选择提供准确的依据。医学影像作为辅助诊断疾病最有效的手段之一每年会产生大量的图像和诊断文本数据,应用人工智能和数据挖掘技术分析医学影像数据也是一大热点问题。以往医生对疾病的预防和诊断都来自经验,但以往的经验不一定完全正确,在某种程度上这也不利于医学的发展和研究,如果能从大量的诊断数据中得出一些规则,挖掘出一些隐含的信息,辅以医生的经验,一方面对于疾病的预防和诊断有很高的参考价值,另一方面也能充分地将医疗大数据技术应用到临床实际中,从一定程度上促进医学研究的发展。
[0003]目前,基本上所有的医疗影像诊断数据都是非结构化的,从大量非结构化数据中准确识别提取相关有用实体对后续的诊断数据挖掘分析工作十分重要。一般的,医疗影像诊断报告实体提取的关键步骤是进行文本识别,命名文本识别是自然语言处理中一个的基础且重要的问题,传统的基于规则的命名文本识别方法往往需要词表、词汇和领域知识,通过较为简单的匹配的方式进行。这种方法对于复杂文本和新词缺乏发现能力,并且往往需要领域专家帮忙维护知识库,准确性可能会比较低。
[0004]因此,如何提供一种方案能够准确提取医疗影像诊断报告是本领域亟需解决的技术问题。

技术实现思路

[0005]本说明书实施例的目的在于提供一种医疗影像诊断报告实体提取方法、装置及设备,提高了医疗影像诊断报告实体提取的准确性。
[0006]一方面,本说明书实施例提供了一种医疗影像诊断报告实体提取方法,所述方法包括:
[0007]获取待处理医疗影像诊断报告中的非结构化文本;
[0008]将所述非结构化文本输入到命名实体识别模型中,利用所述命名实体识别模型获得所述非结构化文本中各个字词对应的标签;其中,所述命名实体识别模型采用郑码编码技术提取文本特征进行模型训练获得;
[0009]根据所述非结构化文本中各个字词对应的标签,从带标签的非结构化文本中提取出实体文本,并基于所述实体文本获得所述待处理医疗影像诊断报告的实体提取结果。
[0010]进一步地,所述命名实体识别模型的训练方法包括:
[0011]使用郑码编码技术提取已标记的训练文本样本中的字特征和词特征,获得已标记的训练文本样本的郑码编码特征向量;
[0012]对未标记的训练文本样本使用双向编码语言预训练模型对未标记的训练文本样本进行训练,获得未标记的训练文本样本的增强特征向量;
[0013]将所述郑码编码特征向量和所述增强特征向量进行拼接,获得合并特征向量;
[0014]利用所述合并特征向量进行模型训练得到所述命名实体识别模型。
[0015]进一步地,所述使用郑码编码技术提取已标记的训练文本样本中的字特征和词特征,包括:
[0016]获取中文的郑码编码表,所述郑码编码表包括字的郑码编码和词的郑码编码;
[0017]根据所述郑码编码表和所述已标记的训练文本样本构建医疗影像诊断的频繁字词典,所述频繁字词典包括出现频率大于预设阈值的频繁字词、所述频繁字词的词根以及所述频繁字词对应的标注位置;
[0018]根据所述频繁字词典和预先配置的不同标注位置对应的权重,将所述已标记的训练文本样本中的各个字、词的郑码编码转换为对应的特征向量,获得所述已标记的训练文本样本的郑码编码特征向量。
[0019]进一步地,所述频繁字词包括与疾病或部位相关联的字或词语。
[0020]进一步地,所述根据所述非结构化文本中各个字词对应的标签,从带标签的非结构化文本中提取出实体文本,并基于所述实体文本获得所述待处理医疗影像诊断报告的实体提取结果,包括:
[0021]根据所述带标签的非结构化文本中各个字词对应的标注标签,将所述非结构化文本中的无用字词删除,获得剩余文本;其中,所述标注标签用于表征字词在实体中的位置和作用;
[0022]根据所述剩余文本中各个字词对应的属性标签,提取出所述非结构化文本中的疾病实体和所述部位实体;
[0023]将所述疾病实体和所述部位实体进行组合,获得所述待处理医疗影像诊断报告的实体提取结果。
[0024]进一步地,所述将所述疾病实体和所述部位实体进行组合,获得所述待处理医疗影像诊断报告的实体提取结果,包括:
[0025]若提取出的部位实体为一个,则将所述部位实体和所述疾病实体直接组合,获得所述待处理医疗影像诊断报告的实体提取结果。
[0026]进一步地,所述将所述疾病实体和所述部位实体进行组合,获得所述待处理医疗影像诊断报告的实体提取结果,包括:
[0027]若提取出的部位实体为多个,则将各个所述部位实体分别与所述疾病实体进行组合,获得所述待处理医疗影像诊断报告的实体提取结果。
[0028]进一步地,所述获取待处理医疗影像诊断报告中的非结构化文本,包括:
[0029]将所述待处理医疗影像诊断报告转换为指定格式,获得所述待处理医疗影像诊断报告的指定格式文本;
[0030]提取所述指定格式文本中的影像所见和影像诊断,获得所述待处理医疗影像诊断报告中的非结构化文本。
[0031]另一方面,本说明书提供了一种医疗影像诊断报告实体提取装置,所述装置包括:
[0032]所述装置包括:
[0033]文本获取模块,用于获取待处理医疗影像诊断报告中的非结构化文本;
[0034]标签生成模块,用于将所述非结构化文本输入到命名实体识别模型中,利用所述命名实体识别模型获得所述非结构化文本中各个字词对应的标签;其中,所述命名实体识别模型采用郑码编码技术提取文本特征进行模型训练获得;
[0035]识别处理模块,用于根据所述非结构化文本中各个字词对应的标签,从带标签的非结构化文本中提取出实体文本,并基于所述实体文本获得所述待处理医疗影像诊断报告的实体提取结果。
[0036]再一方面,本说明书实施例提供了一种医疗影像诊断报告实体提取设备,应用于服务器,设备包括至少一个处理器及用于存储处理器可执行指令的存储器,指令被处理器执行时实现包括上述医疗影像诊断报告实体提取方法。
[0037]本说明书提供的医疗影像诊断报告实体提取方法、装置及设备,将医疗影像诊断报告中的非结构化文本利用离线训练的命名实体识别模型,可以得到能够表征医疗影像诊断报告文本中各个实体的标签。命名实体识别模型使用了郑码编码作为汉字特征,提升了医疗影像诊断报告中文本的特征表示的准确性,进而提升了医疗影像诊断报告的实体提取结果的准确性。并且,通过对命名实体识别模型输出的带标签的文本进行影像诊断报告复杂实体后处理,获得医疗影像诊断报告的实体提取结果,使提升了医疗影像诊断报告实体提取结果的统一性和准确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗影像诊断报告实体提取方法,其特征在于,所述方法包括:获取待处理医疗影像诊断报告中的非结构化文本;将所述非结构化文本输入到命名实体识别模型中,利用所述命名实体识别模型获得所述非结构化文本中各个字词对应的标签;其中,所述命名实体识别模型采用郑码编码技术提取文本特征进行模型训练获得;根据所述非结构化文本中各个字词对应的标签,从带标签的非结构化文本中提取出实体文本,并基于所述实体文本获得所述待处理医疗影像诊断报告的实体提取结果。2.如权利要求1所述的方法,其特征在于,所述命名实体识别模型的训练方法包括:使用郑码编码技术提取已标记的训练文本样本中的字特征和词特征,获得已标记的训练文本样本的郑码编码特征向量;对未标记的训练文本样本使用双向编码语言预训练模型对未标记的训练文本样本进行训练,获得未标记的训练文本样本的增强特征向量;将所述郑码编码特征向量和所述增强特征向量进行拼接,获得合并特征向量;利用所述合并特征向量进行模型训练得到所述命名实体识别模型。3.如权利要求2所述的方法,其特征在于,所述使用郑码编码技术提取已标记的训练文本样本中的字特征和词特征,包括:获取中文的郑码编码表,所述郑码编码表包括字的郑码编码和词的郑码编码;根据所述郑码编码表和所述已标记的训练文本样本构建医疗影像诊断的频繁字词典,所述频繁字词典包括出现频率大于预设阈值的频繁字词、所述频繁字词的词根以及所述频繁字词对应的标注位置;根据所述频繁字词典和预先配置的不同标注位置对应的权重,将所述已标记的训练文本样本中的各个字、词的郑码编码转换为对应的特征向量,获得所述已标记的训练文本样本的郑码编码特征向量。4.如权利要求3所述的方法,其特征在于,所述频繁字词包括与疾病或部位相关联的字或词语。5.如权利要求1所述的方法,其特征在于,所述根据所述非结构化文本中各个字词对应的标签,从带标签的非结构化文本中提取出实体文本,并基于所述实体文本获得所述待处理医疗影像诊断报告的实体提取结果,包括:根据所述带标签的非结构化文本中各个字词对应的标注标签,将所述非结构化文本中的无用字...

【专利技术属性】
技术研发人员:王红熳敖文喆杨放春
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1