System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于医疗字典知识增强的中文电子病历命名实体识别方法技术_技高网
当前位置: 首页 > 专利查询>鲁东大学专利>正文

基于医疗字典知识增强的中文电子病历命名实体识别方法技术

技术编号:42747023 阅读:1 留言:0更新日期:2024-09-18 13:38
本发明专利技术公开了基于医疗字典知识增强的中文电子病历命名实体识别方法,首先收集中文电子病历医疗文本数据,并构造医疗字典,应用预训练语言模型RoBERTa‑wwm‑ext‑large对中文电子病历文本数据进行特征提取;然后将特征向量输入BiLSTM模型,学习医疗文本的上下文语义,同时查询医疗字典,设计掩码注意力机制,计算与字典中医疗概念相匹配的token的局部注意力权重,得到包含电子病历上下文信息的综合语义特征;最后利用全局指针网络模型GP同时考虑实体的头部和尾部的特征信息来预测嵌套实体,有效地解决中文电子病历命名实体识别任务中实体边界模糊和实体嵌套难以处理的问题。

【技术实现步骤摘要】

本专利技术属于人工智能中自然语言处理,具体涉及基于医疗字典知识增强的中文电子病历命名实体识别方法


技术介绍

1、近年来随着人工智能及大数据技术的快速发展,电子病历(electronic medicalrecords,emr)在医疗领域得到广泛应用。电子病历数据是生物医学研究中最主要的经验数据来源,包含了重要的医疗信息,例如临床症状、诊断结果、治疗方案等,可以作为医学知识宝库,广泛应用于医疗知识图谱构建、医疗问答系统、疾病预测和医学研究。电子病历命名实体识别是从电子病历中自动化地识别和抽取疾病名、症状、诊疗、用药等医学实体信息,是自然语言处理、信息抽取的基本任务。

2、目前,已存在针对电子病历命名实体识别的大量研究,但中文病历命名实体识别任务存在文本序列长、医疗实体嵌套、实体边界模糊等问题,导致该领域仍存在一些挑战和难点。为了解决上述问题,本专利技术提出了医疗字典知识增强的中文电子病历命名实体识别方法,在roberta-wwm-ext-large预训练模型的基础上,融合了中文医学字典和attention机制,结合bilstm和gp(全局指针)识别并抽取电子病历实体,提高了嵌套实体识别效果,取得较高的性能。

3、早期的命名实体识别方法可以总结为基于规则的方法和基于特征工程的机器学习方法,这些方法严重依赖于领域专家人工制定规则和特征工程,代价较大且效率低。近年来,随着深度学习技术和预训练语言模型的发展,研究者们提出了许多基于深度学习技术的电子病历命名实体识别方法。现有技术中提出了基于医疗字典的注意力网络,设计了bert+bilstm+attention+crf模型,增强了模型的医疗术语分词与识别能力,但忽略了中文电子病历实体嵌套问题,因此模型的泛化性较低。现有技术中将命名识别问题建模为机器阅读理解问题,并应用多粒度嵌入表征医疗文本。现有技术中提出应用细粒度医疗文本分词并建立bilstm+crf识别模型提高实体识别的性能,但算法在解决实体边界模糊问题上存在明显的缺陷。随着预训练语言模型的发展,现有技术中应用医疗领域知识训练模型med-bert,在一定程度上提升了识别性能,但这类预训练模型无法解决中文电子病历中广泛存在的实体嵌套问题。现有技术中应用图注意力网络gat针对中文医疗文本进行建模。随着chatgpt等生成式大模型技术的逐步成熟,研究人员开始尝试大模型在医疗领域的应用。无论是预训练语言模型,还是chatgpt等大模型,在医疗健康领域的应用仍处于探索阶段。

4、目前,已存在针对电子病历命名实体识别的大量研究,但中文病历命名实体识别任务存在文本序列长、医疗实体嵌套、实体边界模糊等问题,导致该领域仍存在一些挑战和难点。


技术实现思路

1、针对现有技术中的上述不足,本专利技术提供的基于医疗字典知识增强的中文电子病历命名实体识别方法解决了现有相关中文电子病历命名实体识别方法中存在的实体边界模糊以及医疗实体嵌套的问题。

2、为了达到上述专利技术目的,本专利技术采用的技术方案为:基于医疗字典知识增强的中文电子病历命名实体识别方法,包括以下步骤:

3、s1、收集中文电子病历文本数据,并构造医疗字典:

4、s2、将医疗字典中的医疗概念引入分词器ltp中,对中文电子病历文本数据进行分词,并输入预训练语言模型roberta-wwm-ext-large进行特征提取,获得对应的医疗词嵌入;

5、s3、针对中文电子病历文本数据中的每一个词,在医疗字典中查询该词的医疗概念嵌入,并将其与该词的医疗词嵌入按位相加,得到最终的词嵌入;

6、s4、通过bilstm模型捕获中文电子病历文本数据中每个词的上下文语义,同时查询医疗字典生成掩码注意力向量,进而计算与医疗字典中医疗概念相匹配的注意力权重,得到该词的综合语义特征表示;

7、s5、将综合语义特征表示输入到全局指针网络中,计算命名实体得分,得到命名实体类别。

8、进一步地,所述步骤s1中,所述医疗字典中的数据包括医疗实体名和中文电子病历中的医疗概念名。

9、进一步地,所述步骤s2中,所述预训练语言模型roberta-wwm-ext-large为基于中文电子病历文本数据进行微调后的模型。

10、进一步地,所述步骤s3中,所述医疗概念嵌入为中文电子病历文本数据中每个词所属的同一医疗概念中所有医疗词嵌入的均值。

11、进一步地,所述步骤s4具体为:

12、s41、通过bilstm模型捕获中文电子病历文本数据中每个词的上下文语义,形成医疗文本中各词的特征表示;

13、s42、查询医疗字典,匹配文本中各词的医疗概念,生成掩码注意力向量;

14、s43、基于掩码注意力向量,计算各词的注意力权重;

15、s44、基于各词的注意力权重,计算对应的嵌入表示,进而融合形成综合语义特征。

16、进一步地,所述步骤s42,在生成的掩码注意力向量中,出现在医疗字典中的词所在位置的掩码为1,其余词所在位置的掩码为0。

17、进一步地,所述步骤s43中,计算文本中各词的注意力权重的公式为:

18、

19、式中,表示掩码运算后得到的嵌入表示,oi和oj表示bilstm模型输出的第i个和第j个词的嵌入表示,tj表示oj对应的掩码注意力向量,表示掩码运算,wu表示模型中可以学习的参数,[;]表示连接操作,αi表示oj相对于oi的注意力权重,tanh()表示双曲正切函数,是一种非线性激活函数,ui和uj分别表示第i个和第j个医疗词嵌入经过非线性变换后的嵌入表示,uik表示第i个词所在医疗概念中第k个词的uk,n为第i个词所在医疗概念中词的个数。

20、进一步地,所述步骤s44中,词的嵌入表示ei的计算公式为:

21、ei=tanh(we[ci;oi])

22、

23、式中,we表示模型中可以学习的参数,下标j表示医疗概念中第j个词,n为第i个词所在医疗概念中词的个数。

24、进一步地,所述步骤s5具体为:

25、s51、对综合语义特征中的每一个嵌入表示ei按照如下公式进行变换,得到其作为第α种类命名实体的起始位置表示qi,α和终止位置表示ki,α;

26、qi,α=wq,αei+bq,α

27、ki,α=wk,αei+bk,α

28、式中,wq,α和wk,α表示模型训练中可学习的参数,bq,α和bk,α表示模型的偏置项;

29、s52、根据起始位置表示qi,α和终止位置表示ki,α,计算从i到j的连续片段的一个类型为α的命名实体的得分sα(i,j);

30、

31、式中,ri表示第i个词的旋转位置编码,rj表示第j个词的旋转位置编码,rj-i表示医疗文本中第i个词到第j个词的相对旋转位置编码,上标t表示矩阵转置运算。

32、本专利技术的有益效果为:

本文档来自技高网...

【技术保护点】

1.基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S1中,所述医疗字典中的数据包括医疗实体名和中文电子病历中的医疗概念名。

3.根据权利要求1所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S2中,所述预训练语言模型RoBERTa-wwm-ext-large为基于中文电子病历文本数据进行微调后的模型。

4.根据权利要求1所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S3中,所述医疗概念嵌入为中文电子病历文本数据中每个词所属的同一医疗概念中所有医疗词嵌入的均值。

5.根据权利要求1所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S4具体为:

6.根据权利要求5所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S42,在生成的掩码注意力向量中,出现在医疗字典中的词所在位置的掩码为1,其余词所在位置的掩码为0。

7.根据权利要求5所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S43中,计算文本中各词的注意力权重的公式为:

8.根据权利要求7所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S44中,词的嵌入表示ei的计算公式为:

9.根据权利要求8所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤S5具体为:

...

【技术特征摘要】

1.基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤s1中,所述医疗字典中的数据包括医疗实体名和中文电子病历中的医疗概念名。

3.根据权利要求1所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤s2中,所述预训练语言模型roberta-wwm-ext-large为基于中文电子病历文本数据进行微调后的模型。

4.根据权利要求1所述的基于医疗字典知识增强的中文电子病历命名实体识别方法,其特征在于,所述步骤s3中,所述医疗概念嵌入为中文电子病历文本数据中每个词所属的同一医疗概念中所有医疗词嵌入的均值。

5.根据权利要求1所...

【专利技术属性】
技术研发人员:田生文李俊霞柳婵娟周树森于泓
申请(专利权)人:鲁东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1