System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多视角Transformer的中文医疗实体识别方法技术_技高网

一种基于多视角Transformer的中文医疗实体识别方法技术

技术编号:41613992 阅读:8 留言:0更新日期:2024-06-13 02:18
一种基于多视角Transformer的中文医疗实体识别方法,涉及命名实体识别技术领域,通过引入字词文本序列中存在的两种先验信息,即转移结构信息和晶格结构信息,来缓解全连接自注意力机制存在的过拟合问题。我们设计了视角感知的自注意力组件来建模视角所包含的先验信息。基于视角感知的自注意力组件,进一步设计了多视角Transformer来融合不同视角所包含的先验信息。根据Lattice视角和Transition视角分别构建了对应的视角可见矩阵来表示字词之间的不同结构信息。然后,通过将字词向量、位置向量和视角可见矩阵传给的视角感知Transformer来提取结构特征。最后,将结构感知的文本特征传给条件随机场(CRF)来预测句子的标签序列。

【技术实现步骤摘要】

本专利技术提出一种基于多视角transformer的中文医疗实体识别方法,其涉及的为命名实体识别。


技术介绍

1、医疗命名实体识别(ner)旨在从无结构化的医疗文本中提取预定义类别的实体,例如身体部位、症状、治疗等。这项任务是许多医疗自然语言处理任务的基础,例如医疗关系抽取、医疗事件抽取、医疗术语标准化等。它一直受到研究者们的广泛关注。与英文医疗ner任务相比,由于中文缺乏明确的词边界标志符,中文医疗ner更具挑战性。

2、最近,许多工作提出基于词典的中文医疗ner方法来缓解边界不明确的问题。这些方法通过匹配的词典信息和医疗文本来构建字词文本序列,并通过精心设计的编码器来提取字词文本序列的特征,从而将词汇信息集成到汉字序列中,来提升中文医疗ner的性能。其中,基于transformer的模型通过全连接自注意力模块来建模字词文本序列的特征,实现了最先进的性能。

3、然而,由于全连接自注意力模块中汉字和匹配词汇之间的依赖关系需要从头学习,导致模型需要大量的标注数据来进行训练,容易在小型和中型数据集上出现过拟合问题。而中文医疗ner任务的标注过程很复杂,在实际场景中通常只有较少的医疗标注数据,导致了基于transformer的ner模型在实际应用中性能下降。

4、为了缓解上述问题,提出了一种基于多视角transformer的中文医疗实体识别方法。该方法考虑了字词文本序列中存在的两种先验信息,即转移结构信息(transition)和晶格结构信息(lattice)。将不同的结构信息看作为不同的视角,进而设计了视角感知的自注意力机制。改进后的自注意力使用视角可见矩阵来限制自注意力的范围,从而引入先验知识,缓解过拟合问题。的方法使用更少的数据就可以达到更优的性能,提升了模型在真实医疗场景中的应用价值,也为和医疗ner相关的医疗自然语言处理下游任务提供了更好的结构化信息。


技术实现思路

1、针对现有研究的不足,提出一种基于多视角transformer的中文医疗实体识别方法。通过引入字词文本序列中存在的两种先验信息,即转移结构信息(transition)和晶格结构信息(lattice),来缓解全连接自注意力机制存在的过拟合问题。设计了视角感知的自注意力组件来建模视角所包含的先验信息。基于视角感知的自注意力组件,进一步设计了多视角transformer来融合不同视角所包含的先验信息。为了实现该方法本专利技术采取如下技术方案:

2、方法主要包括五个模块,即词典匹配模块、可见矩阵构建模块、多视角特征提取模块和标签预测模块。给定输入的医疗文本,首先匹配词典和句子,获取所有匹配的单词。将字词拼接得到新的文本序列,并计算得到字词和位置的向量表示。接下来,根据lattice视角和transition视角分别构建了对应的视角可见矩阵来表示字词之间的不同结构信息。然后,通过将字词向量、位置向量和视角可见矩阵传给的视角感知transformer来提取结构特征。最后,将结构感知的文本特征传给条件随机场(crf)来预测句子的标签序列。

3、上述方案的具体实现和训练方法包括:

4、s1:将医疗文本输入到词典匹配模块,得到字词向量序列h,以及对应的相对位置向量序列p。

5、s2:根据字词之间存在的lattice和transition视角来构建lattice视角和transition视角可见矩阵ml,mt。

6、s3:将字词向量序列h、相对位置向量序列p,以及视角可见矩阵ml,输入到lattice视角感知transformer(lv transformer),得到lattice视角感知的文本特征序列

7、s4:将字词向量序列h、相对位置向量序列p,以及视角可见矩阵mt,输入到transition视角感知transformer(tv transformer),得到transition视角感知的文本特征序列

8、s5:拼接和得到多视角感知的文本特征序列fm。将多视角感知的文本特征序列fm输入crf解码器,解码得到标签序列。

本文档来自技高网...

【技术保护点】

1.一种基于多视角Transformer的中文医疗实体识别方法,其特征在于包括以下步骤:

【技术特征摘要】

1.一种基于多视角transformer的中...

【专利技术属性】
技术研发人员:李建强肖银龙赵琳娜
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1