融合多源知识的中文医学命名实体和词性联合学习方法技术

技术编号:31086034 阅读:17 留言:0更新日期:2021-12-01 12:38
本发明专利技术涉及一种融合多源知识的中文医学命名实体和词性联合学习方法,属于自然语言处理中的信息抽取技术领域。本发明专利技术提出了一种多输入多任务学习模型,首先为来自不同数据源的任务数据分别设计模型的输入。然后利用相同的编码结构将不同的输入嵌入到同一语义空间中,获得统一的向量表示。之后,通过任务特定层提取任务特定表示,由该嵌入表示计算得出最后的预测结果。训练过程中,采取交替式的计算方式。在信息抽取中,利用该模型,实现捕获来自不同数据源的NER任务和POS任务之间的相关性。本方法有效提高了深度学习模型对中文医学文本命名实体的识别效果及鲁棒性,尤其是对长实体的识别效果及鲁棒性,并能高质量完成中文医学数据词性标注。据词性标注。据词性标注。

【技术实现步骤摘要】
融合多源知识的中文医学命名实体和词性联合学习方法


[0001]本专利技术涉及一种融合多源知识的中文医学命名实体和词性联合学习方法,属于自然语言处理中的信息抽取


技术介绍

[0002]中文医学文本命名实体识别,是自然语言处理在垂直领域中的一项重要的基础性任务,可服务于智能对话系统、神经机器翻译等多种任务。对于临床应用,如自动电子健康记录等,同样有着非常重要的研究意义及价值。
[0003]在中文医学文本中,存在着大量复杂实体现象。如“呼吸肌麻痹”、“呼吸中枢受累”等,为临床表现实体,实体长度较长,实体内部分别嵌套“呼吸肌”、“呼吸中枢”等身体实体。对于这类复杂的实体,由于缺乏边界信息,识别效果往往比较差。因此,如何正确识别实体边界并划分实体类别,具有十分重要的意义。
[0004]目前,大部分的研究表明,NER(命名实体识别,Named Entity Recognition,简称NER)任务和POS(词性标注,Part of Speech,简称POS)任务具有强相关性,方法包括将词性作为特征引入模型、多任务学习等。词性标注特征可以辅助模型判断实体位置。此外,这两个任务之间共享相似的词边界,词边界信息的引入有助于减少预测结果的边界错误,从而提高准确率。
[0005]但是,大多数中文医学NER训练语料时,并没有标注词性。现有的词性标注器对中文医学文本的错误标注结果,会造成错误传播的问题。在这种情况下,研究如何利用外部数据资源来引入词性标注及词边界信息,从而解决错误传播问题、缓解人工标注压力,是需要解决的重要问题。
[0006]外部数据资源的利用,隐式实现了数据增强。多任务学习让模型对数据噪声的抗干扰能力增强,帮助模型聚焦到更有用的特征上,提高模型的表达能力。但是,由于词性信息和命名实体信息的数据来源不同,需要设计多输入多任务学习框架,在训练过程中对命名实体识别任务和词性标注任务进行交替式计算,使得模型能够同时预测词性和识别文本中的命名实体。在交替式计算过程中,模型很容易出现偏置,导致灾难性遗忘问题,即,模型倾向于学习新知识、遗忘旧知识。为了缓解灾难性遗忘问题,需要设计一种机制来达到约束模型参数更新的目的。
[0007]综上所述,对于复杂实体的正确抽取和分类对于垂直领域的命名实体识别,仍然是一个富有挑战性的问题。然而,目前尚未见到对中文医学领域复杂实体问题富有针对性的抽取方法或相关技术公开。

技术实现思路

[0008]本专利技术的目的是:针对中文医学中的复杂实体现象,如何利用外部数据资源正确识别中文医学长实体、嵌套实体识别的技术问题,创造性地提出一种融合多源知识的中文医学命名实体和词性联合学习方法。
[0009]本专利技术的创新点在于:首次提出了一种多输入多任务学习模型,首先,为来自不同数据源的任务数据分别设计模型的输入。然后,利用相同的编码结构将不同的输入嵌入到同一语义空间中,获得统一的向量表示。之后,通过任务特定层提取任务特定表示,由该嵌入表示计算得出最后的预测结果。训练过程中,采取交替式的计算方式。在信息抽取中,利用该模型,实现捕获来自不同数据源的NER任务和POS任务之间的相关性。词性信息有助于定位实体的位置,POS任务和NER任务共享词边界信息,多任务学习可以很好地捕获任务之间的共性,聚焦在有用的特征上,从而获得更准确的嵌入与表示。通过共享词边界信息,有效提高了深度学习模型对中文医学文本命名实体的识别效果及鲁棒性,尤其是对长实体的识别效果及鲁棒性。
[0010]由于在训练过程中交替式地同时训练多个任务,而任务的优化目标不同,将导致模型倾向于学习新知识而遗忘旧知识,从而引起灾难性遗忘问题的发生。因此,本专利技术同时设计了一种遗忘惩罚机制,用于约束参数更新过程,以保留旧知识。
[0011]为实现上述目的,本专利技术采用以下技术方案实现。
[0012]融合多源知识的中文医学命名实体和词性联合学习方法,包括以下步骤:
[0013]首先,为来自不同数据源的任务数据分别设计模型的输入。然后,利用相同的编码结构将不同的输入嵌入到同一语义空间中,获得统一的向量表示。之后,通过任务特定层提取任务特定表示,由该嵌入表示计算得出最后的预测结果。训练过程中,采取交替式的计算方式。
[0014]步骤1:对中文医学NER数据集和中文医学POS数据集进行数据预处理。
[0015]步骤2:将NER作为生成式任务,构建序列到序列模型。
[0016]步骤3:将中文医学POS数据集作为外部数据源,分别对NER任务和POS任务构建模型输入。不同输入共享相同的编码层,解码层和特定任务相关,并将词性特征和词边界信息融入深度学习模型中,用于指导训练过程,实现多个任务同时训练。
[0017]步骤4:采用遗忘惩罚机制,控制交替式计算的训练过程。使模型在学习新知识的同时保留旧知识,从而缓解灾难性遗忘问题。
[0018]步骤5:利用已训练的基于多输入多任务学习的序列到序列模型,对中文医学文本语料中的语句进行预测。
[0019]有益效果
[0020]本专利技术方法,对比现有技术,具有以下优点:
[0021]1.中文医学数据资源相对较为稀缺,传统的多任务学习要求模型的输入来自于相同数据源。为获取监督学习的语料,大多需要人工数据标注。利用现有的词性标注工具会向模型引入噪音,带来错误传播问题。为缓解人工标注压力,以及词性标注工具带来的错误传播问题,本专利技术设计多输入多任务学习框架,有效利用外部数据资源,同时在隐式上实现数据增强,提升模型的样本量。
[0022]2.实体嵌入在更长的实体内被看作嵌套实体,单个Token可能对应多个Label。本专利技术将嵌套命名实体识别任务看作序列到序列的生成问题,相较于标签组合的方式,解决了标签数量多、标签分布不均衡的问题。对每个Token,模型逐个生成其对应的Label,适合处理嵌套实体和长实体问题。
[0023]3.长实体由于缺乏边界信息,预测时容易出现边界错误。本方法利用多任务学习
捕获NER任务和POS任务之间的相关性,词性标注特征辅助模型定位实体位置。此外,通过共享词边界信息,提升复杂实体识别效果。
[0024]4.本方法在训练过程中,交替式同时训练多个任务。模型在学习了新任务后,在原有任务上的性能会有大幅度下降,即灾难性遗忘问题。为缓解该问题,本专利技术引入了遗忘惩罚机制。
[0025]本专利技术可以很好地利用外部数据资源,融合词性特征及词边界信息,有效缓解了中文医学这一垂直领域中常见复杂实体现象如长实体、嵌套实体识别效果不佳的问题,并且能以较高质量完成中文医学数据词性标注问题。
附图说明
[0026]图1为基于序列到序列的命名实体识别模型结构;
[0027]图2为多数据多任务学习框架示意;
[0028]图3为本专利技术方法的流程图。
具体实施方式
[0029]下面结合说明书附图对本专利技术方法做进一步详细说明。
[0030]融合多源知识的中文医学命名本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.融合多源知识的中文医学命名实体和词性联合学习方法,其特征在于,包括以下步骤:步骤1:对中文医学NER数据集和中文医学POS数据集进行数据预处理;步骤2:将NER作为生成式任务,构建序列到序列模型;步骤3:将中文医学POS数据集作为外部数据源,分别对NER任务和POS任务构建模型输入;不同输入共享相同的编码层,解码层和特定任务相关,并将词性特征和词边界信息融入深度学习模型中,用于指导训练过程,实现多个任务同时训练;步骤4:采用遗忘惩罚机制,控制交替式计算的训练过程;步骤5:利用已训练的基于多输入多任务学习的序列到序列模型,对中文医学文本语料中的语句进行预测。2.如权利要求1所述的融合多源知识的中文医学命名实体和词性联合学习方法,其特征在于,步骤1包括以下步骤:将中文医学POS数据集和中文医学NER数据集处理成字级别BILOU编码;对于存在嵌套实体的中文医学NER数据集,由词符token到多标签的映射,是所有相交实体由高优先级实体到低优先级实体的标签的串联,实体优先级定义如下:(1)位置靠前的实体,优先级更高;(2)位置相同,则长实体优先级高于短实体;其中,对中文和英文分别采用不同的切分粒度,中文以字符为粒度切分,英文以词为粒度切分。3.如权利要求1所述的融合多源知识的中文医学命名实体和词性联合学习方法,其特征在于,步骤2包括以下步骤:步骤2.1:输入语句序列(t1,t2,

,t
n
),按优先级由高到低的顺序输出t
i
的标签,直到输出终止字符<EOW>,才继续输出t
i+1
的标签;基于序列到序列的命名实体识别模型结构,包括词嵌入层、编码器和解码器三部分。步骤2.2:将离散的词符token用分布式向量表示,经编码器得到对应的隐向量表示,通过式1进行计算:h
t
=tanh(W
h
[h
t
‑1,x
t
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,h
t
表示当前时间步的隐向量表示,h
t
‑1表示上一时间步的隐向量表示,W
h
表示权重系数矩阵,x
t
表示当前时间步对应输入的向量表示;seq2seq模型将输入语句编码后,用最后一个隐向量来表示,然后用该隐向量解码得到输出序列;将注意力关注于标签对应的词符token;引入teacher forcing机制,在训练阶段将当前时间步的标准输出作为下一时间步的输...

【专利技术属性】
技术研发人员:冯冲赵培雯
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1