融合多源知识的中文医学命名实体和词性联合学习方法技术

技术编号：31086034 阅读：17 留言：0更新日期：2021-12-01 12:38

本发明专利技术涉及一种融合多源知识的中文医学命名实体和词性联合学习方法，属于自然语言处理中的信息抽取技术领域。本发明专利技术提出了一种多输入多任务学习模型，首先为来自不同数据源的任务数据分别设计模型的输入。然后利用相同的编码结构将不同的输入嵌入到同一语义空间中，获得统一的向量表示。之后，通过任务特定层提取任务特定表示，由该嵌入表示计算得出最后的预测结果。训练过程中，采取交替式的计算方式。在信息抽取中，利用该模型，实现捕获来自不同数据源的NER任务和POS任务之间的相关性。本方法有效提高了深度学习模型对中文医学文本命名实体的识别效果及鲁棒性，尤其是对长实体的识别效果及鲁棒性，并能高质量完成中文医学数据词性标注。据词性标注。据词性标注。

全部详细技术资料下载

【技术实现步骤摘要】
融合多源知识的中文医学命名实体和词性联合学习方法

[0001]本专利技术涉及一种融合多源知识的中文医学命名实体和词性联合学习方法，属于自然语言处理中的信息抽取

技术介绍

[0002]中文医学文本命名实体识别，是自然语言处理在垂直领域中的一项重要的基础性任务，可服务于智能对话系统、神经机器翻译等多种任务。对于临床应用，如自动电子健康记录等，同样有着非常重要的研究意义及价值。
[0003]在中文医学文本中，存在着大量复杂实体现象。如“呼吸肌麻痹”、“呼吸中枢受累”等，为临床表现实体，实体长度较长，实体内部分别嵌套“呼吸肌”、“呼吸中枢”等身体实体。对于这类复杂的实体，由于缺乏边界信息，识别效果往往比较差。因此，如何正确识别实体边界并划分实体类别，具有十分重要的意义。
[0004]目前，大部分的研究表明，NER(命名实体识别，Named Entity Recognition，简称NER)任务和POS(词性标注，Part of Speech，简称POS)任务具有强相关性，方法包括将词性作为特征引入模型、多任务学习等。词性标注特征可以辅助模型判断实体位置。此外，这两个任务之间共享相似的词边界，词边界信息的引入有助于减少预测结果的边界错误，从而提高准确率。
[0005]但是，大多数中文医学NER训练语料时，并没有标注词性。现有的词性标注器对中文医学文本的错误标注结果，会造成错误传播的问题。在这种情况下，研究如何利用外部数据资源来引入词性标注及词边界信息，从而解决错误传播问题、缓解人工标注压力，是...

【技术保护点】

【技术特征摘要】
1.融合多源知识的中文医学命名实体和词性联合学习方法，其特征在于，包括以下步骤：步骤1：对中文医学NER数据集和中文医学POS数据集进行数据预处理；步骤2：将NER作为生成式任务，构建序列到序列模型；步骤3：将中文医学POS数据集作为外部数据源，分别对NER任务和POS任务构建模型输入；不同输入共享相同的编码层，解码层和特定任务相关，并将词性特征和词边界信息融入深度学习模型中，用于指导训练过程，实现多个任务同时训练；步骤4：采用遗忘惩罚机制，控制交替式计算的训练过程；步骤5：利用已训练的基于多输入多任务学习的序列到序列模型，对中文医学文本语料中的语句进行预测。2.如权利要求1所述的融合多源知识的中文医学命名实体和词性联合学习方法，其特征在于，步骤1包括以下步骤：将中文医学POS数据集和中文医学NER数据集处理成字级别BILOU编码；对于存在嵌套实体的中文医学NER数据集，由词符token到多标签的映射，是所有相交实体由高优先级实体到低优先级实体的标签的串联，实体优先级定义如下：(1)位置靠前的实体，优先级更高；(2)位置相同，则长实体优先级高于短实体；其中，对中文和英文分别采用不同的切分粒度，中文以字符为粒度切分，英文以词为粒度切分。3.如权利要求1所述的融合多源知识的中文医学命名实体和词性联合学习方法，其特征在于，步骤2包括以下步骤：步骤2.1：输入语句序列(t1,t2,
…
,t
n
)，按优先级由高到低的顺序输出t
i
的标签，直到输出终止字符<EOW>，才继续输出t
i+1
的标签；基于序列到序列的命名实体识别模型结构，包括词嵌入层、编码器和解码器三部分。步骤2.2：将离散的词符token用分布式向量表示，经编码器得到对应的隐向量表示，通过式1进行计算：h
t
＝tanh(W
h
[h
t
‑1,x
t
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中，h
t
表示当前时间步的隐向量表示，h
t
‑1表示上一时间步的隐向量表示，W
h
表示权重系数矩阵，x
t
表示当前时间步对应输入的向量表示；seq2seq模型将输入语句编码后，用最后一个隐向量来表示，然后用该隐向量解码得到输出序列；将注意力关注于标签对应的词符token；引入teacher forcing机制，在训练阶段将当前时间步的标准输出作为下一时间步的输...

【专利技术属性】
技术研发人员：冯冲，赵培雯，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人