一种基于半监督学习的糖尿病命名实体识别模型构建方法技术

技术编号:37673189 阅读:18 留言:0更新日期:2023-05-26 04:36
本发明专利技术公开了一种基于半监督学习的糖尿病命名实体识别模型构建方法,其网络结构包括两个模块,一个模块是命名实体识别(NER)模块,包括BERT嵌入层、BERT模型、CRF模型和生成对抗训练。其中,BERT嵌入层加和三个向量作为BERT模型的输入;BERT模型对输入字符上下文信息进行捕获,学习语义特征;CRF模型提取标签间的约束关系,计算最优标签序列;生成对抗训练通过对已标注样本和未标注样本的潜在变量分布之间的训练,优化命名实体识别模型。另一个模块是半监督学习模块,通过迭代训练优化模型。本发明专利技术的命名实体识别模型能充分利用未标注样本,优化命名实体识别模型,并在少量标注样本的情况下,达到良好的命名实体识别效果。达到良好的命名实体识别效果。达到良好的命名实体识别效果。

【技术实现步骤摘要】
一种基于半监督学习的糖尿病命名实体识别模型构建方法


[0001]本专利技术涉及命名实体识别领域,具体涉及一种针对糖尿病文本少样本命名实体识别的基于半监督学习的生成模型构建方法。

技术介绍

[0002]随着互联网信息时代的快速发展,大量结构复杂、内容冗余的文本信息不断呈现在互联网上,数量呈爆炸性增长。而且,随着国民健康意识的不断提高和医疗领域信息化的稳步发展,现代医疗系统积累了大量的医疗数据。在此背景下,对海量医疗数据的提取和利用,是目前的一大挑战,也是当前的研究热点。命名实体识别(NER)是信息抽取的前提,抽取有价值的实体可以发挥很大的作用,是问答系统、构建知识图谱等自然语言处理任务的一项重要基础技术。因此,研究糖尿病文本的命名实体识别对未来智能医疗在糖尿病方面的发展具有重要意义。
[0003]在糖尿病命名实体识别任务中,早期使用的方法是基于规则的方法和基于词典的方法,需要相关领域的专家手动构建一些规则模板,这种方法耗费人工,花费昂贵。随后,出现了基于统计机器学习和深度学习的方法,它们都依赖大量高质量的标注数据来提高命名实体识别的性能。而在实际应用中,标注的数据非常有限且注释样本的成本高,标注数据的缺乏会使得上述方法在命名实体识别上的效果不佳。虽然标注的数据不易获得,但大量的未标注的数据却很容易获得,上述方法聚焦已标注的样本,却忽略了未标注样本资源,导致资源的浪费。

技术实现思路

[0004]专利技术目的:为了解决糖尿病文本中舍弃大量未标注样本而造成的资源浪费,及缺乏标注样本的问题,本专利技术提出一种基于半监督学习的糖尿病命名实体识别模型构建方法。
[0005]技术方案:为实现本专利技术的目的,本专利技术所采用的技术方案是:
[0006]一种基于半监督学习的糖尿病命名实体识别模型构建方法,包括以下步骤:
[0007]获取实体样本数据,定义糖尿病实体类型,对一定量的实体样本数据进行标注,得到已标注样本和未标注样本,以及已标注样本的实体标签;
[0008]采用生成对抗网络GAN,包括生成器和判别器,已标注样本及其标签和未标注样本输入生成器,生成器输出未标注样本的预测标签,并形成已标注样本的潜在变量和未标注样本的潜在变量;
[0009]已标注样本的潜在变量和未标注样本的潜在变量输入判别器,判别器识别已标注样本的潜在变量和未标注样本潜在变量的分布的差异;
[0010]进行生成对抗训练,若已标注样本的潜在变量和未标注样本的潜在变量的分布不相同,则继续训练,若相同,训练结束,形成命名实体识别模型;
[0011]使用半监督学习中的自训练框架,利用已标注样本和未标注样本初始化命名实体
识别模型,通过迭代训练优化命名实体识别模型;
[0012]利用优化后的命名实体识别模型的生成器对待识别的未标注样本进行嵌入,输出未标注样本的预测标签。
[0013]进一步的,所述生成器由BERT嵌入层、BERT模型和CRF模型组成,对未标注样本的实体标签进行预测,具体包括:
[0014]所述BERT嵌入层,由位置编码向量、段编码向量、词的向量组成;
[0015]所述位置编码向量,用于BERT学习到输入的顺序属性;所述段编码向量,用于辅助BERT区别句子对中的两个句子的向量;
[0016]所述位置编码向量、段编码向量、词的向量做加和形成最终的编码向量,输入至BERT模型中;
[0017]所述BERT模型,对输入字符的上下文信息进行捕获,学习输入中的字符特征和句法特征,提取句子中的语义特征,并将语义特征传至CRF模型;
[0018]所述CRF模型,根据BERT模型的输出,通过最大化条件似然估计,提取标签之间的约束关系,输出最优标签序列。
[0019]进一步的,所述生成对抗训练分为两个阶段,第一阶段是生成器利用已标注样本,最大化条件似然估计,第二阶段是生成器对未标注样本进行嵌入,输出未标注样本的预测标签;生成对抗过程具体步骤如下:
[0020]S1:通过BERT模型的输出和CRF模型的输出的乘积,形成已标注样本的潜在变量V
L
和未标注样本的潜在变量V
U

[0021]S2:将已标注样本的潜在变量V
L
和未标注样本的潜在变量V
U
作为判别器的输入;
[0022]S3:生成器以判别器无法辨别已标注样本潜在变量的分布和未标注样本潜在变量的分布的差异为目标,目标函数如公式(3):
[0023][0024]S4:判别器辨别已标注样本潜在变量的分布和未标注样本潜在变量的分布的差异,目标函数如公式(4):
[0025][0026]式中表示V
U
的分布,表示V
L
的分布,v
U
和v
L
分别表示新输入的未标注样本的潜在变量和已标注样本的潜在变量,φ和分别代表生成器参数和判别器参数,表示判别器,E表示期望值;
[0027]S5:通过生成对抗训练,使得已标注样本潜在变量的分布和未标注样本潜在变量的分布相同。
[0028]进一步的,使用半监督学习中的自训练框架优化命名实体识别模型,具体步骤如下:
[0029]S1:将已标注样本和未标注样本放入命名实体识别模型中进行初步训练,形成初步的已标注样本数据集L和伪标签样本数据集U;
[0030]S2:计算伪标签样本数据集U中各样本的置信度;
[0031]S3:对样本置信度高于阈值的样本进行标注,并放入已标注样本数据集L中,并在
伪标签样本数据集U中将其删去;
[0032]S4:将更新后的已标注样本数据集L和伪标签样本数据集U放入命名实体识别模型中继续训练;
[0033]S5:重复S2

S4,直至伪标签样本全部标记完成后,训练结束。
[0034]有益效果:与现有技术相比,本专利技术的技术方案具有以下有益的技术效果:
[0035]本专利技术利用未标注样本优化命名实体识别(NER)模型。通过生成对抗训练,利用已标注样本和未标注样本的潜在变量的分布进行训练,充分利用未标注样本,对NER进行优化,减少资源浪费。
[0036]本专利技术解决缺乏大量标注数据集问题。通过半监督学习中的自训练模型,利用少量标记样本完成NER任务,减少人工成本,获得良好的NER效果。本专利技术构建了一个大规模、高质量的糖尿病标注数据集,为其他自然语言处理任务提供了良好的基础。
附图说明
[0037]图1是BERT模型图;
[0038]图2是生成器模型图;
[0039]图3是判别器模型图;
[0040]图4是半监督学习流程图。
具体实施方式
[0041]下面结合附图和实施例对本专利技术的技术方案作进一步的说明。
[0042]本专利技术所述的一种基于半监督学习的糖尿病命名实体识别模型构建方法,将半监督学习与生成模型结合,应用于糖尿病命名实体识别任务,包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习的糖尿病命名实体识别模型构建方法,其特征在于,包括以下步骤:获取实体样本数据,定义糖尿病实体类型,对一定量的实体样本数据进行标注,得到已标注样本和未标注样本,以及已标注样本的实体标签;采用生成对抗网络GAN,包括生成器和判别器,已标注样本及其标签和未标注样本输入生成器,生成器输出未标注样本的预测标签,并形成已标注样本的潜在变量和未标注样本的潜在变量;已标注样本的潜在变量和未标注样本的潜在变量输入判别器,判别器识别已标注样本的潜在变量和未标注样本潜在变量的分布的差异;进行生成对抗训练,若已标注样本的潜在变量和未标注样本的潜在变量的分布不相同,则继续训练,若相同,训练结束,形成命名实体识别模型;使用半监督学习中的自训练框架,利用已标注样本和未标注样本初始化命名实体识别模型,通过迭代训练优化命名实体识别模型;利用优化后的命名实体识别模型的生成器对待识别的未标注样本进行嵌入,输出未标注样本的预测标签。2.根据权利要求1所述的基于半监督学习的糖尿病命名实体识别模型构建方法,其特征在于,所述生成器由BERT嵌入层、BERT模型和CRF模型组成,对未标注样本的实体标签进行预测,具体包括:所述BERT嵌入层,由位置编码向量、段编码向量、词的向量组成;所述位置编码向量,用于BERT学习到输入的顺序属性;所述段编码向量,用于辅助BERT区别句子对中的两个句子的向量;所述位置编码向量、段编码向量、词的向量做加和形成最终的编码向量,输入至BERT模型中;所述BERT模型,对输入字符的上下文信息进行捕获,学习输入中的字符特征和句法特征,提取句子中的语义特征,并将语义特征传至CRF模型;所述CRF模型,根据BERT模型的输出,通过最大化条件似然估计,提取标签之间的约束关系,输出最优标签序列。3.根据权利要求2所述的基于半监督学习的糖尿病命名实体识别模型构建方法,其特征在于,所述生成对抗训练分为两个阶段,第一阶段是生成器利用已标注样本,最大化条件似然估计,第二...

【专利技术属性】
技术研发人员:郭永安左静怡钱琪杰王宇翱
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1