一种基于半监督学习的糖尿病命名实体识别模型构建方法技术

技术编号：37673189 阅读：18 留言：0更新日期：2023-05-26 04:36

本发明专利技术公开了一种基于半监督学习的糖尿病命名实体识别模型构建方法，其网络结构包括两个模块，一个模块是命名实体识别(NER)模块，包括BERT嵌入层、BERT模型、CRF模型和生成对抗训练。其中，BERT嵌入层加和三个向量作为BERT模型的输入；BERT模型对输入字符上下文信息进行捕获，学习语义特征；CRF模型提取标签间的约束关系，计算最优标签序列；生成对抗训练通过对已标注样本和未标注样本的潜在变量分布之间的训练，优化命名实体识别模型。另一个模块是半监督学习模块，通过迭代训练优化模型。本发明专利技术的命名实体识别模型能充分利用未标注样本，优化命名实体识别模型，并在少量标注样本的情况下，达到良好的命名实体识别效果。达到良好的命名实体识别效果。达到良好的命名实体识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于半监督学习的糖尿病命名实体识别模型构建方法

[0001]本专利技术涉及命名实体识别领域，具体涉及一种针对糖尿病文本少样本命名实体识别的基于半监督学习的生成模型构建方法。

技术介绍

[0002]随着互联网信息时代的快速发展，大量结构复杂、内容冗余的文本信息不断呈现在互联网上，数量呈爆炸性增长。而且，随着国民健康意识的不断提高和医疗领域信息化的稳步发展，现代医疗系统积累了大量的医疗数据。在此背景下，对海量医疗数据的提取和利用，是目前的一大挑战，也是当前的研究热点。命名实体识别(NER)是信息抽取的前提，抽取有价值的实体可以发挥很大的作用，是问答系统、构建知识图谱等自然语言处理任务的一项重要基础技术。因此，研究糖尿病文本的命名实体识别对未来智能医疗在糖尿病方面的发展具有重要意义。
[0003]在糖尿病命名实体识别任务中，早期使用的方法是基于规则的方法和基于词典的方法，需要相关领域的专家手动构建一些规则模板，这种方法耗费人工，花费昂贵。随后，出现了基于统计机器学习和深度学习的方法，它们都依赖大量高质量的标注数据来提高命名实体识别的性能。而在实际应用中，标注的数据非常有限且注释样本的成本高，标注数据的缺乏会使得上述方法在命名实体识别上的效果不佳。虽然标注的数据不易获得，但大量的未标注的数据却很容易获得，上述方法聚焦已标注的样本，却忽略了未标注样本资源，导致资源的浪费。

技术实现思路

[0004]专利技术目的：为了解决糖尿病文本中舍弃大量未标注样本而造成的资源浪费，及缺乏标注样本的问题，本专利技术...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习的糖尿病命名实体识别模型构建方法，其特征在于，包括以下步骤：获取实体样本数据，定义糖尿病实体类型，对一定量的实体样本数据进行标注，得到已标注样本和未标注样本，以及已标注样本的实体标签；采用生成对抗网络GAN，包括生成器和判别器，已标注样本及其标签和未标注样本输入生成器，生成器输出未标注样本的预测标签，并形成已标注样本的潜在变量和未标注样本的潜在变量；已标注样本的潜在变量和未标注样本的潜在变量输入判别器，判别器识别已标注样本的潜在变量和未标注样本潜在变量的分布的差异；进行生成对抗训练，若已标注样本的潜在变量和未标注样本的潜在变量的分布不相同，则继续训练，若相同，训练结束，形成命名实体识别模型；使用半监督学习中的自训练框架，利用已标注样本和未标注样本初始化命名实体识别模型，通过迭代训练优化命名实体识别模型；利用优化后的命名实体识别模型的生成器对待识别的未标注样本进行嵌入，输出未标注样本的预测标签。2.根据权利要求1所述的基于半监督学习的糖尿病命名实体识别模型构建方法，其特征在于，所述生成器由BERT嵌入层、BERT模型和CRF模型组成，对未标注样本的实体标签进行预测，具体包括：所述BERT嵌入层，由位置编码向量、段编码向量、词的向量组成；所述位置编码向量，用于BERT学习到输入的顺序属性；所述段编码向量，用于辅助BERT区别句子对中的两个句子的向量；所述位置编码向量、段编码向量、词的向量做加和形成最终的编码向量，输入至BERT模型中；所述BERT模型，对输入字符的上下文信息进行捕获，学习输入中的字符特征和句法特征，提取句子中的语义特征，并将语义特征传至CRF模型；所述CRF模型，根据BERT模型的输出，通过最大化条件似然估计，提取标签之间的约束关系，输出最优标签序列。3.根据权利要求2所述的基于半监督学习的糖尿病命名实体识别模型构建方法，其特征在于，所述生成对抗训练分为两个阶段，第一阶段是生成器利用已标注样本，最大化条件似然估计，第二...

【专利技术属性】
技术研发人员：郭永安，左静怡，钱琪杰，王宇翱，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人