基于迁移学习的基地命名实体识别系统及方法技术方案

技术编号:33129953 阅读:22 留言:0更新日期:2022-04-17 00:45
本发明专利技术公开了基于迁移学习的基地命名实体识别方法,包括如下步骤:1、对基地数据进行采集和预处理,并根据需要预定义实体类型;2、对基地数据进行标注;3、获取开源的迁移学习模型;4、对本发明专利技术所述模型进行训练;5、进行命名实体识别。本发明专利技术通过迁移学习使得模型利用额外的海量数据进行预先的自监督训练,解决了传统深度学习模型需要海量标注训练数据的限制,同时运用泛化能力较强的BiGRU模型编码实体的上下文信息,在人为干预较少的情况下实现更准确的基地命名实体预测,为后续知识图谱的自动化构建提供了技术支持。化构建提供了技术支持。化构建提供了技术支持。

【技术实现步骤摘要】
基于迁移学习的基地命名实体识别系统及方法


[0001]本专利技术涉及面向自然语言处理和迁移学习的
,具体地指一种基于迁移学习的基地命名实体识别系统及方法。

技术介绍

[0002]随着自媒体的不断兴起,互联网上以自然语言描述的非结构化数据不断增多,其中暗含了很多可以为机器决策提供助力的信息。这些信息可以用于购物推荐、智能搜索、辅助决策等。在这个用户主导生成内容的时代,大多数内容由自然语言的方式进行描述,如何自动化整理、归纳这些内容中的信息,并用于辅助机器决策,需要进行针对性的研究探索。
[0003]自然语言处理是一种采用计算机对自然语言进行分析理解,使得机器得以处理自然语言这样非结构化数据的技术手段,有利于机器对非结构化的数据中有实际语义知识的抽取,提升机器自动化智能化获取知识的能力。
[0004]知识图谱是组织、管理和应用这些从非结构化的数据中获取的知识的有力工具,命名实体识别是知识图谱构建的关键步骤之一。细分领域知识图谱的构建过程中,标注的训练数据匮乏的情况时有发生,基地知识图谱亦是如此。
[0005]迁移学习是解决神经网络在面对训练数据匮乏情况下表现不佳问题的技术手段,通过使用海量非直接目标的数据对神经网络进行深层次的预先训练,使得神经网络在未使用目标数据进行训练前就拥有了海量数据作为背景知识,最终提高模型在稀缺数据下的泛化能力。
[0006]典型的命名实体识别方法有:制定产生式规则的方法、基于机器分类算法的方法、基于深度学习的方法。研究表明,与传统的命名实体识别方法相比,基于深度学习的方法拥有更好的准确率和召回率,适合进行有大规模训练数据的命名实体识别。然而,基于深度学习的方法的研究多集中于通用领域的命名实体识别,在基地描述识别方面还存在着诸多挑战。一方面,基地描述数据相对通用领域来说较为稀缺,深度学习训练神经网络所需要的海量数据的要求难以满足;另一方面,基地命名实体识别需要对实体类型进行细分,实体种类较多,提高了命名实体识别的复杂性。因此,基地命名实体识别方法需要在减少所需目标训练数据、提高模型对描述文本的细粒度学习能力、提高模型的泛化能力等方面有所提高和改进。

技术实现思路

[0007]本专利技术的目的就是要提供一种基于迁移学习的基地命名实体识别系统及方法,本专利技术致力于解决公开的基地描述文本数据较少,不便于传统深度学习模型训练的问题。通过加入使用海量额外数据进行预训练的ALBERT模型作为基础模型,以迁移学习的模式生成描述文本的细粒度词向量,同时采用BiGRU模型作为编码层,对基地描述文本的前向信息和后向信息进行学习,采用CRF模型对输出进行约束,得到符合要求的命名实体识别结果。
[0008]为实现此目的,本专利技术所设计的基于迁移学习的基地命名实体识别方法,其特征
在于:它包括如下步骤:
[0009]步骤1:从互联网获取基地的自然语言描述语料,并对自然语言描述语料进行预处理,从而去除图片描述信息和HTML标签信息,并统一描述属性值的单位;
[0010]步骤2:对预处理之后的自然语言描述语料随机划分成测试集、验证集和训练集,运用BIOES格式标注方式对测试集的自然语言描述语料、验证集的自然语言描述语料和训练集的自然语言描述语料进行实体标注,形成BIOES标注格式的测试集、验证集、训练集;
[0011]步骤3:获取开源的迁移学习ALBERT模型,通过基地的自然语言描述语料,使用finetune方式更新开源的迁移学习ALBERT模型,得到更新后的迁移学习ALBERT层;
[0012]步骤4:利用更新后的迁移学习ALBERT层、BiGRU编码层和CRF约束层构建基地命名实体识别模型,使用BIOES标注格式的测试集、验证集和训练集作为基地命名实体识别模型的训练数据集对基地命名实体识别模型进行训练,在训练过程中,使用准确率、召回率、F1值作为训练评价指标,通过不断的迭代拟合,得到训练好的基地命名实体识别模型;
[0013]步骤5:利用训练好的基地命名实体识别模型对用户上传的语句进行识别,得到上传语句对应的BIOES格式标注。
[0014]本专利技术的有益效果:
[0015]本专利技术充分利用了在标注数据量少的情况下,迁移学习提升模型性能的能力,突破了传统神经网络模型在标注数据较少的情况下性能较低的问题。在特征学习阶段,模型前期的对词向量细粒度刻画的需求,通过使用海量数据提前对模型进行自监督预训练的方法来解决,之后采用BiGRU模型编码语句的上下文特征,从前到后和从后向前两个方向学习语句的信息,最终通过CRF层添加约束,使得本专利技术提出的整体模型对基地命名实体识别的结果快速而准确。
附图说明
[0016]图1为本专利技术中训练数据构建流程图;
[0017]图2为本专利技术中训练数据标注示意图;
[0018]图3为本专利技术中基地命名实体识别模型结构图;
[0019]图4为本专利技术中迁移学习(ALBERT)模型结构图;
[0020]图5为本专利技术中ALBERT模型SOP自监督预训练过程示意图;
[0021]图6为本专利技术中GRU模型的整体结构示意图;
[0022]图7为本专利技术中BiGRU模型的整体结构;
[0023]图8为本专利技术中模型实验结果对比图;
[0024]图9为本专利技术中基地命名实体识别举例图;
[0025]图10为本专利技术的结构示意图。
[0026]其中,1—基地语料采集及预处理模块、2—机器学习数据集构建模块、3—迁移学习ALBERT层更新模块、4—基地命名实体识别模型训练模块、5—语句识别模块。
具体实施方式
[0027]以下结合附图和具体实施例对本专利技术作进一步的详细说明:
[0028]如图1~9所示的基于迁移学习的基地命名实体识别方法,其特征在于:它包括如
下步骤:
[0029]步骤1:从互联网获取基地的自然语言描述语料,并对自然语言描述语料进行预处理,从而去除图片描述信息和HTML(Hyper Text Markup Language,超文本标记语言)标签信息,并统一描述属性值的单位;
[0030]步骤2:对预处理之后的自然语言描述语料随机划分成测试集、验证集和训练集,运用BIOES格式标注方式采用Doccano作为标注工具(如图2所示)对测试集的自然语言描述语料、验证集的自然语言描述语料和训练集的自然语言描述语料进行实体标注,形成BIOES标注格式的测试集、验证集、训练集,其中,测试集、验证集和训练集由2:2:6的随机划分形成;
[0031]步骤3:获取开源的迁移学习ALBERT模型,通过基地的自然语言描述语料,使用finetune(微调)方式更新开源的迁移学习ALBERT模型,得到更新后的迁移学习ALBERT层,用于获取细粒度刻画的词向量;
[0032]步骤4:利用更新后的迁移学习ALBERT层(A Lite Bidirectional Encoder Representations from本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于迁移学习的基地命名实体识别方法,其特征在于:它包括如下步骤:步骤1:从互联网获取基地的自然语言描述语料,并对自然语言描述语料进行预处理,从而去除图片描述信息和HTML标签信息,并统一描述属性值的单位;步骤2:对预处理之后的自然语言描述语料随机划分成测试集、验证集和训练集,运用BIOES格式标注方式对测试集的自然语言描述语料、验证集的自然语言描述语料和训练集的自然语言描述语料进行实体标注,形成BIOES标注格式的测试集、验证集、训练集;步骤3:获取开源的迁移学习ALBERT模型,通过基地的自然语言描述语料,使用finetune方式更新开源的迁移学习ALBERT模型,得到更新后的迁移学习ALBERT层;步骤4:利用更新后的迁移学习ALBERT层、BiGRU编码层和CRF约束层构建基地命名实体识别模型,使用BIOES标注格式的测试集、验证集和训练集作为基地命名实体识别模型的训练数据集对基地命名实体识别模型进行训练,在训练过程中,使用准确率、召回率、F1值作为训练评价指标,通过不断的迭代拟合,得到训练好的基地命名实体识别模型;步骤5:利用训练好的基地命名实体识别模型对用户上传的语句进行识别,得到上传语句对应的BIOES格式标注。2.根据权利要求1所述的基于迁移学习的基地命名实体识别系统,其特征在于:所述步骤1中,使用基于Python的爬虫Selenium根据基地名称列表爬取新闻稿,得到新闻稿未处理合集;筛查新闻稿未处理合集的内容,在新闻稿未处理合集中选取基地名称、基地位置、基地负责地区的名称、基地武器装备的名称、基地驻扎部队的名称、基地内建筑设施的名称、基地内建筑设施的编号、基地内各建筑设施的位置、基地评价;使用基于Python的爬虫Selenium根据基地名称列表爬取维基百科和/或百度百科中的基地描述信息,从而获取基地名称、基地位置、基地负责地区的名称、基地武器装备的名称、基地驻扎部队的名称、基地内建筑设施的名称、基地内建筑设施的编号、基地内各建筑设施的位置、基地评价;通过新闻稿以及维基百科和/或百度百科中获取的基地物理设施、基地位置、基地人员情况、基地武器装备信息构成基地的自然语言描述语料。3.根据权利要求1所述的基于迁移学习的基地命名实体识别系统,其特征在于:所述步骤2中,BIOES标注格式的测试集、验证集、训练集内自然语言描述语料的基地描述信息按刻画基地特点的预设基地描述分类进行基地描述类别标注,并对基地描述信息进行字符排序标注。4.根据权利要求1所述的基于迁移学习的基地命名实体识别系统,其特征在于:所述步骤3中,BIOES标注格式的训练集作为基地命名实体识别模型拟合的数据样本,BIOES标注格式的验证集用来评估基地命名实体识别模型当前的训练状态,BIOES标注格式的测试集对训练好的基地命名实体识别模型的泛化性能做出评价。5.根据权利要求1所述的基于迁移学习的基地命名实体识别系统,其特征在于:所述步骤5中,训练好的基地命名实体识别模型中更新后的迁移学习ALBERT层对用户上传的语句中的每一个字符映射成分布式字符向量;训练好的基地命名实体识别模型的BiGRU编码层使用BiGRU网络对迁移学习ALBERT层输出的分布式字符向量进行编码,形成多维字符向量;训练好的基地命名实体识别模型的CRF解码层对BiGRU编码层输出的多维字符向量进
行解码,并根据BIOES标注格式的隐含顺序关系进行约束,计算得到符合要求的标签标注顺序,得到上传语句对应的BIOES格式标注。6.根据权利要求1所述的基于迁移学习的基地命名实体识别系统,其特征在于:所述步骤4中,准确率P、召回率R、F1值的计算公式为:骤4中,准确率P、召回率R、F1值的计算公式为:骤4中,准确率P、召回率R、F1值的计算公式为:其中,TP代表正确预测的实体个数,FN代表正例预测为负例的实体个数,FP代表将负例预测为正例的实体个数,outPredictTrue表示预测为正的样本数,outAllTrue表示样本中所有的正样本数,F1值为P值和R值的调和平均值,用于平衡两个指标的占比。7.根据权利要求1所述的基于迁移学习的基地命名实体识别系统,其特征在于:所述步骤5中,上传语句对应的BIOES格式标注为Json格式,使用Python编程语言中Json模块的loads函数将Json文件解析,在Web前端展示训练好的基地命名实体识别模型预测的实体字符串和实体类型。8.根据权利要求5所述的基于迁移学习的基地命名实体识别系统,其特征在于:BiGRU编码层由实体前向和后向两个方向的GRU模型组合而成,一个GRU单元包括重置门、更新门,其详细计算公式如下:z
(t)
=σ(W
(z)
x
(t)
+U
(z)
h
(t

1)
)
ꢀꢀꢀꢀ
(4)r
(t)
=σ(W
(r)
x
(t)
+U
(r)
h

【专利技术属性】
技术研发人员:马良荔覃基伟李陶圆何智勇牛敬华
申请(专利权)人:中国人民解放军海军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1