基于迁移学习的基地命名实体识别系统及方法技术方案

技术编号：33129953 阅读：28 留言：0更新日期：2022-04-17 00:45

本发明专利技术公开了基于迁移学习的基地命名实体识别方法，包括如下步骤：1、对基地数据进行采集和预处理，并根据需要预定义实体类型；2、对基地数据进行标注；3、获取开源的迁移学习模型；4、对本发明专利技术所述模型进行训练；5、进行命名实体识别。本发明专利技术通过迁移学习使得模型利用额外的海量数据进行预先的自监督训练，解决了传统深度学习模型需要海量标注训练数据的限制，同时运用泛化能力较强的BiGRU模型编码实体的上下文信息，在人为干预较少的情况下实现更准确的基地命名实体预测，为后续知识图谱的自动化构建提供了技术支持。化构建提供了技术支持。化构建提供了技术支持。

全部详细技术资料下载

【技术实现步骤摘要】
基于迁移学习的基地命名实体识别系统及方法

[0001]本专利技术涉及面向自然语言处理和迁移学习的
，具体地指一种基于迁移学习的基地命名实体识别系统及方法。

技术介绍

[0002]随着自媒体的不断兴起，互联网上以自然语言描述的非结构化数据不断增多，其中暗含了很多可以为机器决策提供助力的信息。这些信息可以用于购物推荐、智能搜索、辅助决策等。在这个用户主导生成内容的时代，大多数内容由自然语言的方式进行描述，如何自动化整理、归纳这些内容中的信息，并用于辅助机器决策，需要进行针对性的研究探索。
[0003]自然语言处理是一种采用计算机对自然语言进行分析理解，使得机器得以处理自然语言这样非结构化数据的技术手段，有利于机器对非结构化的数据中有实际语义知识的抽取，提升机器自动化智能化获取知识的能力。
[0004]知识图谱是组织、管理和应用这些从非结构化的数据中获取的知识的有力工具，命名实体识别是知识图谱构建的关键步骤之一。细分领域知识图谱的构建过程中，标注的训练数据匮乏的情况时有发生，基地知识图谱亦是如此。
[0005]迁移学习是解决神经网络在面对训练数据匮乏情况下表现不佳问题的技术手段，通过使用海量非直接目标的数据对神经网络进行深层次的预先训练，使得神经网络在未使用目标数据进行训练前就拥有了海量数据作为背景知识，最终提高模型在稀缺数据下的泛化能力。
[0006]典型的命名实体识别方法有：制定产生式规则的方法、基于机器分类算法的方法、基于深度学习的方法。研究表明，与传统的命名实体识别方法相比，基...

【技术保护点】

【技术特征摘要】
1.一种基于迁移学习的基地命名实体识别方法，其特征在于：它包括如下步骤：步骤1：从互联网获取基地的自然语言描述语料，并对自然语言描述语料进行预处理，从而去除图片描述信息和HTML标签信息，并统一描述属性值的单位；步骤2：对预处理之后的自然语言描述语料随机划分成测试集、验证集和训练集，运用BIOES格式标注方式对测试集的自然语言描述语料、验证集的自然语言描述语料和训练集的自然语言描述语料进行实体标注，形成BIOES标注格式的测试集、验证集、训练集；步骤3：获取开源的迁移学习ALBERT模型，通过基地的自然语言描述语料，使用finetune方式更新开源的迁移学习ALBERT模型，得到更新后的迁移学习ALBERT层；步骤4：利用更新后的迁移学习ALBERT层、BiGRU编码层和CRF约束层构建基地命名实体识别模型，使用BIOES标注格式的测试集、验证集和训练集作为基地命名实体识别模型的训练数据集对基地命名实体识别模型进行训练，在训练过程中，使用准确率、召回率、F1值作为训练评价指标，通过不断的迭代拟合，得到训练好的基地命名实体识别模型；步骤5：利用训练好的基地命名实体识别模型对用户上传的语句进行识别，得到上传语句对应的BIOES格式标注。2.根据权利要求1所述的基于迁移学习的基地命名实体识别系统，其特征在于：所述步骤1中，使用基于Python的爬虫Selenium根据基地名称列表爬取新闻稿，得到新闻稿未处理合集；筛查新闻稿未处理合集的内容，在新闻稿未处理合集中选取基地名称、基地位置、基地负责地区的名称、基地武器装备的名称、基地驻扎部队的名称、基地内建筑设施的名称、基地内建筑设施的编号、基地内各建筑设施的位置、基地评价；使用基于Python的爬虫Selenium根据基地名称列表爬取维基百科和/或百度百科中的基地描述信息，从而获取基地名称、基地位置、基地负责地区的名称、基地武器装备的名称、基地驻扎部队的名称、基地内建筑设施的名称、基地内建筑设施的编号、基地内各建筑设施的位置、基地评价；通过新闻稿以及维基百科和/或百度百科中获取的基地物理设施、基地位置、基地人员情况、基地武器装备信息构成基地的自然语言描述语料。3.根据权利要求1所述的基于迁移学习的基地命名实体识别系统，其特征在于：所述步骤2中，BIOES标注格式的测试集、验证集、训练集内自然语言描述语料的基地描述信息按刻画基地特点的预设基地描述分类进行基地描述类别标注，并对基地描述信息进行字符排序标注。4.根据权利要求1所述的基于迁移学习的基地命名实体识别系统，其特征在于：所述步骤3中，BIOES标注格式的训练集作为基地命名实体识别模型拟合的数据样本，BIOES标注格式的验证集用来评估基地命名实体识别模型当前的训练状态，BIOES标注格式的测试集对训练好的基地命名实体识别模型的泛化性能做出评价。5.根据权利要求1所述的基于迁移学习的基地命名实体识别系统，其特征在于：所述步骤5中，训练好的基地命名实体识别模型中更新后的迁移学习ALBERT层对用户上传的语句中的每一个字符映射成分布式字符向量；训练好的基地命名实体识别模型的BiGRU编码层使用BiGRU网络对迁移学习ALBERT层输出的分布式字符向量进行编码，形成多维字符向量；训练好的基地命名实体识别模型的CRF解码层对BiGRU编码层输出的多维字符向量进
行解码，并根据BIOES标注格式的隐含顺序关系进行约束，计算得到符合要求的标签标注顺序，得到上传语句对应的BIOES格式标注。6.根据权利要求1所述的基于迁移学习的基地命名实体识别系统，其特征在于：所述步骤4中，准确率P、召回率R、F1值的计算公式为：骤4中，准确率P、召回率R、F1值的计算公式为：骤4中，准确率P、召回率R、F1值的计算公式为：其中，TP代表正确预测的实体个数，FN代表正例预测为负例的实体个数，FP代表将负例预测为正例的实体个数，outPredictTrue表示预测为正的样本数，outAllTrue表示样本中所有的正样本数，F1值为P值和R值的调和平均值，用于平衡两个指标的占比。7.根据权利要求1所述的基于迁移学习的基地命名实体识别系统，其特征在于：所述步骤5中，上传语句对应的BIOES格式标注为Json格式，使用Python编程语言中Json模块的loads函数将Json文件解析，在Web前端展示训练好的基地命名实体识别模型预测的实体字符串和实体类型。8.根据权利要求5所述的基于迁移学习的基地命名实体识别系统，其特征在于：BiGRU编码层由实体前向和后向两个方向的GRU模型组合而成，一个GRU单元包括重置门、更新门，其详细计算公式如下：z
(t)
＝σ(W
(z)
x
(t)
+U
(z)
h
(t
‑
1)
)
ꢀꢀꢀꢀ
(4)r
(t)
＝σ(W
(r)
x
(t)
+U
(r)
h

【专利技术属性】
技术研发人员：马良荔，覃基伟，李陶圆，何智勇，牛敬华，
申请(专利权)人：中国人民解放军海军工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人