基于指针网络的输变电线路缺陷文本命名实体识别方法技术

技术编号：38220884 阅读：13 留言：0更新日期：2023-07-25 17:52

本发明专利技术提供了一种基于指针网络的输变电线路缺陷文本命名实体识别方法，包括：S1、将输变电线路缺陷文本分为原始训练集D和原始测试集T；S2、经过BERT

全部详细技术资料下载

【技术实现步骤摘要】
基于指针网络的输变电线路缺陷文本命名实体识别方法

[0001]本专利技术属于自然语言处理
，具体涉及一种基于指针网络的输变电线路缺陷文本命名实体识别方法。

技术介绍

[0002]随着智能电网的不断推进，连接到配电网的设备数量和覆盖范围都在不断扩大。随之电网生产管理系统内存储的输变电线路缺陷文本数据呈爆发式增长，为电力运检带来了新的挑战。但目前输变电线路的维护主要依赖运维人员的主观性决策，需要运维人员反复查阅和记忆大量以非结构化文本形式存储的输变电线路缺陷信息，容易产生疏忽遗漏，从而导致缺陷设备处理不及时，引发一系列级联故障，影响电力生产效率，因此，电力系统亟需将非结构化的输变电线路缺陷文本数据进行提炼，形成结构化的数据，实现输变电线路缺陷文本智能化管理。而命名实体识别是实现文本智能化管理最基础、最关键的任务之一，旨在快速地从复杂的文本中提炼出具有特定含义或指代性的实体。
[0003]研究命名实体识别的方法经过了基于字典与规则、基于机器学习、以及基于深度学习三种重要阶段。随着双向编码器表示模型BERT、ERNIE等预训练语言模型的提出，预训练
‑
微调的训练方式受到了越来越多的关注，并且取得了巨大的成功。研究人员正在逐渐将重点转向预训练语言建模，以便通过依据上下文动态调节词向量，更好地利用缺陷文本的语义特征，提高模型的学习效率和泛化能力。但现有的命名实体识别研究主要是将命名实体识别任务转化为序列标注任务来解决，这种方法能有效解决可以转化为序列标注任务的连续实体识别问题，但难以解决嵌套实体和...

【技术保护点】

【技术特征摘要】
1.一种基于指针网络的输变电线路缺陷文本命名实体识别方法，其特征在于，包括以下步骤：S1、将输变电线路缺陷文本分为原始训练集D和原始测试集T；S2、经过BERT
‑
WWM预训练语言模型的Embedding层和双向Transformer层，得到训练集每个字符对应的特征向量表示，生成训练集对应的词向量；S3、经过Span解码层，得到实体的首尾，并将实体首尾拼接得到输变电线路缺陷文本实体；S4、将所述输变电线路缺陷文本实体的Span表示并行输入Softmax层，得到最终的输变电线路缺陷文本命名实体及其对应的实体类别。2.根据权利要求1所述的基于指...

【专利技术属性】
技术研发人员：孙玉芹，肖静婷，杨致津，
申请(专利权)人：上海电力大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人