System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及实体识别领域,特别是涉及一种电网故障预案实体识别方法、装置、设备、介质及产品。
技术介绍
1、随着电网系统的数字化和智能化进程加速,电网系统的稳定性、安全性和管理效率显得愈加重要。电网调度、维护和故障处理对电网行业的平稳运行具有关键性作用,尤其在电网故障等突发状况下,需要快速响应以保障电网供应的连续性和安全性。为了实现智能调控和自动化维护,电网系统的数据利用和文本分析需求愈专利技术显。在这一过程中,电网行业累积了大量的预案文本和故障报告,这些文本数据中包含了故障类型、设备信息、故障原因和处置措施等关键领域信息。自动提取这些关键信息,有助于实现电网运行维护的数据驱动分析和智能决策。
2、尽管电网行业拥有大量的文本数据,但传统的命名实体识别方法在处理这些电网预案文本时存在明显的不足。一般的深度学习模型在大量标注数据训练条件下表现出色,但电网行业的专业知识需求和数据样本的专业化程度较高,导致高质量、标注齐全的训练数据难以大规模获得。此外,传统的命名实体识别方法在小样本场景下识别精度有限,特别是在面临电网领域特有的长术语、缩写词和复杂语法时,传统方法的的命名实体识别识别准确性往往无法满足需求。
3、综上所述,传统深度学习模型在小样本情况表现较差以及不同种类电网预案提取泛化性差的情况导致电网故障预案实体识别中的准确性和可靠性很低。
技术实现思路
1、本申请的目的是提供一种电网故障预案实体识别方法、装置、设备、介质及产品,可解决传统深度学习模型在小样本情况表现
2、为实现上述目的,本申请提供了如下方案:
3、第一方面,本申请提供了一种电网故障预案实体识别方法,包括:
4、分别计算小样本电网故障预案集中各电网故障预案文本与待标注电网故障预案文本的语义相似度;小样本电网故障预案集中各电网故障预案文本均标注出预设待识别实体类型的实体;
5、将所述预设待识别实体类型、目标电网故障预案文本集合以及待标注电网故障预案文本组成第一提示词,并输入到大语言模型,得到第一实体集合以及第一实体集合中各实体的置信度;所述目标电网故障预案文本集合包括将小样本电网故障预案集中各电网故障预案文本按照语义相似度由大到小排序前k个电网故障预案文本;所述第一实体集合包括待标注电网故障预案文本中符合所述预设待识别实体类型的所有实体;
6、根据第一实体集合中置信度小于设定阈值的各实体在所述待标注电网故障预案文本中的起始位置和结束位置构建多个候选位置区间;
7、按照目标实体集合中各实体在电网预案专业词典知识库中的类别,得到目标实体集合中各实体的相关知识;电网预案专业词典知识库中的实体分类存储;目标实体集合为电网预案专业词典知识库与候选实体集合的交集;候选实体集合包括各候选位置区间在所述待标注电网故障预案文本中对应的实体;
8、将所述预设待识别实体类型、目标实体集合中各实体的相关知识以及目标实体集合中各实体组成第二提示词,并输入到大语言模型,得到第二实体集合;所述第二实体集合包括目标实体集合中符合所述预设待识别实体类型的所有实体;
9、确定第一实体集合中置信度大于或等于设定阈值的实体以及第二实体集合中的所有实体为所述待标注电网故障预案文本的最终实体结果。
10、可选地,所述分别计算小样本电网故障预案集中各电网故障预案文本与待标注电网故障预案文本的语义相似度,具体包括:
11、对于小样本电网故障预案集中任意一个电网故障预案文本,使用预训练句向量模型对小样本电网故障预案集中所述电网故障预案文本以及待标注电网故障预案文本进行处理,得到小样本电网故障预案集中所述电网故障预案文本的语义嵌入表示和待标注电网故障预案文本的语义嵌入表示;
12、计算小样本电网故障预案集中所述电网故障预案文本的语义嵌入表示和待标注电网故障预案文本的语义嵌入表示的余弦相似度,得到小样本电网故障预案集中所述电网故障预案文本与待标注电网故障预案文本的语义相似度。
13、可选地,所述根据第一实体集合中置信度小于设定阈值的各实体在所述待标注电网故障预案文本中的起始位置和结束位置构建多个候选位置区间,具体包括:
14、对于第一实体集合中置信度小于设定阈值的任意一个实体,用所述实体在待标注电网故障预案文本中的起始位置减去预设超参数值得到最小位置;
15、用所述实体在待标注电网故障预案文本中的结束位置加上所述预设超参数值得到最大位置;
16、以最小位置为第一区间的左端点,以最大位置作为第一区间的右端点构建第一区间;所述第一区间为闭区间;
17、对于第一区间范围内第i个整数值,以第i个整数值为左端点,以整数值集合中的所有值分别作为右端点,得到第i个整数值对应的所有候选位置区间;所述整数值集合包括所述第一区间范围内大于或等于第i个整数值的所有整数值;
18、令i的数值加1,并返回对于第一区间范围内第i个整数值,以第i个整数值为左端点,以整数值集合中的所有值分别作为右端点,得到第i个整数值对应的所有候选位置区间的步骤,直到得到第n个整数值对应的所有候选位置区间;n为第一区间范围内所有整数值的总数。
19、可选地,所述按照目标实体集合中各实体在电网预案专业词典知识库中的类别,得到目标实体集合中各实体的相关知识,具体包括:
20、对于候选实体集合中任意一个实体,判断所述实体是否存在于所述电网预案专业词典知识库中,得到第一判断结果;
21、若所述第一判断结果为是,则按照所述实体在电网预案专业词典知识库中的类别,得到所述实体的相关知识。
22、可选地,在分别计算小样本电网故障预案集中各电网故障预案文本与待标注电网故障预案文本的语义相似度之前包括:
23、将电网文本中提取的专业术语按照缩略词、同义词和专有名词解释三个类别进行存储,得到电网预案专业词典知识库。
24、可选地,按照所述实体在电网预案专业词典知识库中的类别,得到所述实体的相关知识,具体包括:
25、若所述实体在电网预案专业词典知识库中的类别为缩略词,则所述实体的相关知识为所述实体以及所述实体的全称;
26、若所述实体在电网预案专业词典知识库中的类别为同义词,则所述实体的相关知识为所述实体、所述实体的同义词以及所述实体的名词解释;
27、若所述实体在电网预案专业词典知识库中的类别为专有名词解释,则所述实体的相关知识为所述实体以及所述实体的名词解释。
28、第二方面,本申请提供了一种电网故障预案实体识别装置,包括:
29、语义相似度计算模块,用于分别计算小样本电网故障预案集中各电网故障预案文本与待标注电网故障预案文本的语义相似度;小样本电网故障预案集中各电网故障预案文本均标注出预设待识别实体类型的实体;
30、第一本文档来自技高网...
【技术保护点】
1.一种电网故障预案实体识别方法,其特征在于,所述电网故障预案实体识别方法包括:
2.根据权利要求1所述的电网故障预案实体识别方法,其特征在于,所述分别计算小样本电网故障预案集中各电网故障预案文本与待标注电网故障预案文本的语义相似度,具体包括:
3.根据权利要求1所述的电网故障预案实体识别方法,其特征在于,所述根据第一实体集合中置信度小于设定阈值的各实体在所述待标注电网故障预案文本中的起始位置和结束位置构建多个候选位置区间,具体包括:
4.根据权利要求1所述的电网故障预案实体识别方法,其特征在于,所述按照目标实体集合中各实体在电网预案专业词典知识库中的类别,得到目标实体集合中各实体的相关知识,具体包括:
5.根据权利要求4所述的电网故障预案实体识别方法,其特征在于,在分别计算小样本电网故障预案集中各电网故障预案文本与待标注电网故障预案文本的语义相似度之前包括:
6.根据权利要求5所述的电网故障预案实体识别方法,其特征在于,按照所述实体在电网预案专业词典知识库中的类别,得到所述实体的相关知识,具体包括:
7.一
8.一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-6中任一项所述的电网故障预案实体识别方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6中任一项所述的电网故障预案实体识别方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6中任一项所述的电网故障预案实体识别方法。
...【技术特征摘要】
1.一种电网故障预案实体识别方法,其特征在于,所述电网故障预案实体识别方法包括:
2.根据权利要求1所述的电网故障预案实体识别方法,其特征在于,所述分别计算小样本电网故障预案集中各电网故障预案文本与待标注电网故障预案文本的语义相似度,具体包括:
3.根据权利要求1所述的电网故障预案实体识别方法,其特征在于,所述根据第一实体集合中置信度小于设定阈值的各实体在所述待标注电网故障预案文本中的起始位置和结束位置构建多个候选位置区间,具体包括:
4.根据权利要求1所述的电网故障预案实体识别方法,其特征在于,所述按照目标实体集合中各实体在电网预案专业词典知识库中的类别,得到目标实体集合中各实体的相关知识,具体包括:
5.根据权利要求4所述的电网故障预案实体识别方法,其特征在于,在分别计算小样本电网故障预案集中各电网故障预案文本与待标注电网故障预案...
【专利技术属性】
技术研发人员:杨群,肖宇辉,田文辉,崔杨,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。