System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 电网领域关键词抽取方法、训练方法、介质和设备技术_技高网

电网领域关键词抽取方法、训练方法、介质和设备技术

技术编号:43625283 阅读:6 留言:0更新日期:2024-12-11 15:04
本发明专利技术公开了一种电网领域关键词抽取方法、训练方法、介质和设备,在训练阶段先获取电网领域词典并构建电网领域伪数据集,再将伪数据集输入预训练语言模型,进行初步调整,获得调整后的电网领域预训练模型。接着获取电网领域的第一文本数据集,对其进行预处理,得到目标文本数据集,最后将目标文本数据集输入调整后的预训练模型,进行二次调整,获得最终的电网领域关键词抽取模型。在应用阶段,将待抽取数据集输入训练好的电网领域关键词抽取模型,获取目标标签序列,并基于目标标签序列从待抽取数据集中抽取电网领域关键词,得到关键词列表。本发明专利技术提供了一种高效、精准的电网领域关键词抽取解决方案。

【技术实现步骤摘要】

本专利技术涉及,尤其是涉及一种电网领域关键词抽取方法、训练方法、介质和设备


技术介绍

1、随着工业化与信息化的深度融合,以及智能化、物联网、大数据等信息技术的飞速发展,电网领域的信息和数据呈指数级增长。在这一背景下,电网领域的关键词抽取变得至关重要。关键词抽取技术可以帮助从大量电网数据中提取关键信息,用于监测、管理和优化电网运营,还能识别互联网上的数据泄露和潜在威胁。

2、然而,目前通用的关键词抽取方法在面对电网领域的特定需求时,表现出效果不佳的缺陷,难以准确抽取出电网领域特征并识别出专业词汇。


技术实现思路

1、基于此,有必要提供电网领域关键词抽取方法、训练方法、介质和设备,以解决难以准确抽取出电网领域特征并识别出专业词汇的问题。

2、一种电网领域关键词抽取模型的训练方法,所述方法包括:

3、获取电网领域词典,并基于所述电网领域词典构造电网领域伪数据集;

4、将所述电网领域伪数据集输入预训练语言模型进行初步调整,获取调整后的电网领域预训练模型;

5、获取电网领域内的第一文本数据集,对所述第一文本数据集进行预处理以得到目标文本数据集;

6、将所述目标文本数据集输入电网领域预训练模型进行二次调整,获取调整后的电网领域关键词抽取模型。

7、在其中一个实施例中,所述基于所述电网领域词典构造电网领域伪数据集,包括:

8、随机抽取所述电网领域词典中的预设k个电网领域术语构造伪句子级文本;

9、标注所述伪句子级文本中的所有电网领域关键词,将所述电网领域关键词的首字符以第一字符的形式表示,将所述电网领域关键词的非首字符以第二字符的形式表示,以得到所述电网领域伪数据集。

10、在其中一个实施例中,所述将所述电网领域伪数据集输入预训练语言模型进行初步调整,获取调整后的电网领域预训练模型,包括:

11、将所述电网领域伪数据集输入预训练语言模型的隐藏层进行特征提取,以得到第一文本特征;

12、使用线性函数将所述第一文本特征映射到标签域中,以得到第一文本标签预测值;其中,标签域由k个电网领域术语构成;

13、将所述第一文本标签预测值输入预训练语言模型的条件随机场层,以对文本标签预测值中的标签转移概率进行建模且基于标签转移概率计算标签评分,并基于评分最大原则输出标签序列;

14、采用交叉熵损失函数基于输出的标签序列与对应真实标签之间的差距,进行梯度计算并更新模型,获取调整后的电网领域预训练模型。

15、在其中一个实施例中,所述对所述第一文本数据集进行预处理以得到目标文本数据集,包括:

16、去除所述第一文本数据集中的噪音,并以预设的文本长度进行切分,以得到第二文本数据集;

17、标注所述第二文本数据集中的所有电网领域关键词,将所述电网领域关键词的首字符以第四字符的形式表示,将所述电网领域关键词的非首字符以第五字符的形式表示,将所述第二文本数据集中除所述电网领域关键词外的字符用以第六字符的形式表示,以得到目标文本数据集。

18、在其中一个实施例中,所述将所述目标文本数据集输入电网领域预训练模型进行二次调整,获取调整后的电网领域关键词抽取模型,包括:

19、将所述目标文本数据集输入电网领域预训练模型的隐藏层进行特征提取,以得到第二文本特征;

20、将所述第二文本特征输入电网领域预训练模型的双向长短记忆网络提取全局特征,且输入电网领域预训练模型的卷积神经网络提取局部特征,且融合所述全局特征集局部特征,以得到融合特征;

21、使用线性函数将所述融合特征映射到标签域中,以得到第二文本标签预测值;

22、将所述第二文本标签预测值输入预训练语言模型的条件随机场层,以对文本标签预测值中的标签转移概率进行建模且基于标签转移概率计算标签评分,并基于评分最大原则输出预测标签序列;

23、采用交叉熵损失函数基于输出的预测标签序列与对应的真实标签之间的差距,进行梯度计算并更新模型,获取调整后的电网领域关键词抽取模型。

24、一种电网领域关键词抽取方法,所述方法:

25、获取待抽取数据集,将所述待抽取数据集输入电网领域关键词抽取模型,获取输出的目标标签序列;其中,所述电网领域关键词抽取模型通过上述电网领域关键词抽取模型的训练方法训练得到。

26、基于所述目标标签序列抽取所述待抽取数据集中的电网领域关键词,以得到电网领域关键词列表。

27、一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行电网领域关键词抽取方法的步骤。

28、一种终端设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行电网领域关键词抽取方法的步骤。

29、本专利技术提供了电网领域关键词抽取方法、训练方法、介质和设备,在训练阶段先获取电网领域词典并构建电网领域伪数据集,再将伪数据集输入预训练语言模型,进行初步调整,获得调整后的电网领域预训练模型。接着获取电网领域的第一文本数据集,对其进行预处理,得到目标文本数据集,最后将目标文本数据集输入调整后的预训练模型,进行二次调整,获得最终的电网领域关键词抽取模型。在应用阶段,将待抽取数据集输入训练好的电网领域关键词抽取模型,获取目标标签序列,并基于目标标签序列从待抽取数据集中抽取电网领域关键词,得到关键词列表。本专利技术克服了通用关键词抽取方法在电网领域应用时效果不佳的问题,提供了一种高效、精准的电网领域关键词抽取解决方案。

本文档来自技高网
...

【技术保护点】

1.一种电网领域关键词抽取模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述电网领域词典构造电网领域伪数据集,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述电网领域伪数据集输入预训练语言模型进行初步调整,获取调整后的电网领域预训练模型,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述第一文本数据集进行预处理以得到目标文本数据集,包括:

5.根据权利要求1所述的方法,其特征在于,所述将所述目标文本数据集输入电网领域预训练模型进行二次调整,获取调整后的电网领域关键词抽取模型,包括:

6.一种电网领域关键词抽取方法,其特征在于,所述方法:

7.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1-6任一项所述方法的步骤。

8.一种终端设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-6任一项所述方法的步骤。

...

【技术特征摘要】

1.一种电网领域关键词抽取模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述电网领域词典构造电网领域伪数据集,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述电网领域伪数据集输入预训练语言模型进行初步调整,获取调整后的电网领域预训练模型,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述第一文本数据集进行预处理以得到目标文本数据集,包括:

5.根据权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:苏蒙朱华黄翔于虹李杰
申请(专利权)人:云南电网有限责任公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1