System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于集控运行监视智能分析的多关键字快速匹配方法组成比例_技高网

一种用于集控运行监视智能分析的多关键字快速匹配方法组成比例

技术编号:42188133 阅读:12 留言:0更新日期:2024-07-30 18:39
本发明专利技术属于电力集控技术领域,公开了一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于所述方法包含有以下步骤:将预先准备好的大量关键字进行Trie树的构建的步骤;对Trie树进行初始化工作,计算Trie树中字符串的相同前缀的步骤;遍历海量的文本字符串,并在Trie树上根据字符串的相同前缀进行匹配的步骤;输出匹配到的所有关键字以及关键字在文本字符串中的位置的步骤。本发明专利技术具有以下主要有益技术效果:实现起来更为简单,实现门槛更低,且对于算力、内存空间的要求更低;本方法只需要遍历一次文本即可,效率更高,能够满足千万条文本的秒级处理。

【技术实现步骤摘要】

本专利技术属于电力集控,尤其是涉及 一种用于集控运行监视智能分析的多关键字快速匹配方法


技术介绍

1、国网湖十堰供电公司变电集控站运行监视中心,目前接入d5000系统,每天上传大量的运行监测告警信息,每小时3万多条信息,单日达百万条不同类型的警告信息,需要人工进行异常确认。目前集控站工作安排人员对各类运行数据和预告警信息通过人工进行处置或处理,但是由于监测告警数据量多,任务繁杂,导致信息核实消缺等工作量大,容易造成数据的积压,发生信息漏读、漏处置等,存在异常信息未能及时跟踪处置的隐患。同时,每月超1000万条数据,需要监控人员登陆平台,人工对海量数据、重复数据进行下载、清理、分类、筛选、汇总分析,耗费大量时间且重复枯燥。在此情况下,使用计算机代替人工进行数据的整理、分类等能够大大提高数据分析的准确性,也能够大大减少人工的成本,有着非常重要的意义。

2、在使用计算机对数据进行分析时,遇到的问题是d5000系统一个月会产生千万量级的数据,若使用传统字符串匹配的方式,如kmp算法,在这些数据中匹配提前准备好的大量变电站名、异常名等关键字会非常缓慢。

3、cn117540009a公开了一种基于增强预训练文本匹配模型的文本匹配方法,构建增强预训练文本匹配模型对文本进行推断,输出结果;所述增强预训练文本匹配模型在预训练模型的基础上增加对齐掩码矩阵,所述增强预训练文本匹配模型以align_transformer为骨架,align_transformer是transformer模型的改进,包括特征提取器和分类器;所述特征提取器使用堆叠的align_transformer模块对文本对进行编码得到文本特征。其解决了预训练模型在文本匹配任务中由于缺少对齐交互信息导致的短句匹配困难、鲁棒性不强问题。

4、cn117828028a公开了一种面向长文本的文本匹配方法,其包括如下步骤:基于bert模型获取训练好的标题信息t;基于longformer模型获取融合后的文本对内容信息c;基于训练好的标题信息t和融合后的文本对内容信息c,获取最终的融合信息o;基于最终的融合信息o获取相似性得分。其采用双塔式longformer模型来对待匹配文本对的文本信息进行建模,能在保留完整语义信息的前提下,高效应对长文本的匹配问题;并通过引入标题信息与全文信息之间的交互,能够使两者相互补充,从而显著提升模型性能,进一步增强匹配准确度;另外,其综合运用表示型模型和交互型模型的优势,同时在计算复杂度上做了权衡,有助于显著降低耗能,提高工业部署的可行性。

5、然而,上述现有技术针对海量数据下多关键字的匹配方法主要分为以下两类:

6、(1)基于深度学习的方法。这类方法通过深度学习的模型如bert、transformer进行海量数据下多关键字的匹配。不足是:需要的极大的算力支持,且算法模型较为复杂。

7、(2)基于传统关键字匹配的算法。这类方法通过kmp等方法在海量数据中进行多次单一关键字的匹配来实现多关键字的匹配。不足是:算法效率不高,一般在大量数据场景下耗时长。


技术实现思路

1、为此,本专利技术主要解决针对目前变电集控运行监视对接入的主设备监控等系统的海量运行监视信息文本数据进行智能阅读、统计和分析挖掘,需要大规模快速匹配到多个事先准备好的关键字及其所在位置的问题。进一步地,本专利技术的目的是揭示一种用于集控运行监视智能分析的多关键字快速匹配方法,它是采用以下技术方案实现的。

2、一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于所述方法包含有以下步骤:

3、第一步:将预先准备好的大量关键字进行trie树的构建的步骤;

4、第二步:对trie树进行初始化工作,计算trie树中字符串的相同前缀的步骤;

5、第三步:遍历海量的文本字符串,并在trie树上根据字符串的相同前缀进行匹配的步骤;

6、第四步:输出匹配到的所有关键字以及关键字在文本字符串中的位置的步骤。

7、本专利技术具有以下主要有益技术效果:实现起来更为简单,实现门槛更低,且对于算力、内存空间的要求更低;本方法只需要遍历一次文本即可,效率更高,能够满足千万条文本的秒级处理。

本文档来自技高网...

【技术保护点】

1.一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于所述方法包含有以下步骤:

2.根据权利要求1所述的一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于第一步的具体流程为:

3.根据权利要求2所述的一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于第二步的具体流程为:

4.根据权利要求3所述的一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于第三步的具体流程为:遍历海量的文本字符串,同时也根据一个一个字符在Trie上进行匹配,若在Trie树上匹配失败,则通过跳跃指针转移到另一个字符串继续进行匹配,能够减少匹配的冗余操作。

5.根据权利要求4所述的一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于第四步的具体流程为:若当匹配到Trie树上的字符串时,即匹配的节点存在结束标记时,则记录下改字符串的值以及对应海量文本中的位置,最后统一进行输出;完成基于Trie树的多关键字快速匹配方法。

【技术特征摘要】

1.一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于所述方法包含有以下步骤:

2.根据权利要求1所述的一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于第一步的具体流程为:

3.根据权利要求2所述的一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于第二步的具体流程为:

4.根据权利要求3所述的一种用于集控运行监视智能分析的多关键字快速匹配方法,其特征在于第三步的具体流程为:...

【专利技术属性】
技术研发人员:王慧慧蹇美蓉夏敏胡琪路菲杨雅媛周晓宇何爽冷琼罗雪
申请(专利权)人:国网湖北省电力有限公司十堰供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1