样本数据的扩增方法、训练方法、识别方法和装置、介质制造方法及图纸

技术编号：41408140 阅读：17 留言：0更新日期：2024-05-20 19:34

一种样本数据的扩增方法、训练方法、识别方法和装置、介质，涉及人工智能领域，其中，样本数据的扩增方法包括：获取用于训练泄漏识别模型的样本数据，样本数据包括供水管网泄漏时采集高频信号得到的原始时间序列及其标签；采用预设方式对原始时间序列进行扩增处理，得到原始时间序列对应的至少一个扩增时间序列，扩增时间序列与原始时间序列具有相同或相似的统计量和能量频谱，预设方式包括振幅抖动处理、振幅缩放处理和数值重排处理中的至少一种；将原始时间序列的标签作为该原始时间序列对应的扩增时间序列的标签；将扩增时间序列及其标签作为扩增的样本数据，以训练泄漏识别模型。有助于降低训练数据的不均衡对模型识别性能的不利影响。

全部详细技术资料下载

【技术实现步骤摘要】

本公开实施例涉及人工智能领域，尤指一种样本数据的扩增方法、训练方法、识别方法和装置、介质。

技术介绍

1、供水管网是城市的大型基础设施，承载着输送清洁水资源的重要任务。然而，由于管道老化腐蚀、外力破坏以及管理不当等因素，供水管网的漏损问题成为可持续利用和管理城市水资源的一大阻碍。泄漏识别是漏损治理的重要一环，其目的是通过技术手段尽早发现供水管网中的泄漏事件，对于降低供水管网漏损率、建设节水型社会具有重大意义。

2、随着监测设备和通讯技术的发展以及分区计量的全面推广，水量、压力以及声学等监测设备大量安装应用于供水管网，供水企业逐渐收集并积累了大量数据。在这一背景下，数据驱动的泄漏识别已成为供水管网领域的一大热点问题，例如利用深度学习模型(例如卷积神经网络)对采集到的数据进行识别，以预测供水管网中是否发生泄漏。

3、对于深度学习模型而言，训练数据的质量直接关系到深度学习模型的识别性能。然而现实中供水管网中的监测数据绝大部分为正常运行状态下采集到的非泄漏数据，泄漏数据的数量极少，因而用于识别泄漏的深度学习模型的训练数据中表征泄漏状态下的样本数量极少，这就导致训练样本存在较严重的数据不均衡问题，从而对模型的识别性能造成了不利影响。因此，如何有效增加泄漏数据的数量，对于提升供水管网的泄漏识别效果至关重要。

技术实现思路

1、本公开实施例提供了一种样本数据的扩增方法、训练方法、识别方法和装置、介质。

2、第一方面，本公开实施例提供了一种样本数据的扩增方法，包

3、第二方面，本公开实施例提供了供水管网的泄漏识别模型的训练方法，包括：获取初始样本集，初始样本集包括已标记的多个非泄漏时间序列和至少一个泄漏时间序列，非泄漏时间序列为在不存在泄漏的供水管线上采集高频信号得到的时间序列，泄漏时间序列为在存在泄漏的供水管线上采集高频信号得到的时间序列；按照上述实施例中样本数据的扩增方法对泄漏时间序列进行扩增处理，得到扩增后的样本集；基于扩增后的样本集，对供水管网的泄漏识别模型进行训练，得到训练后的泄漏识别模型。

4、第三方面，本公开实施例提供了一种供水管网的泄漏识别方法，包括：获取待识别数据，待识别数据为采集待识别供水管网的高频信号得到的时间序列；将待识别数据输入预先训练的泄漏识别模型，预测待识别供水管网是否存在泄漏，泄漏识别模型通过上述实施例中的供水管网的泄漏识别模型的训练方法训练得到。

5、第四方面，本公开实施例中提供了一种样本数据的扩增装置，包括处理器和保存有计算机程序的存储器，计算机程序被处理器执行时，可实现上述实施例中的样本数据的扩增方法。

6、第五方面，本公开实施例提供了一种供水管网的泄漏识别模型的训练装置，包括处理器和保存有计算机程序的存储器，计算机程序被处理器执行时，可实现上述实施例中的供水管网的泄漏识别模型的训练方法。

7、第六方面，本公开实施例提供了一种供水管网的泄漏识别装置，包括处理器和保存有计算机程序的存储器，计算机程序被处理器执行时，可实现上述实施例中的供水管网的泄漏识别方法。

8、第七方面，本公开实施例提供了一种非瞬态计算机存储介质，计算机存储介质存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的样本数据的扩增方法或供水管网的泄漏识别模型的训练方法或供水管网的泄漏识别方法。

9、本公开实施例的样本数据的扩增方法，采用振幅抖动处理、振幅缩放处理和数值重排处理中的至少一种方式对原始时间序列进行扩增处理，得到的扩增时间序列与原始时间序列具有相同或相似的统计量和能量频谱，确保扩增时间序列与原始时间序列具有相同或相似的特征信息，即可以在不改变样本数据的标签的前提下，扩增指定类型的样本数据的数量，尤其适应于某些难以获取的样本数据(例如供水管网泄漏时的数据)，通过样本数据的扩增使得模型的训练数据更加均衡，有助于降低训练数据的不均衡对泄漏识别模型的识别性能的不利影响。

10、本公开的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得更加清楚，或者通过实施本公开而了解。本公开的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

本文档来自技高网...

【技术保护点】

1.一种样本数据的扩增方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述振幅抖动处理包括：获取第一预设数量个白噪声序列；将待抖动的时间序列分别与每个白噪声序列合成，得到第一预设数量个振幅抖动后的时间序列；

3.根据权利要求2所述的方法，其特征在于，获取第一预设数量个白噪声序列，包括：

4.根据权利要求2所述的方法，其特征在于，采用预设方式对所述原始时间序列进行扩增处理，得到所述原始时间序列对应的至少一个扩增时间序列，包括：

5.根据权利要求2所述的方法，其特征在于，采用预设方式对所述原始时间序列进行扩增处理，得到所述原始时间序列对应的至少一个扩增时间序列，包括：

6.根据权利要求5所述的方法，其特征在于，将所述振幅抖动后的时间序列确定为所述待缩放的时间序列进行振幅缩放，得到所述振幅缩放后的时间序列之前，所述方法还包括：获取第一预设数量个所述缩放系数；以及，

7.根据权利要求2所述的方法，其特征在于，采用预设方式对所述原始时间序列进行扩增处理，得到所述原始时间序列对应的至少一个扩增时间序列，包括：

8.根据权利要求5至7之一所述的方法，其特征在于，将所述振幅缩放后的时间序列确定为所述待重排的时间序列进行数值重排，得到所述调整后的时间序列，包括：

9.根据权利要求8所述的方法，其特征在于，基于所述原始时间序列调整所述第一时间序列的频谱，得到与所述原始时间序列的能量频谱相同的第二时间序列，包括：

10.根据权利要求9所述的方法，其特征在于，基于所述原始时间序列调整所述第二时间序列的振幅，得到所述调整后的时间序列，包括：

11.根据权利要求10所述的方法，其特征在于，所述变化程度按照如下算式确定：

12.一种供水管网的泄漏识别模型的训练方法，包括：

13.根据权利要求12所述的方法，其特征在于，所述初始样本集包括第一集合、第二集合和第三集合，每个集合均包括多个所述非泄漏时间序列和至少一个所述泄漏时间序列；

14.根据权利要求13述的方法，其特征在于，基于所述训练集对所述供水管网的泄漏识别模型进行训练，包括：采用短时傅里叶变换，将所述训练集中的时间序列转换为样本时频谱图；对所述样本时频谱图中的数值进行遮蔽，得到遮蔽后的时频谱图；将所述遮蔽后的时频谱图作为输入，将所述遮蔽后的时频谱图对应的标签作为期望输出，训练所述供水管网的泄漏识别模型；

15.一种供水管网的泄漏识别方法，包括：

16.一种样本数据的扩增装置，包括处理器和保存有计算机程序的存储器，其特征在于，所述计算机程序被所述处理器执行时，可实现权利要求1至11之一所述的样本数据的扩增方法。

17.一种供水管网的泄漏识别模型的训练装置，包括处理器和保存有计算机程序的存储器，其特征在于，所述计算机程序被所述处理器执行时，可实现权利要求12至14之一所述的供水管网的泄漏识别模型的训练方法。

18.一种供水管网的泄漏识别装置，包括处理器和保存有计算机程序的存储器，其特征在于，所述计算机程序被所述处理器执行时，可实现权利要求15所述的供水管网的泄漏识别方法。

19.一种非瞬态计算机存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至11之一所述的样本数据的扩增方法或权利要求12至14之一所述的供水管网的泄漏识别模型的训练方法或权利要求15所述的供水管网的泄漏识别方法。

...

【技术特征摘要】

1.一种样本数据的扩增方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，获取第一预设数量个白噪声序列，包括：

10.根据权利要求9所述的方法，其特征在于，基于所述原始时间序列调整所述第二时间序列的振幅，得到所述调整后的时间序列，包括：

11.根据权利要求10所述的方法，其特征在...

【专利技术属性】
技术研发人员：刘书明，吴以朋，吴雪，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人