基于自编码器的数据异常识别方法、装置和计算机设备制造方法及图纸

技术编号:27291093 阅读:22 留言:0更新日期:2021-02-06 12:00
本申请涉及人工智能技术领域,提供一种基于自编码器的数据异常识别方法、装置、计算机设备和存储介质,其中方法包括:接收输入的待检测的时间序列;基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架;通过自编码器集成框架计算出时间序列中包含的每一个向量所对应的异常分数值;根据异常分数值,识别出时间序列中是否存在异常数据值。通过本申请能够准确地识别出时间序列中是否存在异常数据值,有效地提高了对于时间序列中的异常数据值的识别准确性。本申请还涉及区块链领域,其中,所述自编码器集成框架可存储于区块链中。于区块链中。于区块链中。

【技术实现步骤摘要】
基于自编码器的数据异常识别方法、装置和计算机设备


[0001]本申请涉及人工智能
,具体涉及一种基于自编码器的数据异常识别方法、装置和计算机设备。

技术介绍

[0002]伴随着大数据时代的到来,云计算、物联网等各种新兴的主题应运而生,其中,从海量数据中挖掘出人们最终需要的潜在数据变得越来越重要。传统的数据挖掘主要关注的是内含大量数据的数据模型,而对异常数据的检测关注较少。其实,分析和挖掘有用的数据固然重要,但出现重要数据偏差的异常值中也包含大量有用的信息,可以对数据造成影响,使数据变得畸形,从而无法得到正确的结果,因此对于异常数据的检测同样也不可忽略。
[0003]现有技术中,目前的异常检测方法大多建立在统计学的基础上,主要包括基于偏离的方法、基于指定推荐分数值分布的方法、基于距离的方法和基于密度的方法等,但这些类型的方法需要事先知道数据的分布,此外,基于统计的异常检测算法大多只适合于挖掘单变量的数值型数据,对于时间序列数据并不适用,如果直接应用于时间序列数据上效果会不太理想,且对于异常数据的识别准确性低。

技术实现思路

[0004]本申请的主要目的为提供一种基于自编码器的数据异常识别方法、装置、计算机设备和存储介质,旨在解决现有的异常检测方法的对于时间序列数据并不适用,如果直接应用于时间序列数据上效果会不太理想,且对于异常数据的识别准确性低的技术问题。
[0005]本申请提出一种基于自编码器的数据异常识别方法,所述方法包括步骤:
[0006]接收输入的待检测的时间序列;
[0007]基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,所述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的;
[0008]通过所述自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值;
[0009]根据所述异常分数值,识别出所述时间序列中是否存在异常数据值。
[0010]可选地,所述基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架的步骤,包括:
[0011]获取所述时间序列包含的所有第一向量;以及,
[0012]获取各所述稀疏连接的自编码器基于各所述第一向量生成的一一对应的第一重构向量;
[0013]基于所述第一向量与所述第一重构向量,生成对应的第一目标函数;
[0014]基于所述第一目标函数分别对每一个所述稀疏连接的自编码器进行训练,得到训练完成的第一自编码器,其中,所述第一自编码器的数量与所述稀疏连接的自编码器的数
量相同;
[0015]对所有所述第一自编码器进行集成处理,生成对应的独立框架,其中,所述独立框架内包含有指定数量的所述第一自编码器,且各所述第一自编码器之间不产生交互;
[0016]将所述独立框架确定为所述自编码器集成框架。
[0017]可选地,所述基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架的步骤,包括:
[0018]获取预设的共享层,其中,所述共享层包括共享隐藏状态;
[0019]通过所述共享层对所有所述稀疏连接的自编码器进行权值共享处理;
[0020]对所述共享隐藏状态进行L1正则化处理,得到处理后的共享隐藏状态;
[0021]获取所述时间序列包含的所有第二向量;以及,
[0022]获取各所述稀疏连接的自编码器基于各所述第二向量生成的一一对应的第二重构向量;
[0023]根据所述处理后的共享隐藏状态、所述第二向量以及所述第二重构向量,生成对应的第二目标函数;
[0024]基于所述第二目标函数对所有所述稀疏连接的自编码器进行联合训练,得到训练完成的第二自编码器,其中,所述第二自编码器的数量与所述稀疏连接的自编码器的数量相同;
[0025]对所有所述第二自编码器进行集成处理,生成对应的共享框架,其中,所述共享框架内包含有指定数量的所述第二自编码器,且各所述第二自编码器之间存在交互;
[0026]将所述共享框架确定为所述自编码器集成框架。
[0027]可选地,所述通过所述自编码器集成框架计算所述时间序列中包含的每一个向量所对应的异常分数值的步骤,包括:
[0028]通过所述自编码器集成框架中包含的每一个自编码器计算生成与指定向量对应的重构误差,其中,所述指定向量为所述时间序列包含的所有向量中的任意一个向量;
[0029]计算所有所述重构误差的中位数;
[0030]将所述中位数确定为与所述时间序列中的所述指定向量对应的指定异常分数值。
[0031]可选地,所述通过所述自编码器集成框架中包含的每一个自编码器计算生成与指定向量对应的重构误差的步骤,包括:
[0032]通过特定自编码器对所述时间序列进行重构处理,得到与所述时间序列对应的特定重构时间序列,其中,所述特定自编码器为所述自编码器集成框架中包含的所有自编码器中的任意一个自编码器;
[0033]从所述特定重构时间序列中提取出与所述指定向量对应的特定重构向量;
[0034]根据所述指定向量与所述特定重构向量,计算出与所述指定向量对应的特定重构误差。
[0035]可选地,所述根据所述异常分数值,识别出所述时间序列中是否存在异常数据值的步骤,包括:
[0036]获取预设的异常阈值;
[0037]判断在所有所述异常分数值中,是否存在数值大于所述异常阈值的指定分数值;
[0038]若是,则从所有所述异常分数值中筛选出所述指定分数值;
[0039]从所述时间序列中查找出与所述指定分数值对应的第三向量;
[0040]将所述第三向量确定为所述异常数据值。
[0041]可选地,所述将所述第三向量确定为所述异常数据值的步骤之后,包括:
[0042]从所述时间序列中筛选出除所述第三向量之外的第四向量;
[0043]将所述第二向量标记为正常数据值;
[0044]获取与所述第三向量对应的第一数量;以及,
[0045]获取与所述第四向量对应的第二数量;
[0046]根据所述异常数据值、所述第一数量、所述正常数据以及所述第二数量,生成与所述时间序列对应的异常分析报告;
[0047]展示所述异常分析报告。
[0048]本申请还提供一种基于自编码器的数据异常识别装置,包括:
[0049]接收模块,用于接收输入的待检测的时间序列;
[0050]训练模块,用于基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,所述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自编码器的数据异常识别方法,其特征在于,包括:接收输入的待检测的时间序列;基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,所述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的;通过所述自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值;根据所述异常分数值,识别出所述时间序列中是否存在异常数据值。2.根据权利要求1所述的基于自编码器的数据异常识别方法,其特征在于,所述基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架的步骤,包括:获取所述时间序列包含的所有第一向量;以及,获取各所述稀疏连接的自编码器基于各所述第一向量生成的一一对应的第一重构向量;基于所述第一向量与所述第一重构向量,生成对应的第一目标函数;基于所述第一目标函数分别对每一个所述稀疏连接的自编码器进行训练,得到训练完成的第一自编码器,其中,所述第一自编码器的数量与所述稀疏连接的自编码器的数量相同;对所有所述第一自编码器进行集成处理,生成对应的独立框架,其中,所述独立框架内包含有指定数量的所述第一自编码器,且各所述第一自编码器之间不产生交互;将所述独立框架确定为所述自编码器集成框架。3.根据权利要求1所述的基于自编码器的数据异常识别方法,其特征在于,所述基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架的步骤,包括:获取预设的共享层,其中,所述共享层包括共享隐藏状态;通过所述共享层对所有所述稀疏连接的自编码器进行权值共享处理;对所述共享隐藏状态进行L1正则化处理,得到处理后的共享隐藏状态;获取所述时间序列包含的所有第二向量;以及,获取各所述稀疏连接的自编码器基于各所述第二向量生成的一一对应的第二重构向量;根据所述处理后的共享隐藏状态、所述第二向量以及所述第二重构向量,生成对应的第二目标函数;基于所述第二目标函数对所有所述稀疏连接的自编码器进行联合训练,得到训练完成的第二自编码器,其中,所述第二自编码器的数量与所述稀疏连接的自编码器的数量相同;对所有所述第二自编码器进行集成处理,生成对应的共享框架,其中,所述共享框架内包含有指定数量的所述第二自编码器,且各所述第二自编码器之间存在交互;将所述共享框架确定为所述自编码器集成框架。4.根据权利要求1所述的基于自编码器的数据异常识别方法,其特征在于,所述通过所述自编码器集成框架计算所述时间序列中包含的每一个向量所对应的异常分数值的步骤,
包括:通过所述自编码器集成框架中包含...

【专利技术属性】
技术研发人员:邓悦郑立颖徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1