【技术实现步骤摘要】
基于自编码器的数据异常识别方法、装置和计算机设备
[0001]本申请涉及人工智能
,具体涉及一种基于自编码器的数据异常识别方法、装置和计算机设备。
技术介绍
[0002]伴随着大数据时代的到来,云计算、物联网等各种新兴的主题应运而生,其中,从海量数据中挖掘出人们最终需要的潜在数据变得越来越重要。传统的数据挖掘主要关注的是内含大量数据的数据模型,而对异常数据的检测关注较少。其实,分析和挖掘有用的数据固然重要,但出现重要数据偏差的异常值中也包含大量有用的信息,可以对数据造成影响,使数据变得畸形,从而无法得到正确的结果,因此对于异常数据的检测同样也不可忽略。
[0003]现有技术中,目前的异常检测方法大多建立在统计学的基础上,主要包括基于偏离的方法、基于指定推荐分数值分布的方法、基于距离的方法和基于密度的方法等,但这些类型的方法需要事先知道数据的分布,此外,基于统计的异常检测算法大多只适合于挖掘单变量的数值型数据,对于时间序列数据并不适用,如果直接应用于时间序列数据上效果会不太理想,且对于异常数据的识别准确性低。
技术实现思路
[0004]本申请的主要目的为提供一种基于自编码器的数据异常识别方法、装置、计算机设备和存储介质,旨在解决现有的异常检测方法的对于时间序列数据并不适用,如果直接应用于时间序列数据上效果会不太理想,且对于异常数据的识别准确性低的技术问题。
[0005]本申请提出一种基于自编码器的数据异常识别方法,所述方法包括步骤:
[0006]接收输入的待检测的时间序列; ...
【技术保护点】
【技术特征摘要】
1.一种基于自编码器的数据异常识别方法,其特征在于,包括:接收输入的待检测的时间序列;基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,所述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的;通过所述自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值;根据所述异常分数值,识别出所述时间序列中是否存在异常数据值。2.根据权利要求1所述的基于自编码器的数据异常识别方法,其特征在于,所述基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架的步骤,包括:获取所述时间序列包含的所有第一向量;以及,获取各所述稀疏连接的自编码器基于各所述第一向量生成的一一对应的第一重构向量;基于所述第一向量与所述第一重构向量,生成对应的第一目标函数;基于所述第一目标函数分别对每一个所述稀疏连接的自编码器进行训练,得到训练完成的第一自编码器,其中,所述第一自编码器的数量与所述稀疏连接的自编码器的数量相同;对所有所述第一自编码器进行集成处理,生成对应的独立框架,其中,所述独立框架内包含有指定数量的所述第一自编码器,且各所述第一自编码器之间不产生交互;将所述独立框架确定为所述自编码器集成框架。3.根据权利要求1所述的基于自编码器的数据异常识别方法,其特征在于,所述基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架的步骤,包括:获取预设的共享层,其中,所述共享层包括共享隐藏状态;通过所述共享层对所有所述稀疏连接的自编码器进行权值共享处理;对所述共享隐藏状态进行L1正则化处理,得到处理后的共享隐藏状态;获取所述时间序列包含的所有第二向量;以及,获取各所述稀疏连接的自编码器基于各所述第二向量生成的一一对应的第二重构向量;根据所述处理后的共享隐藏状态、所述第二向量以及所述第二重构向量,生成对应的第二目标函数;基于所述第二目标函数对所有所述稀疏连接的自编码器进行联合训练,得到训练完成的第二自编码器,其中,所述第二自编码器的数量与所述稀疏连接的自编码器的数量相同;对所有所述第二自编码器进行集成处理,生成对应的共享框架,其中,所述共享框架内包含有指定数量的所述第二自编码器,且各所述第二自编码器之间存在交互;将所述共享框架确定为所述自编码器集成框架。4.根据权利要求1所述的基于自编码器的数据异常识别方法,其特征在于,所述通过所述自编码器集成框架计算所述时间序列中包含的每一个向量所对应的异常分数值的步骤,
包括:通过所述自编码器集成框架中包含...
【专利技术属性】
技术研发人员:邓悦,郑立颖,徐亮,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。