一种奇异序列数据探测系统及其探测方法技术方案

技术编号:14850723 阅读:112 留言:0更新日期:2017-03-18 13:18
本发明专利技术涉及一种奇异序列数据探测系统及其探测方法,所述方法基于Hadoop平台和带权值优化进行奇异序列数据探测;所述方法包括:通过对数据集进行两两之间的比较生成离群度;对生成的离群度的结果进行排序,然后通过投票理论对结果进行聚集,得出整个序列数据集中全部序列数据的综合离群度;所述离群度优化数据集中每个序列的投票权值,迭代执行,直到权值的结果收敛或者迭代次数到达上限。本发明专利技术技术方案解决数据标准难以获取以及数据量巨大带来的性能问题。

【技术实现步骤摘要】

:本专利技术涉及计算机中奇异序列数据探测领域,更具体涉及一种基于Hadoop平台和带权值优化的奇异序列数据探测系统及其探测方法
技术介绍
:常见的奇异序列数据探测方法主要有:基于概率统计模型的奇异序列数据探测;基于线性模型的奇异序列数据探测;基于近邻模型的奇异序列数据探测。不同的方法适用于不同的数据类型。对于序列数据而言,通常使用相似度来测量序列数据中的奇异对象。在对序列数据集中各个序列数据相似性度量的时候,需要针对序列数据的特点选择合适的方法,如杰卡德距离(JaccardDistance)、海明距离(Hammingdistance)等,这些度量方式可以很好区别两个序列数据。在获得数据集中各个序列数据实例的离群度的过程中,需要以一个序列对象作为评价标准,将数据集中的每个序列数据对象与之对比,获得数据集中每个数据对象的相似性分数。相似性分数越高,离群度越低。然而在真实的情况下,作为评价标准的对象很难获取,因此本专利技术提出了一种基于投票理论的方法。在这个方法中,依次将数据集中对每个数据对象作为评价标准,用于评价其它的数据对象。即,每个数据对象都以其它数据对象作为标准进行了评价,再将这些评价结果综合起来用于作为序列评价结果。但是使用这个方法存在一个问题,不同的序列数据对象的质量不同,所以需要对它们的投票权值做出修正。在实际操作中,大数据会为奇异序列数据探测带来考验。而这个框架的并行性很高,所以将该框架运用于Hadoop平台中可以解决数据量增大带来的性能问题。Hadoop平台的MapReduce框架中将数据集所有内容复制到各个节点,每个节点选择一个数据对象作为评价标准获得评价结果,再对结果进行聚合,获得各序列数据对象最终的评价结果。
技术实现思路
:本专利技术的目的是提供一种奇异序列数据探测系统及其探测方法,解决数据标准难以获取以及数据量巨大带来的性能问题。为实现上述目的,本专利技术采用以下技术方案:一种奇异序列数据探测方法,基于Hadoop平台和带权值优化进行奇异序列数据探测;所述方法包括:通过对数据集进行两两之间的比较生成离群度;对生成的离群度的结果进行排序,然后通过投票理论对结果进行聚集,得出整个序列数据集中全部序列数据的综合离群度;所述离群度优化数据集中每个序列的投票权值,迭代执行,直到权值的结果收敛或者迭代次数到达上限。通过选取使用多种不同类型的离群度度量方式中的一种度量方式来进行离群度度量,并且使用Hadoop平台的MapReduce框架来加速基于序列对的所述离群度生成的计算。所述离群度度量方式为对于目标数据集中的所有序列数据,依次将其取出作为评价标准序列,将剩余的序列作为待评价的序列,对剩余的序列一一的进行评价,获得基础的离群度评价结果;然后对每个序列作出的评价结果进行一个排序,为后面进行的基础离群度评价结果的聚集提供一个基础。通过选取使用多种不同类型的投票方式来中的一种投票方式对基础的离群度评价结果进行聚集,并且使用Hadoop平台的MapReduce框架来加速基于对离群度的聚集过程。在所述投票理论中选出一个投票方式,对于序列数据集中的每个序列,我们通过Hadoop数据平台进行对其进行离群度得分的聚集,即将每条一个序列得出的离群度序列分发给一个单独的服务器,然后通过Reducer函数将结果进行聚集。所述离群度优化数据集中每个序列的投票权值的过程包括:对整个数据集的离群度的值进行归一化处理,通过归一化处理值修正数据集中全部序列的投票权值;在修正后的权值的基础上,重新进行探测方法的步骤,直到迭代次数超过上限,或者某次迭代后整个数据集的离群度的评价和上次结果之间的差值小于用户设定的阈值;最终输出整个序列数据集中每个序列的离群度得分结果。在所述通过对数据集进行两两之间的比较生成离群度的步骤前还包括:将全部的序列的投票权值都初始化为1.0。一种奇异序列数据探测系统,基于Hadoop平台和带权值优化进行奇异序列数据探测;所述系统包括:序列离群度生成模块,通过对数据集进行两两之间的比较生成离群度;投票理论的结果聚集模块,对生成的离散度的结果进行排序,然后通过投票理论对结果进行聚集,得出整个序列数据集中全部序列数据的综合离群度;权值的结果优化模块,用于离群度优化数据集中每个序列的投票权值,迭代执行,直到权值的结果收敛或者迭代次数到达上限。和最接近的现有技术比,本专利技术提供技术方案具有以下优异效果1、本专利技术技术方案高效灵活地实现了对一个序列数据的数据集进行奇异对象探测的任务;2、本专利技术技术方案基于带权值优化的投票理论的提高本框架的可靠性和有效性;3、本专利技术技术方案解决优化数据对象投票的能力的问题;4、本专利技术技术方案解决大数据为本专利技术的处理框架带来的性能问题。附图说明图1为本专利技术实施例算法框架示意图;图2为本专利技术实施例算法流程示意图;图3为本专利技术实施例序列离群度生成示意图;图4为本专利技术实施例利用序列数据评价结果进行投票获取离群度示意图;图5为本专利技术实施例利用离群度对权值进行修改示意图。具体实施方式下面结合实施例对专利技术作进一步的详细说明。实施例1:本例的专利技术提供一种奇异序列数据探测系统及其探测方法,所述方法如图2所示包括:1)将需要进行奇异序列数据探测的序列数据集提交给框架;2)选取合适的离群度度量方法:对于不同的类型,不同领域的序列数据集而言,需要进行离群度的度量的时候,我们需要的具体的离群度度量方式是不同的,本框架实现了包括最长公共子串(LongestCommonSubsequence,LCS)、杰卡德距离(JaccardDistance)、编辑距离(EditDistance)、海明距离(Hammingdistance)等多种度量方式。对于具体的问题还可以引入相关领域的知识构造出适合特定的应用的特殊离群度度量方法,以提高奇异序列数据探测的可靠性和有效性。对于整个框架而言,算法的流程与奇异对象探测的具体度量方式是无关;3)选取合适的投票理论:类似于离群度度量方法,对于不同类型和领域的序列数据集而言,并没有一个可以适用于全部数据集的投票理论,不同的投票方法如:PluralityVoting,InstantRunoffVoting,BordaCount,Copeland’sMethod和ApprovalVoting都有自己的优点、缺点和使用范围。对于整个框架而言,具体的投票理论的选择也和流程无关。4)将全部的序列的投票权值都初始化为1.0;5)通过数据集中的每个序列对数据集中的全部其它的序列,利用选定的离群度度量方法进行一个离群度评分。对于具有n条序列的数据集,如果离群度的评价方法对称,那么需要进行n×(n-1)/2次基于序列对的评价,如果离群度的评价方法不对称,那么需要进行n×(n-1)次基于序列对的评价;6)在上一个步骤中,序列数据集中的每个序列都对其余的序列进行了评价,我们对这n-1条(假设数据集大小为n)评价进行排序,这样我们得到n条长度为n-1的离群度评价序列;7)现在根据n条长度为n-1的离群度评价序列,利用选定的投票理论对这些序列进行离群度的结果进行带权值的聚集,即不是简单的将每个序列获得的离群度得分相加,而是将评价的序列的离群度乘以权值后再利用投票理论进本文档来自技高网
...
一种奇异序列数据探测系统及其探测方法

【技术保护点】
一种奇异序列数据探测方法,基于Hadoop平台和带权值优化进行奇异序列数据探测;其特征在于:所述方法包括:通过对数据集进行两两之间的比较生成离群度;对生成的离群度的结果进行排序,然后通过投票理论对结果进行聚集,得出整个序列数据集中全部序列数据的综合离群度;所述离群度优化数据集中每个序列的投票权值,迭代执行,直到权值的结果收敛或者迭代次数到达上限。

【技术特征摘要】
1.一种奇异序列数据探测方法,基于Hadoop平台和带权值优化进行奇异序列数据探测;其特征在于:所述方法包括:通过对数据集进行两两之间的比较生成离群度;对生成的离群度的结果进行排序,然后通过投票理论对结果进行聚集,得出整个序列数据集中全部序列数据的综合离群度;所述离群度优化数据集中每个序列的投票权值,迭代执行,直到权值的结果收敛或者迭代次数到达上限。2.如权利要求1所述的一种奇异序列数据探测方法,其特征在于:通过选取使用多种不同类型的离群度度量方式中的一种度量方式来进行离群度度量,并且使用Hadoop平台的MapReduce框架来加速基于序列对的所述离群度生成的计算。3.如权利要求2所述的一种奇异序列数据探测方法,其特征在于:所述离群度度量方式为对于目标数据集中的所有序列数据,依次将其取出作为评价标准序列,将剩余的序列作为待评价的序列,对剩余的序列一一进行评价,获得基础的离群度评价结果;然后对每个序列作出的评价结果进行一个排序,为后面进行的基础离群度评价结果的聚集提供一个基础。4.如权利要求3所述的一种奇异序列数据探测方法,其特征在于:通过选取使用多种不同类型的投票方式来中的一种投票方式对基础的离群度评价结果进行聚集,并且使用Hadoop平台的MapReduce框架来加速基于对离群度的聚集过程。5.如权利要求4所述的一种奇异序列数据探测方法,其特征在于:在所述投票理论中...

【专利技术属性】
技术研发人员:丁杰孟祥君何金陵杨佩饶玮潘森裘洪彬
申请(专利权)人:国网智能电网研究院国网山东省电力公司国家电网公司江苏省电力公司信息通信分公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1