使用倒排索引的时序异常检测制造技术

技术编号:33093656 阅读:10 留言:0更新日期:2022-04-16 23:23
实施方式从索引事件中识别异常事件。示例性系统接收事件的维度,定义测试区间的测试开始时间和测试持续时间。系统可以识别与维度匹配的事件集。所述事件集包括在测试区间内或在至少两个参考区间之一内发生的事件。对于测试区间和参考区间,系统为事件集中的维度值的每个唯一组合生成聚合值。所述系统基于参考区间和测试区间的聚合值的比较,选择维度值的唯一组合中的至少一个用于异常检测,并对所选的维度值的唯一组合的历史时序执行异常检测。系统可以报告被识别为异常的、所选择的维度值的唯一组合中的任何一个。一组合中的任何一个。一组合中的任何一个。

【技术实现步骤摘要】
【国外来华专利技术】使用倒排索引的时序异常检测

技术介绍

[0001]异常和趋势检测、生产监控、银行交易、医疗交易,乃至突发或趋势新闻识别对于很多不同问题来说是有益的。这种检测系统作用于时序数据,例如,在时间段上跟踪具有特定维度标签或维度标签的组合的事件的某个值。一些异常/趋势检测系统可以使用预测模型来确定值是否落在预测范围之外。但是,预测模型高度依赖于所建模的维度并且训练时需要大量的计算。因此,这样的系统在预先训练的具有特定维度的模型上运行或作为批作业运行。

技术实现思路

[0002]异常或趋势检测系统,或简言之,检测系统是基于时序数据的大规模聚合来识别异常或趋势的分布式计算机系统。检测系统是灵活且高效的,使得能够针对由时序数据跟踪的维度的任何请求组合实时识别异常/趋势。维度表示特定类型的数据。例如,维度可以是语言、状态、服务提供商、温度等。标签指示维度的值。例如,状态维度可以具有标签“待审核(pending)”、“批准(approved)”和“拒绝(denied)”,并且温度维度可以具有将温度测量表示为标签的任何数字。检测系统将这些维度中的一者或多者作为参数。检测系统从大量(数百万或数十亿)时序中的维度标记的所有可能组合中识别数据点,这些数据点可能表示异常。例如,如果参数标识状态和交易类型,则系统确定在指定的时间间隔内,事件存储库中存在哪些状态和交易类型标签的唯一组合(例如,<待审核,存款(deposit)>、<批准,转移(transfer)>、<待审核,转移>、<拒绝,存款>等)。这些唯一的组合可以被称为唯一的维度标签或片段。检测系统比较不同唯一组合的聚合值(或多个值),并确定哪些是感兴趣的,例如哪些是用于进一步分析的候选。检测系统执行密集计算以仅为被选择用于进一步分析的那些候选训练预测模型。检测系统使用预测模型确定候选是否表示异常。因为检测系统消除了维度标签的绝大多数潜在组合,所以即使事先不知道要对哪个维度组合建模,系统也能够实时操作。
[0003]所公开的实施方式首先查询事件存储库的时序数据,该时序数据可以用于识别和分析所请求的维度的唯一组合。该分析将测试区间的聚合值与一个或多个参考区间中的每一个的聚合值进行比较。可以提供测试区间或用于确定测试区间的数据作为参数。参考区间或用于确定参考区间的数据也可以作为参数提供。在一些实施方式中,可以根据测试区间的信息来确定参考区间。对测试区间和参考区间中的数据的分析使得检测系统能够快速选择异常候选。对于作为参数提供的一维,异常候选是唯一的维度标签。对于作为参数提供的两个或多个维度,异常候选是维度标记的唯一组合,该组合包括作为参数提供的每个维度的标记。系统可以对由候选选择过程识别的几个异常候选执行完整的预测分析,例如训练和使用预测模型。预测可以用于确定异常候选的最近值是否足够远离预测值以有资格作为异常。如果是,则检测系统可以提供维度标签作为响应,例如用于报告或进一步处理。
[0004]可以实现所公开的实施方式以实现以下优点中的一者或多者。例如,即使对于先前未知的维度组合,只要维度在时序库中被捕获,那么系统也能够实时提供异常检测。作为
另一个示例,检测系统具有树状结构。树状结构将数十亿个数据点大致线性地缩放为所添加的叶子的数目。换句话说,实施方式可以扩展到数十亿个时序,同时仍然实现实时等待时间。大规模检测系统呈现出固有的可扩展性挑战,特别是当用于具有极低延迟要求的应用时,例如,为与金融交易、机械系统、欺诈检测、恶意软件识别等相关的应用提供实时警报。许多预测和异常检测系统观察随时间的预定域阈值或动态地调整分辨率区间。但是,这样的系统不能扩展到数百亿的数据点,并且或者依赖于大规模的批作业(牺牲延迟)或者仅在数据的子集上运行(牺牲召回)。相反,所公开的实施方式可以在整个事件储存库上实时运行,因为训练预测模型的计算密集型工作仅针对相对少的维度组合来执行。即,候选维度组合被识别,并且基于所识别的维组合而不是基于每个维贡献来执行预测模型,这显著地减少了计算负担。作为另一示例,所公开的实施方式可以作为服务提供给任何时序储存库。实施方式对于底层数据点是灵活且高度可定制的。实施方式可以成批地以及实时地运行。
[0005]在附图和以下描述中阐述了一个或多个实施方式的细节。通过说明书、附图和权利要求书,本主题的其它特征、方面和优点将变得显而易见。
附图说明
[0006]图1图示了根据所公开的主题的用于基于所请求的维度从事件储存库中识别异常的示例检测系统。
[0007]图2是根据所公开的主题的用于从时序中识别所请求维度中的异常的示例性过程的流程图。
[0008]图3是根据所公开的主题的用于评估异常候选的示例性过程的流程图。
[0009]图4是根据所公开的主题的示例性事件储存库。
[0010]图5图示了基于图4的示例事件储存库和所公开的实施方式的示例性异常候选选择。
[0011]图6示出了可用于实现所描述的技术的计算机设备的示例。
[0012]图7示出了可用于实现所述技术的分布式计算机设备的示例。
[0013]各个附图中相同的附图标记表示相同的元件。实施例的具体实施方式
[0014]实施方式通过从类型化的事件时序储存库(time

series event repository)中识别所请求维度的异常来为事件跟踪系统提供增强。实施方式可以使用类型化事件的索引来标识异常候选片段(slice)。实施方式可以使用来自类型化事件时序(time

series)储存库的历史数据来构建仅用于那些候选片段的预测模型,并且使用该预测模型来预测该片段是否表示异常。
[0015]如本文所使用的,时序数据意味着表示在特定时间段期间发生的事件的数据。事件与一个或多个数据点相关联。每个数据点具有维度。每个维度可以在时序中与特定时间戳相关联,并且具有标签。标签表示维度值。例如,如果维度是“语言”,则维度标签可以是“英语”、“俄语”、“日语”等。类似地,如果维度是“压力”,则维度标签可以是表示压力测量的数字。时序数据点可以包括维度的指示和时间戳的标签的指示。在一些实施方式中,每个时序数据点具有表示发生计数的隐含值,即一(1)的计数。在一些实施方式中,时序数据点具有表示计数的表达值,该计数可以是一或大于一的数。在一些实施方式中,时序数据点具有
表示另一种适合于聚合函数(aggregate function)的表达值,例如平均值、最大值、中位数(median)、最小值、和值等。
[0016]时序数据可以保留短时间段。短时间段的长度可以是系统可调参数。时序事件储存库可以仅维护足够的历史时序数据以提供准确的预测。对于实时异常检测,这可以是几周、几天或甚至几个小时,这取决于被分析的事件的类型。因此,短时间段通常可以是大约数分钟、数小时或数天,而不是数月或数年。
[0017]事件时序数据,例如与特定事件相关的维度,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于识别异常事件的方法,其特征在于,所述方法包括:从将时间戳与维度标签和所述时间戳的聚合值相关联的事件索引中获得来自所述索引事件的数据点集,所述数据点集具有与一个或多个查询维度中的查询维度相匹配的维度,并且具有在测试区间或多个参考区间中的参考区间内的时间戳,其中,所述一个或多个查询维度定义维度组合;对于所述多个参考区间中的每个参考区间和所述测试区间中的每个唯一片段,计算相应的聚合值,唯一片段是来自与所述查询的所述维度组合相匹配的所述数据点集的唯一维度标签组合的组合;对于所述唯一片段中的至少一些,通过确定以下内容来识别异常候选:所述唯一片段出现在至少一个参考区间中,但不在所述测试区间中,或所述唯一片段出现在所有的所述参考区间和所述测试区间中,并且所述测试区间的所述聚合值与所述多个参考区间中的任一个的相应聚合值之间的相对变化满足相对变化阈值;以及对于每个异常候选片段:根据从所述事件索引获得的历史时序生成预测模型,所述历史时序是具有与所述异常候选片段的所述维度标签相匹配的维度标签的索引条目,使用来自所述事件索引的数据确定所述异常候选片段的评估区间的实际值,从所述预测模型获得所述异常候选片段的预测值,以及响应于确定所述预测值在所述实际值的预定范围之外,将所述异常候选片段报告为异常片段。2.根据权利要求1所述的方法,其特征在于,被评估为异常候选的所述至少一些唯一片段是在所述测试区间和所述多个参考区间内出现率最高的预定数量的片段。3.根据权利要求1或2所述的方法,其特征在于,经由API从请求过程获得所述一个或多个查询维度和所述测试区间,并且将所述异常候选片段报告为异常片段包括,报告所述异常片段的所述维度标签。4.根据权利要求1、2或3所述的方法,其特征在于,对于参考区间,所述测试区间的所述聚合值与所述参考区间的所述相应聚合值之间的相对变化满足相对变化阈值,响应于同样确定所述测试区间的所述聚合值与所述参考区间的所述相应聚合值之间的绝对变化满足绝对变化阈值,将所述唯一片段识别为异常候选片段。5.根据前述任一权利要求所述的方法,其特征在于,所述聚合值是计数。6.根据权利要求5所述的方法,其特征在于,所述计数在所述事件索引中被暗示,每个时间戳是每个维度标签中的一个的计数。7.根据前述任一权利要求所述的方法,其特征在于,所述测试区间具有测试区间持续时间,且所述多个参考区间中的每一个具有为所述测试区间持续时间的倍数的相关联的持续时间。8.根据权利要求7所述的方法,其特征在于,对于具有比所述测试区间持续时间长的持续时间的参考区间,在所述参考区间的所述持续时间中的每个测试区间持续时间来计算所述聚合值的平均值。9.根据前述任一权利要求所述的方法,其特征在于,所述预测模型是线性回归模型、移
动平均模型、或局部估计散点图平滑(LOESS)模型中的一个。10.根据前述权利要求中任一项所述的方法,其特征在于,所述历史时序包括训练数据和保留数据,并且生成所述预测模型包括使用所述保留数据来评估所述预测模型的准确性,并且所述预定范围取决于所述预测模型的所述准确性。11.根据权利要求10所述的方法,其特征在于,确定所述预测值在所述实际值的所述预定范围之外包括:使用对数准确性比来计算所述保留数据上的误差;以及通过从所述误差在所述保留数据上的分布确定置信区间来确定置信阈值c,其中,所述预定范围基于所述置信度阈值c。12.根据权利要求11所述的方法,其特征在于,确定所述预测值在所述保留数据的预定范围之外包括:获得最大差值阈值d;获得预测额外权重w;响应于确定c*(forecast
val
+w)>(actual
val
+w)*d,确定所述预测值在所述预定范围之外,其中,forecast
val
是所述预测值并且actual
val
是所述实际值,以及响应于确定actual
val
+w<(c*(forecast
val
+w))/d,确定所述预测值在所述预定值范围之外。13.根据前述任一权利要求所述的方法,其特征在于,获得区间的索引条目包括:根服务器向多个叶子服务器发送识别所述一个或多个查询维度和区间的请求,在所述多个叶子服务器中的每个叶子服务器处搜索事件索引条目,所述事件索引条目具有与所述一个或多个查询维度中的查询维度相匹配的维度,并且所述事件索引条目具有所述区间内的时间戳,以及所述多个叶子服务器中的每个叶子服务器向所述根服务器提供响应索引条目每个响应索引条目包括所述匹配维度的所述标签、所述时间戳和所述聚合值。14.一种方法,其...

【专利技术属性】
技术研发人员:埃马努埃尔
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1