【技术实现步骤摘要】
【国外来华专利技术】使用倒排索引的时序异常检测
技术介绍
[0001]异常和趋势检测、生产监控、银行交易、医疗交易,乃至突发或趋势新闻识别对于很多不同问题来说是有益的。这种检测系统作用于时序数据,例如,在时间段上跟踪具有特定维度标签或维度标签的组合的事件的某个值。一些异常/趋势检测系统可以使用预测模型来确定值是否落在预测范围之外。但是,预测模型高度依赖于所建模的维度并且训练时需要大量的计算。因此,这样的系统在预先训练的具有特定维度的模型上运行或作为批作业运行。
技术实现思路
[0002]异常或趋势检测系统,或简言之,检测系统是基于时序数据的大规模聚合来识别异常或趋势的分布式计算机系统。检测系统是灵活且高效的,使得能够针对由时序数据跟踪的维度的任何请求组合实时识别异常/趋势。维度表示特定类型的数据。例如,维度可以是语言、状态、服务提供商、温度等。标签指示维度的值。例如,状态维度可以具有标签“待审核(pending)”、“批准(approved)”和“拒绝(denied)”,并且温度维度可以具有将温度测量表示为标签的任何数字。检测系统将这些维度中的一者或多者作为参数。检测系统从大量(数百万或数十亿)时序中的维度标记的所有可能组合中识别数据点,这些数据点可能表示异常。例如,如果参数标识状态和交易类型,则系统确定在指定的时间间隔内,事件存储库中存在哪些状态和交易类型标签的唯一组合(例如,<待审核,存款(deposit)>、<批准,转移(transfer)>、<待审核,转移> ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于识别异常事件的方法,其特征在于,所述方法包括:从将时间戳与维度标签和所述时间戳的聚合值相关联的事件索引中获得来自所述索引事件的数据点集,所述数据点集具有与一个或多个查询维度中的查询维度相匹配的维度,并且具有在测试区间或多个参考区间中的参考区间内的时间戳,其中,所述一个或多个查询维度定义维度组合;对于所述多个参考区间中的每个参考区间和所述测试区间中的每个唯一片段,计算相应的聚合值,唯一片段是来自与所述查询的所述维度组合相匹配的所述数据点集的唯一维度标签组合的组合;对于所述唯一片段中的至少一些,通过确定以下内容来识别异常候选:所述唯一片段出现在至少一个参考区间中,但不在所述测试区间中,或所述唯一片段出现在所有的所述参考区间和所述测试区间中,并且所述测试区间的所述聚合值与所述多个参考区间中的任一个的相应聚合值之间的相对变化满足相对变化阈值;以及对于每个异常候选片段:根据从所述事件索引获得的历史时序生成预测模型,所述历史时序是具有与所述异常候选片段的所述维度标签相匹配的维度标签的索引条目,使用来自所述事件索引的数据确定所述异常候选片段的评估区间的实际值,从所述预测模型获得所述异常候选片段的预测值,以及响应于确定所述预测值在所述实际值的预定范围之外,将所述异常候选片段报告为异常片段。2.根据权利要求1所述的方法,其特征在于,被评估为异常候选的所述至少一些唯一片段是在所述测试区间和所述多个参考区间内出现率最高的预定数量的片段。3.根据权利要求1或2所述的方法,其特征在于,经由API从请求过程获得所述一个或多个查询维度和所述测试区间,并且将所述异常候选片段报告为异常片段包括,报告所述异常片段的所述维度标签。4.根据权利要求1、2或3所述的方法,其特征在于,对于参考区间,所述测试区间的所述聚合值与所述参考区间的所述相应聚合值之间的相对变化满足相对变化阈值,响应于同样确定所述测试区间的所述聚合值与所述参考区间的所述相应聚合值之间的绝对变化满足绝对变化阈值,将所述唯一片段识别为异常候选片段。5.根据前述任一权利要求所述的方法,其特征在于,所述聚合值是计数。6.根据权利要求5所述的方法,其特征在于,所述计数在所述事件索引中被暗示,每个时间戳是每个维度标签中的一个的计数。7.根据前述任一权利要求所述的方法,其特征在于,所述测试区间具有测试区间持续时间,且所述多个参考区间中的每一个具有为所述测试区间持续时间的倍数的相关联的持续时间。8.根据权利要求7所述的方法,其特征在于,对于具有比所述测试区间持续时间长的持续时间的参考区间,在所述参考区间的所述持续时间中的每个测试区间持续时间来计算所述聚合值的平均值。9.根据前述任一权利要求所述的方法,其特征在于,所述预测模型是线性回归模型、移
动平均模型、或局部估计散点图平滑(LOESS)模型中的一个。10.根据前述权利要求中任一项所述的方法,其特征在于,所述历史时序包括训练数据和保留数据,并且生成所述预测模型包括使用所述保留数据来评估所述预测模型的准确性,并且所述预定范围取决于所述预测模型的所述准确性。11.根据权利要求10所述的方法,其特征在于,确定所述预测值在所述实际值的所述预定范围之外包括:使用对数准确性比来计算所述保留数据上的误差;以及通过从所述误差在所述保留数据上的分布确定置信区间来确定置信阈值c,其中,所述预定范围基于所述置信度阈值c。12.根据权利要求11所述的方法,其特征在于,确定所述预测值在所述保留数据的预定范围之外包括:获得最大差值阈值d;获得预测额外权重w;响应于确定c*(forecast
val
+w)>(actual
val
+w)*d,确定所述预测值在所述预定范围之外,其中,forecast
val
是所述预测值并且actual
val
是所述实际值,以及响应于确定actual
val
+w<(c*(forecast
val
+w))/d,确定所述预测值在所述预定值范围之外。13.根据前述任一权利要求所述的方法,其特征在于,获得区间的索引条目包括:根服务器向多个叶子服务器发送识别所述一个或多个查询维度和区间的请求,在所述多个叶子服务器中的每个叶子服务器处搜索事件索引条目,所述事件索引条目具有与所述一个或多个查询维度中的查询维度相匹配的维度,并且所述事件索引条目具有所述区间内的时间戳,以及所述多个叶子服务器中的每个叶子服务器向所述根服务器提供响应索引条目每个响应索引条目包括所述匹配维度的所述标签、所述时间戳和所述聚合值。14.一种方法,其...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。