一种异常数据的识别方法、装置、设备及存储介质制造方法及图纸

技术编号：41874969 阅读：26 留言：0更新日期：2024-07-02 00:27

本申请公开了一种异常数据的识别方法、装置、设备及存储介质，所述方法包括：输入车辆出险时间序列数据；设定最大允许连续偏离分量数、最小相似分量数；计算任意两组数据的差异；计算最大连续偏离分量数和相似分量数；进行数据聚类；识别数据是否异常。由此可见，该方法能够有效地识别车辆出险异常数据，具有速度快、准确率高等特点。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及保险数据处理领域，更具体的说，是涉及一种异常数据的识别方法、装置、设备及存储介质。

技术介绍

1、车辆出险数据异常有多种原因，如驾驶员的车辆驾驶水平、气候、地理环境、驾驶员的驾龄、道路质量、骗保等。快速、高质量地识别车辆出险异常数据，为保险公司进行高质量的出险分析提供支持，找出其中的原因，为理赔、保险费调整、保险合同条款调整等提供决策支持。另外，识别出车辆出险异常数据后，进行相应的处理，能有效地提高保险领域机器学习的效率和质量。

2、本申请解决车辆出险异常数据识别问题。

3、针对现有的车辆出险异常数据识别方法存在识别效率低、质量不高等缺点，提出一种异常数据的识别方法。具体步骤：输入车辆出险时间序列数据；设定最大允许连续偏离分量数、最小相似分量数；计算任意两组数据的差异；计算最大连续偏离分量数和相似分量数；进行数据聚类；识别数据是否异常。本申请能够有效地识别车辆出险异常数据，具有速度快、准确率高等特点。

技术实现思路

1、鉴于上述问题，本申请提供了一种异常数据的识别方法、装置、设备及存储介质，以更快、更准确地识别车辆出险异常数据。

2、为了实现上述目的，现提出具体方案如下：

3、一种异常数据的识别方法，包括：

4、s1、输入车辆出险的时间序列数据xi＝(xi1,xi2,..,xim)，i＝1,2,...,n；其中，xi包含t个时间区间的采样数据，每个时间区间包含l个时点的数据，xij为第i组第j时点的出险率，0≤x

5、m＝l×t；

6、s2、设定最大允许连续偏离分量数、最小相似分量数；进一步包括：

7、s2-1、设定最大允许连续偏离分量数maxd；maxd按式(1)设定：

8、

9、其中，α1，α2为预先给定的实数，0<α1<0.5，0<α2<0.3，[x]表示x的整数部分；

10、s2-2、设定最小相似分量数mins；mins按式(2)设定：

11、

12、其中，β为预先给定的实数，0<β<1；

13、s3、计算任意两组数据的差异；进一步包括：对于一切s,t＝1,2,...,n，j＝1,2,...,m，按式(3)计算xs、xt的差异

14、

15、s4、计算最大连续偏离分量数和相似分量数；进一步包括：对于一切s,t＝1,2,...,n，

16、s4-1、计算xs、xt的最大连续偏离分量数mst；具体计算公式为：

17、

18、其中，γ为预先给定的实数，0≤γ≤1；

19、s4-2、计算xs、xt的相似分量数nst；nst为满足dstj≤γ的下标j的个数，其中，j＝1,2,...,m；

20、s5、进行数据聚类；具体步骤为：

21、s5-1、令s＝1；

22、s5-2、令c(xs)＝{xs}，t＝1；

23、s5-3、如果t≠s且nst≥mins且mst≤maxd，则c(xs)＝c(xs)∪{xt}；

24、s5-4、如果t<m，则t＝t+1，转s5-3；

25、s5-5、如果s<n，则s＝s+1，转s5-2。

26、s6、识别所述车辆出险的数据是否异常。进一步包括：对s＝1,2,...,n，依次检查c(xs)，如果c(xs)中的元素个数大于δn，则数据xs为正常，否则为异常；其中δ为预先给定的实数，1/n≤δ≤1。

27、一种异常数据的识别装置，包括：

28、车辆出险时间序列数据输入单元，用于执行：s1、输入车辆出险时间序列数据xi＝(xi1,xi2,..,xim)，i＝1,2,...,n；其中，xi包含t个时间区间的采样数据，每个时间区间包含l个时点的数据，xij为第i组第j时点的出险率，0≤xij≤1，i＝1,2,...,n，j＝1,2,...,m，t、n、l均为正整数，m＝l×t；

29、分量数设定单元，用于执行：s2、设定最大允许连续偏离分量数、最小相似分量数；所述分量数设定单元包括最大允许连续偏离分量数设定单元和最小相似分量数设定单元：

30、所述最大允许连续偏离分量数设定单元，用于执行：s2-1、设定最大允许连续偏离分量数maxd；

31、所述最小相似分量数设定单元，用于执行：s2-2、设定最小相似分量数mins；

32、数据差异计算单元，用于执行：s3、计算任意两组数据的差异；

33、分量数计算单元，用于执行：s4、计算最大连续偏离分量数和相似分量数；所述分量数计算单元包括最大连续偏离分量数计算单元和相似分量数计算单元；

34、所述最大连续偏离分量数计算单元，用于执行：s4-1、对于一切s,t＝1,2,...,n，计算xs、xt的最大连续偏离分量数mst；具体计算公式为：

35、

36、其中，γ为预先给定的实数，0≤γ≤1；

37、所述相似分量数计算单元，用于执行：s4-2、计算xs、xt的相似分量数nst；nst为式(3)中满足dstj≤γ的下标j的个数，j＝1,2,...,m；

38、数据聚类单元，用于执行：s5、进行数据聚类；

39、数据是否异常识别单元，用于执行：s6、识别所述车辆出险的数据是否异常。

40、可选的，所述最大允许连续偏离分量数设定单元，包括：

41、最大允许连续偏离分量数设定子单元，用于执行：maxd按照下式设定：

42、

43、其中，α1，α2为预先给定的实数，0<α1<0.5，0<α2<0.3，[x]表示x的整数部分。

44、可选的，所述最小相似分量数设定单元，包括：

45、最小相似分量数设定子单元，用于执行：mins按照下式设定：

46、

47、其中，β为预先给定的实数，0<β<1。

48、可选的，所述数据差异计算单元，包括：

49、数据差异计算子单元，用于执行：对于一切s,t＝1,2,...,n，j＝1,2,...,m，按照下式计算xs、xt的差异：

50、

51、可选的，所述数据聚类单元，包括：

52、数据聚类第一子单元，用于执行：s5-1、令s＝1；

53、数据聚类第二子单元，用于执行：s5-2、令c(xs)＝{xs}，t＝1；

54、数据聚类第三子单元，用于执行：s5-3、如果t≠s且nst≥mins且mst≤maxd，则c(xs)＝c(xs)∪{xt}；

55、数据聚类第四子单元，用于执行：s5-4、如果t<m，则t＝本文档来自技高网...

【技术保护点】

1.一种异常数据的识别方法，其特征在于，包括：

2.根据权利要求1所述的异常数据的识别方法，其特征在于，所述S2-1设定最大允许连续偏离分量数MaxD，进一步包括：

3.根据权利要求1所述的异常数据的识别方法，其特征在于，所述S2-2、设定最小相似分量数MinS，进一步包括：

4.根据权利要求1所述的异常数据的识别方法，其特征在于，所述S3、计算任意两组数据的差异，进一步包括：

5.根据权利要求1所述的异常数据的识别方法，其特征在于，所述S5、进行数据聚类，具体步骤为：

6.根据权利要求5所述的异常数据的识别方法，其特征在于，所述S6、识别所述车辆出险的数据是否异常，进一步包括：对s＝1,2,...,n，依次检查C(Xs)，如果C(Xs)中的元素个数大于δn，则数据Xs为正常，否则为异常；其中δ为预先给定的实数，1/n≤δ≤1。

7.一种异常数据的识别装置，其特征在于，包括：

8.根据权利要求7所述的异常数据的识别装置，其特征在于，所述最大允许连续偏离分量数设定单元，包括：

9.一种异

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-6任一项所述的异常数据的识别方法的各个步骤。

...

【技术特征摘要】

1.一种异常数据的识别方法，其特征在于，包括：

2.根据权利要求1所述的异常数据的识别方法，其特征在于，所述s2-1设定最大允许连续偏离分量数maxd，进一步包括：

3.根据权利要求1所述的异常数据的识别方法，其特征在于，所述s2-2、设定最小相似分量数mins，进一步包括：

4.根据权利要求1所述的异常数据的识别方法，其特征在于，所述s3、计算任意两组数据的差异，进一步包括：

5.根据权利要求1所述的异常数据的识别方法，其特征在于，所述s5、进行数据聚类，具体步骤为：

6.根据权利要求5所述的异常数据的识别方法，其特征在于，所述s6、...

【专利技术属性】
技术研发人员：周兆全，邵延富，
申请(专利权)人：广州市景心科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人