System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大数据处理领域,具体涉及基于机器学习的审批工作流数据智能筛查方法与系统。
技术介绍
1、传统的审批流程通常需要大量的人工操作和人工决策,效率较低且容易出现错误。同时,随着数据量的不断增加和复杂的业务环境,传统方法已经难以应对快速和准确的审批需求。
2、审批工作流数据的处理通常依赖于人工操作,特别是当数据量增加时更容易导致出现错误,故可以通过dbscan算法对数据进行聚类,来筛查其中的异常和风险事件,来提高业务操作人员的工作效率。但是由于传统dbscan算法中邻域半径大小是不变的,无法做到自适应调整大小,针对不均匀密度的数据集效果不佳,无法捕捉对数据集中的不同尺度的聚类模式。如此,将影响最终的聚类结果,即影响筛查审批工作流数据的异常和风险事件。
技术实现思路
1、本专利技术实施例针对上述情况,提出了一种基于机器学习的审批工作流数据智能筛查方法与系统,以克服或者至少部分克服现有技术的不足之处。
2、第一方面,本申请实施例提供了一种基于机器学习的审批工作流数据智能筛查方法,所述方法包括:
3、s10将从审批工作流数据中筛选的审批工作表作为样本;
4、s20根据获取到的所有样本之间的余弦距离选取预设邻域;
5、s30基于预设邻域ε()、最小邻域样本数阈值minpts,利用dbscan算法来获取所述样本的核心对象以及所述核心对象在预设邻域ε()范围下的样本数量m;
6、s40基于所述核心对象获取其在预设邻域
7、s50基于所述密度分布表现获取核心对象的扩展判断值,根据所述扩展判断值与判断值阈值的大小适应性调整所述预设邻域,得到调整后的预设邻域;
8、s60基于所述调整后的预设邻域、步骤s30获取的样本数量m,继续利用dbscan算法来获取所述样本的核心对象以及所述核心对象在调整后的预设邻域下的样本数量m,基于所述样本数量m的大小判断样本是否异常。
9、于一些实施例中,所述s20进一步包括:
10、s210,获取任意两样本之间的同类别数据,计算两同类别数据之间的余弦距离;
11、s220,获取所述两样本的所有类别数据的余弦相似度,从而获取所述两样本的余弦相似度;
12、s230,获取所有样本之间的余弦距离;
13、s240,基于所有样本之间的余弦距离确定预设邻域ε()。
14、于一些实施例中,所述s210进一步包括:
15、s2100,获取每一样本的多种类别数据,将每一样本的多种类别数据转化为对应的文本向量;
16、s2110,计算选取的两样本的同种类别数据各自转化的文本向量的余弦距离,获取所述两样本的同种类别数据的余弦距离;
17、s2120,计算所述两样本的所有类别数据的余弦相似度,获取该两样本的余弦相似度。
18、于一些实施例中,所述s220进一步包括:
19、s2200根据余弦相似度算法获取的同种类别数据的余弦相似度,从中选取余弦距离值最大的类别,记作标记类别;
20、s2210计算两样本所有的同类别数据的余弦距离的和与获取到的标记类别的权重的比值,得到两审批工作表之间的余弦距离。
21、于一些实施例中,所述s40进一步包括s410,基于表征预设邻域ε()内样本数量的权重系数、任意两个样本之间的平均余弦距离以及任意样本之间最大余弦距离获取核心对象在所述预设邻域ε()内的样本密集程度,其中,所述权重系数为所述核心对象预设邻域ε()内的样本所占的面积与所述核心对象预设邻域ε()的整体面积的比值。
22、于一些实施例中,所述s40进一步包括s420,基于各样本到核心对象的余弦距离、样本到核心对象的余弦距离的标准差、倾向系数获取核心对象分布倾向特征程度,所述倾向系数为所述核心对象的预设邻域内的一半面积范围内样本所占的面积与所述核心对象预设邻域内的一半面积的比值。
23、于一些实施例中,所述s40进一步包括s430:通过八邻域各方向上的相邻样本的周期权重和周期表现来确定各方向上的周期性分布程度,对各方向上的周期性分布程度筛选最大值,从而获取核心对象的样本周期性分布程度,所述相邻样本的周期权重为相邻样本的余弦距离差异以及两所述相邻样本与样本平均距离的差异确定的;
24、所述周期表现为两所述相邻样本在以当前方向的样本平均余弦距离为时所包含的样本点数量的比值。
25、于一些实施例中,所述基于所述密度分布表现获取核心对象的扩展判断值,进一步包括:
26、所述核心对象的扩展判断值公式如下:
27、;表示第i个核心对象的扩展判断值;表示第i个核心对象分布倾向特征程度;表示第i个核心对象的样本密集程度;表示第i个核心对象的样本周期性分布程度,为归一化函数。
28、于一些实施例中,所述根据所述扩展判断值与判断值阈值的大小适应性调整所述预设邻域ε(eps),得到调整后的预设邻域,包括:
29、若扩展判断值大于判断值阈值,则比较核心对象分布倾向特征程度与预设核心对象倾向特征阈值,若核心对象分布倾向特征程度大于预设核心对象倾向特征阈值,则调整后的预设邻域的公式如下:
30、 ;
31、若核心对象分布倾向特征程度小于或者等于预设核心对象倾向特征阈值,则调整后的预设邻域的公式如下:
32、;
33、表示第i个核心对象的扩展判断值。
34、第二方面,本申请实施例还提供了基于机器学习的审批工作流数据智能筛查系统,包括:
35、第一预处理单元300,将从审批工作流数据中筛选的审批工作表作为样本;
36、第二预处理单元310,根据获取到的所有样本之间的余弦距离选取预设邻域;
37、筛选单元320,基于预设邻域ε()、最小邻域样本数阈值minpts,利用dbscan算法来获取所述样本的核心对象以及所述核心对象在预设邻域ε()范围下的样本数量m;
38、分析单元330,基于所述核心对象获取其在预设邻域中的密度分布表现,所述密度分布表现包括:样本密集程度、核心对象分布倾向特征程度、样本周期性分布程度;
39、调整单元340,基于所述密度分布表现获取核心对象的扩展判断值,根据所述扩展判断值与判断值阈值的大小适应性调整所述预设邻域,获取调整后的预设邻域;
40、计算单元350,基于所述调整后的预设邻域、样本数量m,继续利用dbscan算法来获取所述样本的核心对象以及所述核心对象在调整后的预设邻域下的样本数量m,基于样本数量m的大小判断样本是否异常。
41、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
42、dbscan算法确定聚类前,聚类前先确定不同审本文档来自技高网...
【技术保护点】
1.基于机器学习的审批工作流数据智能筛查方法,其特征在于,包括:
2.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述S20进一步包括:
3.如权利要求2所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述S210进一步包括:
4.如权利要求2所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述S220进一步包括:
5.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述S40进一步包括S410,基于表征预设邻域ε()内样本数量的权重系数、任意两个样本之间的平均余弦距离以及任意样本之间最大余弦距离获取核心对象在所述预设邻域ε()内的样本密集程度,其中,所述权重系数为所述核心对象预设邻域ε()内的样本所占的面积与所述核心对象预设邻域ε()的整体面积的比值。
6.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述S40进一步包括S420,基于各样本到核心对象的余弦距离、样本到核心对象的余弦距离的标准差、倾向系数获取核心对象分
7.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述S40进一步包括S430:通过八邻域各方向上的相邻样本的周期权重和周期表现来确定各方向上的周期性分布程度,对各方向上的周期性分布程度筛选最大值,从而获取核心对象的样本周期性分布程度,所述相邻样本的周期权重为相邻样本的余弦距离差异以及两所述相邻样本与样本平均距离的差异确定的;
8.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述基于所述密度分布表现获取核心对象的扩展判断值,进一步包括:
9.如权利要求6所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述根据所述扩展判断值与判断值阈值的大小适应性调整所述预设邻域ε(eps),得到调整后的预设邻域,包括:
10.基于机器学习的审批工作流数据智能筛查系统,其特征在于,包括:
...【技术特征摘要】
1.基于机器学习的审批工作流数据智能筛查方法,其特征在于,包括:
2.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述s20进一步包括:
3.如权利要求2所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述s210进一步包括:
4.如权利要求2所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述s220进一步包括:
5.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述s40进一步包括s410,基于表征预设邻域ε()内样本数量的权重系数、任意两个样本之间的平均余弦距离以及任意样本之间最大余弦距离获取核心对象在所述预设邻域ε()内的样本密集程度,其中,所述权重系数为所述核心对象预设邻域ε()内的样本所占的面积与所述核心对象预设邻域ε()的整体面积的比值。
6.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述s40进一步包括s420,基于各样本到核心对象的余弦距离、样本到核心对象的余弦距离的标准差...
【专利技术属性】
技术研发人员:先晓兵,张尔喜,钱心洲,李扬,应文豪,
申请(专利权)人:常熟理工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。