【技术实现步骤摘要】
数据处理方法及设备
[0001]本申请涉及数据挖掘
,尤其涉及一种数据处理方法及设备。
技术介绍
[0002]因果关系能够揭示系统背后的运作机制、以高度可解释的方式还原数据生成过程。目前,因果关系学习在市场营销、医疗、制造业、金融等等领域有着广泛的应用,用于洞察系统本质,继而指导决策。例如:在商业分析中的异常诊断、运维中的故障定位等应用中,发掘系统的运行机理及其各个因素的因果关系是进行深度归因的先决条件,也即只有先找到导致表面问题的各个因素才能进行深度归因。
[0003]一般来说,在简单的确定性系统内依据系统内各个功能组件的结构关系及处理流程,比较容易得到一个确定性的因果网络。然而在大型的、复杂的、包含不确定性的系统中,并不能仅仅依靠先验知识构建一个因果网络。因此,在解决复杂问题的深度归因时,因果关系的发现是非常重要的一步。
[0004]目前,现有的因果关系发现方法的精度并不能令人满意。
技术实现思路
[0005]鉴于上述问题,提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的数据处理方法及设备。
[0006]于是,在本申请的一个实施例中,提供了一种数据处理方法。该方法包括:
[0007]确定有关交易系统的多个观测变量;所述多个观测变量中包括连续型变量和离散型变量;
[0008]根据所述多个观测变量中各所述观测变量的变量类型,确定各所述观测变量对应的核函数带宽;
[0009]根据基于各所述观测变量对应的核函数带宽确定的核函数,将各所述观测 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其中,包括:确定有关交易系统的多个观测变量;所述多个观测变量中包括连续型变量和离散型变量;根据所述多个观测变量中各所述观测变量的变量类型,确定各所述观测变量对应的核函数带宽;根据基于各所述观测变量对应的核函数带宽确定的核函数,将各所述观测变量的观测值映射到特征空间,得到各所述观测变量的特征;根据多个所述观测变量的特征,对所述多个观测变量进行独立性检验,得到独立性检验结果;根据所述独立性检验结果,确定所述多个观测变量之间的因果关系。2.根据权利要求1所述的方法,其中,所述多个观测变量中包括第一观测变量;根据所述第一观测变量的变量类型,确定所述第一观测变量对应的核函数带宽,包括:当所述第一观测变量的变量类型为离散型时,将所述第一观测变量对应的核函数带宽确定为预设带宽;所述预设带宽小于或等于预设阈值。3.根据权利要求2所述的方法,其中,根据所述第一观测变量的变量类型,确定所述第一观测变量对应的核函数带宽,包括:当所述第一观测变量的变量类型为连续型时,根据所述第一观测变量的多个观测值,确定所述多个观测值中任意两个观测值之间的距离,得到多个距离;根据所述多个距离中的中位数,确定所述第一观测变量对应的核函数带宽。4.根据权利要求1所述的方法,其中,根据基于各所述观测变量对应的核函数带宽确定的核函数,将各所述观测变量的观测值映射到特征空间,得到各所述观测变量的特征,包括:根据基于各所述观测变量对应的核函数带宽确定的核函数,将各所述观测变量的观测值映射到随机傅里叶特征空间,得到各所述观测变量的随机傅里叶特征。5.根据权利要求1至4中任一项所述的方法,其中,根据所述独立性检验结果,确定所述多个观测变量之间的因果关系,包括:根据所述独立性检验结果,确定相关图;所述相关图包括作为节点的所述多个观测变量以及多个无向边;当所述连续型变量作为子节点时,采用非线性加性噪声模型拟合所述连续型变量与所述相关图中所述连续型变量的潜在父节点之间的因果关系,以确定从所述连续型变量的潜在父节点指向所述连续型变量的潜在有向边的第一分数;所述第一分数与所述连续性变量的潜在父节点作为所述连续性变量的父节点的可能性相关;当所述离散型变量作为子节点时,采用后非线性模型拟合所述离散型变量与所述相关图中所述离散型变量的潜在父节点之间的因果关系,以确定从所述离散型变量的潜在父节点指向所述离散型变量的潜在有向边的第二分数;所述第二分数与所述离散型变量的潜在父节点作为所述离散型变量的父节点的可能性相关;根据所述第一分数和所述第二分数,确定所述相关图中所述多个无向边的方向,以得到所述多个观测变量之间的因果关系。
6.根据权利要求5所述的方法,其中,采用非线性加性噪声模型拟合所述连续型变量与所述相关图中所述连续型变量的潜在父节点之间的因果关系,以确定从所述连续型变量的潜在父节点指向所述连续型变量的潜在有向边的第一分数,包括:确定多个测试集;所述多个测试集中包括第一测试集;基于所述第一测试集,采用非线性加性噪声模型拟合所述连续型变量与所述相关图中所述连续型变量的潜在父节点之间的因果关系,得到从所述第一测试集学习到的所述连续型变量对应的潜在拟合函数;确定从所述第一测试集学习到的所述连续型变量对应的潜在拟合函数的拟合度;根据从所述多个测试集中各测试集学习到的所述连续型变量对应的潜在拟合函数的拟合度,确定所述连续型变量对应的拟合度;根据所述连续型变量对应的拟合度,确定从所述连续型变量的潜在父节点指向所述连续型变量的潜在有向边的第一分数。7.根据权利要求6所述的方法,其中,确定从所述第一测试集学习到的所述连续型变量对应的潜在拟合函数的拟合度,包括:根据所述第一测试集、从所述第一测试集学习到的所述连续型变量对应的潜在拟合函数以及所述连续型变量的潜在父节点,确定所述连续型变量的估计值;根据所述第一测试集中所述连续型变量的观测值与所述连续型变量的估计值之间的残差值,采用核密度估计算法,确定在所述第一测试集上评估的所述连续型变量的对数似然函数值;根据在所述第一测试集上评估的所述连续型变量的对数似然函数值,确...
【专利技术属性】
技术研发人员:李岩,夏睿,刘春辰,孙亮,
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。