数据处理方法及设备技术

技术编号:32517460 阅读:17 留言:0更新日期:2022-03-02 11:14
本申请实施例提供一种数据处理方法及设备。其中,方法包括如下的步骤:确定有关交易系统的多个观测变量;所述多个观测变量中包括连续型变量和离散型变量;根据所述多个观测变量中各所述观测变量的变量类型,确定各所述观测变量对应的核函数带宽;根据基于各所述观测变量对应的核函数带宽确定的核函数,将各所述观测变量的观测值映射到特征空间,得到各所述观测变量的特征;根据多个所述观测变量的特征,对所述多个观测变量进行独立性检验,得到独立性检验结果;根据所述独立性检验结果,确定所述多个观测变量之间的因果关系。本申请实施例提供的技术方案可提高因果关系的发现准确率。提供的技术方案可提高因果关系的发现准确率。提供的技术方案可提高因果关系的发现准确率。

【技术实现步骤摘要】
数据处理方法及设备


[0001]本申请涉及数据挖掘
,尤其涉及一种数据处理方法及设备。

技术介绍

[0002]因果关系能够揭示系统背后的运作机制、以高度可解释的方式还原数据生成过程。目前,因果关系学习在市场营销、医疗、制造业、金融等等领域有着广泛的应用,用于洞察系统本质,继而指导决策。例如:在商业分析中的异常诊断、运维中的故障定位等应用中,发掘系统的运行机理及其各个因素的因果关系是进行深度归因的先决条件,也即只有先找到导致表面问题的各个因素才能进行深度归因。
[0003]一般来说,在简单的确定性系统内依据系统内各个功能组件的结构关系及处理流程,比较容易得到一个确定性的因果网络。然而在大型的、复杂的、包含不确定性的系统中,并不能仅仅依靠先验知识构建一个因果网络。因此,在解决复杂问题的深度归因时,因果关系的发现是非常重要的一步。
[0004]目前,现有的因果关系发现方法的精度并不能令人满意。

技术实现思路

[0005]鉴于上述问题,提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的数据处理方法及设备。
[0006]于是,在本申请的一个实施例中,提供了一种数据处理方法。该方法包括:
[0007]确定有关交易系统的多个观测变量;所述多个观测变量中包括连续型变量和离散型变量;
[0008]根据所述多个观测变量中各所述观测变量的变量类型,确定各所述观测变量对应的核函数带宽;
[0009]根据基于各所述观测变量对应的核函数带宽确定的核函数,将各所述观测变量的观测值映射到特征空间,得到各所述观测变量的特征;
[0010]根据多个所述观测变量的特征,对所述多个观测变量进行独立性检验,得到独立性检验结果;
[0011]根据所述独立性检验结果,确定所述多个观测变量之间的因果关系。
[0012]在本申请的又一实施例中,提供了一种数据处理方法。该方法,包括:
[0013]确定相关图;所述相关图包括作为节点的多个观测变量以及多个无向边;所述多个观测变量中包括连续型变量和离散型变量;所述多个观测变量与交易系统有关;
[0014]当所述连续型变量作为子节点时,采用非线性加性噪声模型拟合所述连续型变量与所述相关图中所述连续型变量的潜在父节点之间的因果关系,以确定从所述连续型变量的潜在父节点指向所述连续型变量的有向边的第一分数;所述第一分数与所述连续性变量的潜在父节点作为所述连续性变量的父节点的可能性相关;
[0015]当所述离散型变量作为子节点时,采用后非线性模型拟合所述离散型变量与所述
相关图中所述离散型变量的潜在父节点之间的因果关系,以确定从所述离散型变量的潜在父节点指向所述离散型变量的有向边的第二分数;所述第二分数与所述离散型变量的潜在父节点作为所述离散型变量的父节点的可能性相关;
[0016]根据所述第一分数和所述第二分数,确定所述相关图中所述多个无向边的方向,以得到所述多个观测变量之间的因果关系。
[0017]在本申请的又一实施例中,提供了一种数据处理方法。该方法,包括:
[0018]确定多个观测变量;所述多个观测变量中包括连续型变量和离散型变量;
[0019]根据所述多个观测变量中各所述观测变量的变量类型,确定各所述观测变量对应的核函数带宽;
[0020]根据基于各所述观测变量对应的核函数带宽确定的核函数,确定各所述观测变量的特征;
[0021]根据各所述观测变量的特征,对所述多个观测变量进行独立性检验,得到独立性检验结果;
[0022]根据所述独立性检验结果,确定所述多个观测变量之间的因果关系。
[0023]在本申请的又一实施例中,提供了一种电子设备。该电子设备,包括:存储器和处理器,其中,
[0024]所述存储器,用于存储程序;
[0025]所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现上述任一项所述的数据处理方法。
[0026]在本申请的又一实施例中,提供了一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述任一项所述的数据处理方法。
[0027]在本申请实施例提供的技术方案中,根据各观测变量的变量类型来确定各观测变量对应的核函数带宽,也就是说,会根据变量类型的不同来调整核函数的带宽,以提高核函数针对不同变量类型的适应性,有效避免像现有技术中将连续型变量离散化或者将离散型变量连续化这种处理方式带来的精度损失,从而提高独立性检验的准确度以及因果关系的发现准确率。
[0028]在本申请实施例提供的技术方案中,针对离散型变量和连续型变量,分布采用不同的非线性模型来拟合各自的生成过程,能够提高模型拟合度,从而提高最终确定出的因果关系的准确度;并且采用非线性模型能够对非线性的因果关系进行描述,提高了方案对数据的适应性。
附图说明
[0029]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]图1为本申请一实施例提供的数据处理方法的流程示意图;
[0031]图2为本申请一实施例提供的有向无环图示例;
[0032]图3为本申请又一实施例提供的数据处理方法的流程示意图;
[0033]图4为本申请又一实施例提供的数据处理方法的流程示意图;
[0034]图5为本申请一实施例提供的电子设备的结构框图。
具体实施方式
[0035]在实际场景中观测到的变量往往包含了多种的变量类型,例如,用户的职业、居住的城市等是离散型变量,而货品的单价、店铺的GMV(Gross Merchandise Volume,成交总额)等都是连续型变量。
[0036]然而,现有的因果发现算法大多只能学习多个连续型变量之间的因果关系或多个离散型变量之间的因果关系。在实际使用时,这些因果发现算法通常会要求用户要么把连续型变量离散化,要么不考虑离散型变量的特殊性而直接把其当作连续型变量带入算法,上述两种处理方式会带来精度上的明显损失。
[0037]为了解决或部分解决上述技术问题,本申请实施例提供了一种支持在混合类型数据上的因果关系发现方法:根据各观测变量的变量类型来确定各观测变量对应的核函数带宽,也就是说,会根据变量类型的不同来调整核函数的带宽,以提高核函数针对不同变量类型的适应性,有效避免像现有技术中将连续型变量离散化或者将离散型变量连续化这种处理方式带来的精度损失,从而提高独立性检验的准确度。
[0038]为了使本
的人员更好地理解本申请方案,下面将根据本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其中,包括:确定有关交易系统的多个观测变量;所述多个观测变量中包括连续型变量和离散型变量;根据所述多个观测变量中各所述观测变量的变量类型,确定各所述观测变量对应的核函数带宽;根据基于各所述观测变量对应的核函数带宽确定的核函数,将各所述观测变量的观测值映射到特征空间,得到各所述观测变量的特征;根据多个所述观测变量的特征,对所述多个观测变量进行独立性检验,得到独立性检验结果;根据所述独立性检验结果,确定所述多个观测变量之间的因果关系。2.根据权利要求1所述的方法,其中,所述多个观测变量中包括第一观测变量;根据所述第一观测变量的变量类型,确定所述第一观测变量对应的核函数带宽,包括:当所述第一观测变量的变量类型为离散型时,将所述第一观测变量对应的核函数带宽确定为预设带宽;所述预设带宽小于或等于预设阈值。3.根据权利要求2所述的方法,其中,根据所述第一观测变量的变量类型,确定所述第一观测变量对应的核函数带宽,包括:当所述第一观测变量的变量类型为连续型时,根据所述第一观测变量的多个观测值,确定所述多个观测值中任意两个观测值之间的距离,得到多个距离;根据所述多个距离中的中位数,确定所述第一观测变量对应的核函数带宽。4.根据权利要求1所述的方法,其中,根据基于各所述观测变量对应的核函数带宽确定的核函数,将各所述观测变量的观测值映射到特征空间,得到各所述观测变量的特征,包括:根据基于各所述观测变量对应的核函数带宽确定的核函数,将各所述观测变量的观测值映射到随机傅里叶特征空间,得到各所述观测变量的随机傅里叶特征。5.根据权利要求1至4中任一项所述的方法,其中,根据所述独立性检验结果,确定所述多个观测变量之间的因果关系,包括:根据所述独立性检验结果,确定相关图;所述相关图包括作为节点的所述多个观测变量以及多个无向边;当所述连续型变量作为子节点时,采用非线性加性噪声模型拟合所述连续型变量与所述相关图中所述连续型变量的潜在父节点之间的因果关系,以确定从所述连续型变量的潜在父节点指向所述连续型变量的潜在有向边的第一分数;所述第一分数与所述连续性变量的潜在父节点作为所述连续性变量的父节点的可能性相关;当所述离散型变量作为子节点时,采用后非线性模型拟合所述离散型变量与所述相关图中所述离散型变量的潜在父节点之间的因果关系,以确定从所述离散型变量的潜在父节点指向所述离散型变量的潜在有向边的第二分数;所述第二分数与所述离散型变量的潜在父节点作为所述离散型变量的父节点的可能性相关;根据所述第一分数和所述第二分数,确定所述相关图中所述多个无向边的方向,以得到所述多个观测变量之间的因果关系。
6.根据权利要求5所述的方法,其中,采用非线性加性噪声模型拟合所述连续型变量与所述相关图中所述连续型变量的潜在父节点之间的因果关系,以确定从所述连续型变量的潜在父节点指向所述连续型变量的潜在有向边的第一分数,包括:确定多个测试集;所述多个测试集中包括第一测试集;基于所述第一测试集,采用非线性加性噪声模型拟合所述连续型变量与所述相关图中所述连续型变量的潜在父节点之间的因果关系,得到从所述第一测试集学习到的所述连续型变量对应的潜在拟合函数;确定从所述第一测试集学习到的所述连续型变量对应的潜在拟合函数的拟合度;根据从所述多个测试集中各测试集学习到的所述连续型变量对应的潜在拟合函数的拟合度,确定所述连续型变量对应的拟合度;根据所述连续型变量对应的拟合度,确定从所述连续型变量的潜在父节点指向所述连续型变量的潜在有向边的第一分数。7.根据权利要求6所述的方法,其中,确定从所述第一测试集学习到的所述连续型变量对应的潜在拟合函数的拟合度,包括:根据所述第一测试集、从所述第一测试集学习到的所述连续型变量对应的潜在拟合函数以及所述连续型变量的潜在父节点,确定所述连续型变量的估计值;根据所述第一测试集中所述连续型变量的观测值与所述连续型变量的估计值之间的残差值,采用核密度估计算法,确定在所述第一测试集上评估的所述连续型变量的对数似然函数值;根据在所述第一测试集上评估的所述连续型变量的对数似然函数值,确...

【专利技术属性】
技术研发人员:李岩夏睿刘春辰孙亮
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1