本发明专利技术公开了一种随机森林训练方法及装置,通过训练样本的当前特征的数据样本按照从小到大的顺序进行排列;对决策树的当前节点,将第一训练样本集中相邻的不同数据样本的中间值作为切分点;计算每个切分点切分出的第一类别数据和第二类别数据的代表值;计算每个切分点的平方误差,并将最小平方误差所对应的切分点确定为当前节点的最优切分点;根据决策树的各节点的最优切分点,对决策树进行训练,获得训练后的决策树。本发明专利技术具有高安全性,可使数据在各个参与方中可用不可见,达到不泄露数据又能共同建模的目的。据又能共同建模的目的。据又能共同建模的目的。
【技术实现步骤摘要】
随机森林训练方法及装置
[0001]本申请涉及计算机
,具体而言,涉及一种随机森林训练方法、装置、计算机设备和存储介质。
技术介绍
[0002]随机森林属于集成算法中的一种,通过训练多种弱分类器,通过各个弱分类器进行投票或取均值的方法得出最终结果,使得随机森林的结果具备了较高的精确度和泛化性。如今对数据的保密要求日益增高,且往往一方拥有的数据数量有限,故萌生了多方共同训练模型的需求,且要求数据不泄露给他方,于是隐私计算的概念油然而生,即数据可用不可见。
[0003]目前主流的随机森林算法仅支持单机版,针对多参与者且不想泄露数据给他人的隐私计算场景,主流的随机森林算法无法满足保护数据的要求。
[0004]针对相关技术中主流随机森林算法无法满足保护数据的要求,导致其数据安全性低的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本专利技术实施例提供一种随机森林训练方法、装置、计算机设备和存储介质,用以解决相关技术中主流随机森林算法无法满足保护数据的要求,导致其数据安全性低的问题。
[0006]为了实现上述目的,本专利技术实施例的第一方面,提供一种随机森林训练方法,包括:判断训练样本中的当前特征是否属于训练发起方;如果当前特征属于训练发起方,则采取如下步骤:步骤1:对训练发起方具有的训练样本的当前特征的数据样本按照从小到大的顺序进行排列,获得训练发起方的第一训练样本集,其中,所述训练发起方具有所述训练样本的标签;步骤2:对决策树的当前节点,将所述第一训练样本集中相邻的不同数据样本的中间值作为切分点,其中切分点用于将第一训练样本集分为第一类别数据和第二类别数据;步骤3:根据所述第一类别数据和第二类别数据,以及训练样本的标签,计算每个切分点切分出的第一类别数据和第二类别数据的代表值;步骤4:根据所述第一类别数据和第二类别数据的代表值计算每个切分点的平方误差,并将最小平方误差所对应的切分点确定为当前节点的最优切分点;步骤5:根据所述决策树的各节点的最优切分点,对决策树进行训练,获得训练后的决策树。
[0007]可选地,在第一方面的一种可能实现方式中,所述方法还包括:如果当前特征属于训练参与方,则采取如下步骤:步骤1:所述训练发起方将所述训练样本的标签加密传输至所述训练参与方;
步骤2:对训练参与方具有的训练样本的第二特征的数据样本按照从小到大的顺序进行排列,获得训练发起方的第二训练样本集;步骤3:对决策树的当前节点,将所述第二训练样本集中相邻的不同数据样本的中间值作为切分点,其中每个切分点用于将第二训练样本集分为第一类别数据和第二类别数据;步骤4:所述训练参与方利用加密算法计算每个切分点对应的相关数据,并将所述相关数据发送至训练发起方,其中所述相关数据包括第一类别数据的总和、第二类别数据的总和,以及统计每个切分点对应的第一类别数据的样本数量和第二类别数据的样本数量;步骤5:所述训练发起方接收到所述相关数据后,对其进行解密,并根据所述相关数据计算每个切分点切分出的第一类别数据和第二类别数据的代表值;步骤6:根据所述第一类别数据和第二类别数据的代表值计算每个切分点的平方误差,并将最小平方误差所对应的切分点确定为当前节点的最优切分点;步骤7:根据所述决策树的各节点的最优切分点,对决策树进行训练,获得训练后的决策树。
[0008]可选地,在第一方面的一种可能实现方式中,根据所述第一类别数据和第二类别数据,以及训练样本的标签,计算每个切分点切分出的第一类别数据和第二类别数据的代表值,包括:根据训练样本数、样本标签、第一类别数据和第二类别数据,计算第一类别数据的第一代表值和第二类别数据的第二代表值;其中,代表第一类别数据的代表值,代表第二类别数据的代表值,代表第一类别数据中的数据样本, 代表第二类别数据中的数据样本,代表第一类别数据中的数据样本对应的标签,代表第二类别数据中的数据样本对应的标签,N代表数据样本的数量,代表第一类别数据,代表第二类别数据。
[0009]可选地,在第一方面的一种可能实现方式中,根据所述第一类别数据和第二类别数据的代表值计算每个切分点的平方误差,包括:其中,代表每个切分点的平方误差,代表第一类别数据的代表值,代
表第二类别数据的代表值,代表第一类别数据中的数据样本, 代表第二类别数据中的数据样本,代表第一类别数据中的数据样本对应的标签,代表第二类别数据中的数据样本对应的标签,代表第一类别数据,代表第二类别数据。
[0010]可选地,在第一方面的一种可能实现方式中,所述方法还包括:将所述最优切分点对应的特征作为全局最优切分特征。
[0011]本专利技术实施例的第二方面,提供一种随机森林训练装置,包括:判断模块,用于判断训练样本中的当前特征是否属于训练发起方,如果当前特征属于训练发起方,则采取如下步骤:数据样本排列模块,用于对训练发起方具有的训练样本的当前特征的数据样本按照从小到大的顺序进行排列,获得训练发起方的第一训练样本集,其中,所述训练发起方具有所述训练样本的标签;切分点确定模块,用于对决策树的当前节点,将所述第一训练样本集中相邻的不同数据样本的中间值作为切分点,其中切分点用于将第一训练样本集分为第一类别数据和第二类别数据;代表值计算模块,用于根据所述第一类别数据和第二类别数据,以及训练样本的标签,计算每个切分点切分出的第一类别数据和第二类别数据的代表值;最优切分点计算模块,用于根据所述第一类别数据和第二类别数据的代表值计算每个切分点的平方误差,并将最小平方误差所对应的切分点确定为当前节点的最优切分点;决策树训练模块,用于根据所述决策树的各节点的最优切分点,对决策树进行训练,获得训练后的决策树。
[0012]可选地,在第二方面的一种可能实现方式中,所述代表值计算模块,包括:代表值计算单元,用于根据训练样本数、样本标签、第一类别数据和第二类别数据,计算第一类别数据的第一代表值和第二类别数据的第二代表值;其中,代表第一类别数据的代表值,代表第二类别数据的代表值,代表第一类别数据中的数据样本, 代表第二类别数据中的数据样本,代表第一类别数据中的数据样本对应的标签,代表第二类别数据中的数据样本对应的标签,N代表数据样本的数量,代表第一类别数据,代表第二类别数据。
[0013]本专利技术实施例的第三方面,提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各
个方法实施例中的步骤。
[0014]本专利技术实施例的第四方面,提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本专利技术第一方面及第一方面各种可能设计的所述方法的步骤。
[0015]本专利技术提供的随机森林训练方法、装置、计算机设备和存储介质,通过对训练发起方具有的训练样本的当前特征的数据样本按照从小到大的顺序进行排列,获得训练发起方的第一训练样本集,其中,所述训练发起方具有所述训练样本的标签;对决策树的当前节点,将所述第一训练样本集中相邻的不同数据样本的中本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种随机森林训练方法,其特征在于,包括:判断训练样本中的当前特征是否属于训练发起方;如果当前特征属于训练发起方,则采取如下步骤:步骤1:对训练发起方具有的训练样本的当前特征的数据样本按照从小到大的顺序进行排列,获得训练发起方的第一训练样本集,其中,所述训练发起方具有所述训练样本的标签;步骤2:对决策树的当前节点,将所述第一训练样本集中相邻的不同数据样本的中间值作为切分点,其中切分点用于将第一训练样本集分为第一类别数据和第二类别数据;步骤3:根据所述第一类别数据和第二类别数据,以及训练样本的标签,计算每个切分点切分出的第一类别数据和第二类别数据的代表值;步骤4:根据所述第一类别数据和第二类别数据的代表值计算每个切分点的平方误差,并将最小平方误差所对应的切分点确定为当前节点的最优切分点;步骤5:根据所述决策树的各节点的最优切分点,对决策树进行训练,获得训练后的决策树。2.根据权利要求1所述的随机森林训练方法,其特征在于,所述方法还包括:如果当前特征属于训练参与方,则采取如下步骤:步骤1:所述训练发起方将所述训练样本的标签加密传输至所述训练参与方;步骤2:对训练参与方具有的训练样本的第二特征的数据样本按照从小到大的顺序进行排列,获得训练发起方的第二训练样本集;步骤3:对决策树的当前节点,将所述第二训练样本集中相邻的不同数据样本的中间值作为切分点,其中每个切分点用于将第二训练样本集分为第一类别数据和第二类别数据;步骤4:所述训练参与方利用加密算法计算每个切分点对应的相关数据,并将所述相关数据发送至训练发起方,其中所述相关数据包括第一类别数据的总和、第二类别数据的总和,以及统计每个切分点对应的第一类别数据的样本数量和第二类别数据的样本数量;步骤5:所述训练发起方接收到所述相关数据后,对其进行解密,并根据所述相关数据计算每个切分点切分出的第一类别数据和第二类别数据的代表值;步骤6:根据所述第一类别数据和第二类别数据的代表值计算每个切分点的平方误差,并将最小平方误差所对应的切分点确定为当前节点的最优切分点;步骤7:根据所述决策树的各节点的最优切分点,对决策树进行训练,获得训练后的决策树。3.根据权利要求1所述的随机森林训练方法,其特征在于,根据所述第一类别数据和第二类别数据,以及训练样本的标签,计算每个切分点切分出的第一类别数据和第二类别数据的代表值,包括:根据训练样本数、样本标签、第一类别数据和第二类别数据,计算第一类别数据的第一代表值和第二类别数据的第二代表值;
其中,代表第一类别数据的代表值,代表第二类别数据的代表值,代表第一类别数据中的数据样本, 代表第二类别数据中的数据样本,代表第一类别数据中的数据样本对应的标签,...
【专利技术属性】
技术研发人员:李陆沁,任江哲,陈星强,黄璞豪,李同庆,朱振超,
申请(专利权)人:蓝象智联杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。