一种基于差分隐私保护的随机森林车流预测方法技术

技术编号:32488002 阅读:15 留言:0更新日期:2022-03-02 09:53
本发明专利技术公开了一种基于差分隐私保护的随机森林车流预测方法,包括:1、从交通系统中获取车流数据集;2、对车流数据集进行补空值、连续特征离散化以及为每棵决策树分配合理样本等预处理工作;3、随机森林训练前确定树与树之间和每棵树之内的隐私预算、分裂函数、每棵树最大深度以及总训练棵树等参数;4、根据前一步确定的参数训练出全部具有差分隐私保护的回归树;5、将所有差分隐私回归树组合成一个具有差分隐私保护的随机森林;6、将任意一个样本输入森林中得到一个具有差分隐私保护的预测结果。本发明专利技术能很好地解决隐私消耗问题、数据安全性问题以及准确率的问题,从而能在隐私消耗比较低的前提下提高车流的预测准确度。比较低的前提下提高车流的预测准确度。比较低的前提下提高车流的预测准确度。

【技术实现步骤摘要】
一种基于差分隐私保护的随机森林车流预测方法


[0001]本专利技术属于隐私保护数据挖掘领域,具体的说是一种基于差分隐私保护的随机森林车流预测方法。

技术介绍

[0002]过去几十年里,车量的大量使用使得车流数据日益增加。对于车流数据集的处理,有的研究者使用神经网络进行构建,但是车流数据集大多是二维表格数据,这使得神经网络算法的构建过程及其复杂。有的尝试使用支持向量机算法来进行构建,但是这种算法难以处理规模较大的车流数据集,而且对于车流数据集所构建的众多参数也难以调节。而决策树由于其易理解以及在相对短的时间内能够对大型数据集做出效果良好的决策结果等特点而广受关注。但当车流数据集日益增加时,单棵决策树存在精度瓶颈以及学习有偏差等问题。因此,基于决策树的随机森林算法慢慢成为处理车流数据集最常用的机器学习算法。现有的差分隐私随机森林的分类处理方案,对非叶子节点添加两类噪声,分别是用指数机制选择最优分裂点以及对当前节点样本数进行拉普拉斯加噪,对非叶子节点进行双重加噪,从而造成隐私预算的浪费。而车流数据集中存在大量的用户敏感数据,如果直接发布这些算法可能会造成用户的隐私泄露。差分隐私保护无需考虑攻击者所能掌握的最大背景知识,其对隐私披露风险给出了定量化的表示和证明。而且差分隐私保护的优势是,即使是对于大型的车流数据集也只需通过添加少量噪声就能实现较高级别的隐私保护水平。
[0003]目前关于差分隐私保护的处理车流数据集的回归随机森林算法比较少,主要原因是隐私预算的分配与预测精度的提升等问题。隐私预算是对一个算法的保护程度的体现,但考虑到算法预测精度的问题,分配给整个随机森林的隐私预算会很少。在整体隐私预算很少的情况下隐私的分配方式决定着整个随机森林算法的预测精度,隐私预算的分配可分为树与树之间的分配以及单棵树之内的分配。对于树与树之间的分配方式,现有方案将车流数据集分配给每棵树时都是采用随机有放回地抽样,这样做会使得分配给整个森林的总隐私预算要平分给每一棵决策树。如果随机森林里训练的树比较多的话,那每棵树分到的隐私预算就会非常少,相应的树训练的结果就会非常差。而对于单棵树内的分配方式,相关方案都是简单的将单棵树的隐私预算平分给非叶子节点和叶子节点。事实上,非叶子节点和叶子节点对于预测精度的影响是不同的。所以平分方式是对隐私预算的浪费,将隐私预算多分配给对预测结果影响较大的节点才能最大化提高车流预测精度。
[0004]除了隐私分配问题外,车流数据集的处理也能影响车流预测的精度。由于车流数据集大多都不是完整的,它们或多或少存在数据缺失的情况。虽然随机森林算法能处理缺失值,但是这会造成车流预测结果的不稳定。如果像已有方案那样直接删除车流数据里缺失样本,这又会造成车流数据集整体样本量的减少。还有就是车流数据集里连续特征值的处理,已有方案大多采用算法默认的处理方式。这种方式使得车流数据集里离散特征值跟原来的连续特征值并没有什么差别,虽然数据进行了变换,但是对于指数机制选取最优特征值的影响是非常小的。

技术实现思路

[0005]本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于差分隐私保护的随机森林车流预测方法,以期能有效解决车流数据集里敏感信息泄露以及隐私分配缺陷而造成的车流预测能力低的问题,从而能在更好的保护车流数据集里敏感数据的前提下提升车流的预测精度。
[0006]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0007]本专利技术一种基于差分隐私保护的随机森林车流预测方法的特点包括以下步骤:
[0008]步骤1、从交通系统中获取车流数据集并进行预处理;
[0009]步骤1.1、对车流数据集中的空缺值进行均值填补处理,得到预处理后的车流数据集记为N={[X1,Y1],[X2,Y2],

,[X
i
,Y
i
],

,[X
n
,Y
n
]},其中,[X
i
,Y
i
]表示第i个样本组;X
i
表示第i个车流样本,Y
i
表示第i个车流样本所对应的预测值,n表示预处理后的数据集N中车流量样本的总数,1≤i≤n;令第i个车流样本X
i
中的特征集合记为中的特征集合记为表示第i个车流样本X
i
中的第d个特征;D表示车流样本中的特征总数;
[0010]步骤1.2、对所述第i个车流样本X
i
中的特征集合中的连续特征进行离散化处理,得到预处理后的特征集合特征进行离散化处理,得到预处理后的特征集合表示离散化后的第d个特征,且第d个特征的离散值集合记为则所有离散化后的特征的离散值所组成的集合记为
[0011]步骤1.3、令随机森林表示为(tree1,tree2,

,tree
t
,

,tree
T
);tree
t
表示第t棵树,T表示随机森林中树的棵数;1≤t≤T;
[0012]将预处理后的数据集N中的n个样本组随机选取个样本组并分配给每棵树;其中,第t棵树tree
t
的根节点分配到的样本组
[0013]步骤2、确定随机森林中所有树训练所需要的公共参数;
[0014]步骤2.1、令每棵树分配到的隐私预算均为ε
each_tree
;令每棵树中的非叶节点和叶子节点的总隐私预算分别为δ
×
ε
each_tree
和(1

δ)
×
ε
each_tree
;则任意一个非叶结点隐私预算为其中,h
max
表示所有树的最大树高;δ表示分配比率,且δ∈[0,1];
[0015]步骤2.2、令每棵树的分裂函数和打分函数均为平方误差函数步骤2.2、令每棵树的分裂函数和打分函数均为平方误差函数是tree
t
的样本组,其中,a表示集合Φ中任意一个特征的离散值集合中的一个离散值,且a∈Φ;令打分函数经过精确估计后的全局敏感度为Δf;
[0016]初始化t=1;
[0017]步骤3、对第t棵树tree
t
进行训练,得到具有差分隐私保护的回归树tree
t


[0018]步骤3.1、第t棵树tree
t
将隐私预算分给非叶子节点,并将隐私预算(1

δ)
×
ε
each_tree
分给叶子节点;
[0019]步骤3.2、定义当前第t棵树tree
t
的高度为h,并初始化h=1;
[0020]步骤3.3、对于第h层中的每一个节点,若第h层中的当前节点node的所有样本的预测值都相同,则将当前节点node置为叶子节点node
leaf
,并执行步骤3.4;否则,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于差分隐私保护的随机森林车流预测方法,其特征包括以下步骤:步骤1、从交通系统中获取车流数据集并进行预处理;步骤1.1、对车流数据集中的空缺值进行均值填补处理,得到预处理后的车流数据集记为N={[X1,Y1],[X2,Y2],

,[X
i
,Y
i
],

,[X
n
,Y
n
]},其中,[X
i
,Y
i
]表示第i个样本组;X
i
表示第i个车流样本,Y
i
表示第i个车流样本所对应的预测值,n表示预处理后的数据集N中车流量样本的总数,1≤i≤n;令第i个车流样本X
i
中的特征集合记为中的特征集合记为表示第i个车流样本X
i
中的第d个特征;D表示车流样本中的特征总数;步骤1.2、对所述第i个车流样本X
i
中的特征集合中的连续特征进行离散化处理,得到预处理后的特征集合进行离散化处理,得到预处理后的特征集合表示离散化后的第d个特征,且第d个特征的离散值集合记为则所有离散化后的特征的离散值所组成的集合记为步骤1.3、令随机森林表示为(tree1,tree2,

,tree
t
,

,tree
T
);tree
t
表示第t棵树,T表示随机森林中树的棵数;1≤t≤T;将预处理后的数据集N中的n个样本组随机选取个样本组并分配给每棵树;其中,第t棵树tree
t
的根节点分配到的样本组步骤2、确定随机森林中所有树训练所需要的公共参数;步骤2.1、令每棵树分配到的隐私预算均为ε
each_tree
;令每棵树中的非叶节点和叶子节点的总隐私预算分别为δ
×
ε
each_tree
和(1

δ)
×
ε
each_tree
;则任意一个非叶结点隐私预算为其中,h
max
表示所有树的最大树高;δ表示分配比率,且δ∈[0,1];步骤2.2、令每棵树的分裂函数和打分函数均为平方误差函数步骤2.2、令每棵树的分裂函数和...

【专利技术属性】
技术研发人员:张顺丁培柱邢萍萍崔宁宁陈海亮崔小娟邹铭敏
申请(专利权)人:安徽大学绿色产业创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1