【技术实现步骤摘要】
一种基于差分隐私保护的随机森林车流预测方法
[0001]本专利技术属于隐私保护数据挖掘领域,具体的说是一种基于差分隐私保护的随机森林车流预测方法。
技术介绍
[0002]过去几十年里,车量的大量使用使得车流数据日益增加。对于车流数据集的处理,有的研究者使用神经网络进行构建,但是车流数据集大多是二维表格数据,这使得神经网络算法的构建过程及其复杂。有的尝试使用支持向量机算法来进行构建,但是这种算法难以处理规模较大的车流数据集,而且对于车流数据集所构建的众多参数也难以调节。而决策树由于其易理解以及在相对短的时间内能够对大型数据集做出效果良好的决策结果等特点而广受关注。但当车流数据集日益增加时,单棵决策树存在精度瓶颈以及学习有偏差等问题。因此,基于决策树的随机森林算法慢慢成为处理车流数据集最常用的机器学习算法。现有的差分隐私随机森林的分类处理方案,对非叶子节点添加两类噪声,分别是用指数机制选择最优分裂点以及对当前节点样本数进行拉普拉斯加噪,对非叶子节点进行双重加噪,从而造成隐私预算的浪费。而车流数据集中存在大量的用户敏感数据,如果直接发布这些算法可能会造成用户的隐私泄露。差分隐私保护无需考虑攻击者所能掌握的最大背景知识,其对隐私披露风险给出了定量化的表示和证明。而且差分隐私保护的优势是,即使是对于大型的车流数据集也只需通过添加少量噪声就能实现较高级别的隐私保护水平。
[0003]目前关于差分隐私保护的处理车流数据集的回归随机森林算法比较少,主要原因是隐私预算的分配与预测精度的提升等问题。隐私预算是对一个算法的保护程度 ...
【技术保护点】
【技术特征摘要】
1.一种基于差分隐私保护的随机森林车流预测方法,其特征包括以下步骤:步骤1、从交通系统中获取车流数据集并进行预处理;步骤1.1、对车流数据集中的空缺值进行均值填补处理,得到预处理后的车流数据集记为N={[X1,Y1],[X2,Y2],
…
,[X
i
,Y
i
],
…
,[X
n
,Y
n
]},其中,[X
i
,Y
i
]表示第i个样本组;X
i
表示第i个车流样本,Y
i
表示第i个车流样本所对应的预测值,n表示预处理后的数据集N中车流量样本的总数,1≤i≤n;令第i个车流样本X
i
中的特征集合记为中的特征集合记为表示第i个车流样本X
i
中的第d个特征;D表示车流样本中的特征总数;步骤1.2、对所述第i个车流样本X
i
中的特征集合中的连续特征进行离散化处理,得到预处理后的特征集合进行离散化处理,得到预处理后的特征集合表示离散化后的第d个特征,且第d个特征的离散值集合记为则所有离散化后的特征的离散值所组成的集合记为步骤1.3、令随机森林表示为(tree1,tree2,
…
,tree
t
,
…
,tree
T
);tree
t
表示第t棵树,T表示随机森林中树的棵数;1≤t≤T;将预处理后的数据集N中的n个样本组随机选取个样本组并分配给每棵树;其中,第t棵树tree
t
的根节点分配到的样本组步骤2、确定随机森林中所有树训练所需要的公共参数;步骤2.1、令每棵树分配到的隐私预算均为ε
each_tree
;令每棵树中的非叶节点和叶子节点的总隐私预算分别为δ
×
ε
each_tree
和(1
‑
δ)
×
ε
each_tree
;则任意一个非叶结点隐私预算为其中,h
max
表示所有树的最大树高;δ表示分配比率,且δ∈[0,1];步骤2.2、令每棵树的分裂函数和打分函数均为平方误差函数步骤2.2、令每棵树的分裂函数和...
【专利技术属性】
技术研发人员:张顺,丁培柱,邢萍萍,崔宁宁,陈海亮,崔小娟,邹铭敏,
申请(专利权)人:安徽大学绿色产业创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。