一种平滑集上的无投影分布式在线学习方法技术

技术编号:33776783 阅读:57 留言:0更新日期:2022-06-12 14:30
本发明专利技术提出了一种平滑集上的无投影分布式在线学习方法,该方法试图找到一个近似梯度,以确保下一个决策在中,在每次迭代中,每个玩家都会执行以下步骤:查询所有邻居的对偶变量,并更新对偶变量;计算下一个动作,并判断该动作指向的新决策是否在可行集中;若新决策点在可行集中,则更新新决策;若决策点不在可行集中,则通过快速近似投影算法找到能落在可行集中的新决策。本方法利用近似投影的方法提高了计算效率,同时控制了噪声,并保证了算法对遗憾是无害的,且能够获得最优遗憾其中G用来度量损失函数的范数,D用来度量决策空间的大小,μ用来度量近似投影引起的噪声的大小。似投影引起的噪声的大小。似投影引起的噪声的大小。

【技术实现步骤摘要】
一种平滑集上的无投影分布式在线学习方法


[0001]本专利技术属于机器学习
,具体涉及一种平滑集上的无投影分布式在线学习方法。

技术介绍

[0002]在线学习是一种重要的学习范式,旨在利用现有信息和历史行为预测后续行为。在每次迭代中,在线学习的玩家在获得上次行动对手的反馈(损失值)后,决定下一步采取一个特定的行动来赢得游戏。该学习范式可广泛应用于在线广告投放、在线音乐推荐、在线网站排名等产生时序数据的场景。在线梯度下降(OGD)作为一种通用的决策方法,在在线学习中得到了广泛的应用。然而在实际场景中,玩家可以选择的行动通常是受到限制的。这意味着如果通过OGD得出的决策超出了可行集,那么该决策是不可行的。因此,需要一个投影步骤来确保OGD决定的每个操作都包含在可行集中。
[0003]然而,投影步骤通常会导致较高的计算成本。原因是在可行集上的投影需要解决一个二次规划问题,并且在使用OGD时通常会有成百上千次的迭代。因此,在约束集上执行OGD的计算开销很大。这种高昂的计算成本严重影响了在线学习方法的收敛速度。因此,简化投影的计算是很有必要的,尤其是对于大规模分布式在线学习来说。
[0004]在过去的几十年里,许多研究者致力于寻找一种有效的无投影方法来降低计算成本。在文献(E.Hazan and S.Kale,“Projection

free online learning,”arXiv preprint arXiv:1206.4657,2012.)中首次提出了用于解决这一二次规划问题的经典方法。该方法的在线版本,即Online Frank

Wolfe(OFW),由Hazan和Kale提出。在OFW的基础上,更多的变体方法被提出用来解决投影问题。但是这些方法的思想都是采用线性优化方式对全投影过程进行替换从而简化计算,实现近似投影。这种方法无论是从理论上还是实验上都被证明能有效地降低计算成本。因此,这些方法也被直接地应用到了分布式在线学习中。但是这些方法仅仅能获得的遗憾边界,与最优遗憾之间仍有很大的差距。因此,在分布式环境下投影问题仍有待进一步解决。
[0005]目前,针对分布式网络下的在线学习已经开展了大量的研究,然而关于无投影分布式在线学习的研究却很少。第一个无投影的分布式在线学习方法(DOL),分布式在线条件梯度(Distributed Online Conditional Gradient,D

OCG)通过对每个本地参与方进行OFW,D

OCG可以实现一个的遗憾边界。一种改进的D

OCG,即分布式分块在线条件梯度(D

BOCG),将通信复杂度从降低到并保持的遗憾。在文献(Learning(ICML),pp.9818

9828,2020)中对D

BOCG进行了进一步的改进,使其能够在强凸函数下取得更好的遗憾边界但是,这些方法所获得的遗憾在分布式设置中仍远未达到最优。

技术实现思路

[0006]本专利技术为了解决上述问题,提出了一种平滑集上的无投影分布式在线学习方法,可以很好地平衡精度和效率,所述方法包括:
[0007]对于无向网络上的分布式在线凸优化,是顶点集,是边集,每个节点都是一个玩家,并且只能与相邻节点进行通信,玩家持有一个决策变量x
i
(t)和一个对偶变量z
i
(t);
[0008]获取对手给出的凸损失函数并根据凸损失函数f
t,i
计算次梯度
[0009]收集其邻居的对偶变量{z
j
(t),j∈N
i
},并结合次梯度g
i
(t)来计算一个新的对偶变量z
i
(t+1);
[0010]根据对偶变量z
i
(t+1)计算下一个动作v
i
,并判断基于动作v
i
的决策点x
i
(t)+v
i
是否在可行集中;
[0011]若决策点则将x
i
(t)+v
i
更新为新决策;若决策点则通过快速近似投影算法找到能落在可行集中的新决策。
[0012]进一步的,对偶变量z
i
(t+1)的计算如下:
[0013][0014][0015]其中,P
ij
为P中的元素,P是一个用来模拟每对玩家之间通信情况的双随机矩阵。
[0016]进一步的,所述根据对偶变量z
i
(t+1)计算下一个动作v
i
,具体为:
[0017]v
i


α
i
(t)
·
(z
i
(t+1)

z
i
(t))
[0018]其中,α
i
(t)是来自非递增序列的一个正步长。
[0019]进一步的,所述通过快速近似投影算法找到能落在可行集中的新决策,包括:
[0020]找到线段(x
i
(t),x
i
(t)+v
i
]与边界的交点
[0021]计算交点的单位法向量n
i
,作为新行动的投影方向;
[0022]将决策点x
i
(t)+v
i
向单位法向量n
i
的反方向投影到可行集上得到新决策。
[0023]进一步的,对于任何玩家对偶变量z
i
(1)的初始值设置为0。
[0024]本专利技术所提出的一种平滑集上的无投影分布式在线学习方法(Distributed Fast Approximate Projection,D

FAP),在每次迭代中,它都根据几何方法进行近似投影。在模型更新过程中,利用可行集的几何结构进行近似投影,可以很好地平衡精度和效率。直观上,当可行集具有良好条件结构时,即可行集的曲率很小时,近似投影产生的噪声也会很小,因此近似投影会非常准确。然而,如果可行集是尖的,即曲率较大时,可以进行小步长更新,以保持近似投影的准确性。换句话说,本方法可以根据曲率自适应地调整步长,在近似投影中保持轻微的噪声,且每一个近似投影都能在常数时间内完成,因此其计算成本明显低于其他算法。另外,本方法能使得近似投影的每一步都具有复杂度,同时还能达到最
优遗憾边界并通过大量的实验证明了D

FAP对不同的数据集具有足够的有效性和鲁棒性。
附图说明
[0025]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种平滑集上的无投影分布式在线学习方法,其特征在于,所述方法包括:对于无向网络上的分布式在线凸优化,是顶点集,是边集,每个节点都是一个玩家,并且只能与相邻节点进行通信,玩家持有一个决策变量x
i
(t)和一个对偶变量z
i
(t);获取对手给出的凸损失函数并根据凸损失函数f
t,i
计算次梯度收集其邻居的对偶变量{z
j
(t),j∈N
i
},并结合次梯度g
i
(t)来计算一个新的对偶变量z
i
(t+1);根据对偶变量z
i
(t+1)计算下一个动作v
i
,并判断基于动作v
i
的决策点x
i
(t)+v
i
是否在可行集中;若决策点则将x
i
(t)+v
i
更新为新决策;若决策点则通过快速近似投影算法找到能落在可行集中的新决策。2.根据权利要求1所述的分布式在线学习方法,其特征在于,2.根据权利要求1所述的分布式在线学习方法,其特征在于,其中,P
...

【专利技术属性】
技术研发人员:罗来龙郭得科胡煜晗赵亚威
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1