当前位置: 首页 > 专利查询>清华大学专利>正文

一种优先级分层学习方法技术

技术编号:30646504 阅读:22 留言:0更新日期:2021-11-04 00:55
本发明专利技术本提出一种优先级分层学习方法,对于有N个不同优先级的任务,对于优先级i的任务,记其评价函数为Q

【技术实现步骤摘要】
一种优先级分层学习方法


[0001]本专利技术属于机器学习
,尤其涉及一种优先级分层学习方法。

技术介绍

[0002]目前的机器学习方法,善于优化单个目标。但是当任务需要同时优化多个目标时,效果较差。而且不同的目标之间的取舍关系一般通过权重系数来确定,这种方法的效果取决于超参数的选择,给训练带来了更多困难。
[0003]多目标优化问题,是指:对于一个输入x,求一个输出y,最大化多个评价函数Q
i
(x,y),i=1,2,

,N,其中Q
i
越大表示任务i完成得越好。

技术实现思路

[0004]针对上述问题,本专利技术提出了一种优先级分层学习方法。该方法针对带有优先级顺序的多个任务,能够在确保高优先级任务完成的前提下,尽可能好地完成低优先级任务。如果低优先级任务和高优先级任务无法同时完成,则会放弃低优先级任务而尽可能地完成高优先级任务。
[0005]本专利技术包含一种依照优先级、分层求解多目标优化问题的原理,该原理包含:
[0006]假设共有N个不同优先级的任务。若j<i,则表示任务j的优先级高于任务i。对于优先级i的任务,记其评价函数为Q
i
。对于优先级i的任务,维护一个待训练模型π
i

[0007]对于优先级i的任务,以及所有更高优先级任务j<i,准备一个预先确定的阈值ε
ij

[0008]在所有更高优先级任务优化完成后,对于优先级j对应的模型,记其优化后的结果为使用如下优化问题优化优先级i的模型:
[0009][0010][0011]基于上面的原理,本专利技术提出一种优先级分层学习方法,步骤如下:
[0012]步骤1:假设共有N个不同优先级的任务,对于优先级i的任务,记其评价函数为Q
i
,并维护一个预测模型π
i

[0013]其中,评价函数Q
i
是从模型输出到实数的映射,对于一个模型输出值,评价函数得到的值越大说明此输出完成任务的情况越好。评价函数有多种实现方式,如:使用确定的函数或者使用神经网络拟合等等。预测模型π
i
是一个从输入空间到输出空间的映射,它接收输入量,返回输出值。预测模型可以用神经网络实现。
[0014]步骤2:对于优先级i的任务,以及所有更高优先级任务j<i,准备一个预先确定的阈值ε
ij
,并维护一个松弛变量λ
ij
。其中,松弛变量是一个非负实数。
[0015]步骤3:对于任意i>j,如果Q
j

i
)+ε
ij
<Q
j

j
),则表示π
i
在任务j上的表现比π
j

太多了,则增大λ
ij
;反之则减小λ
ij
,但保持λ
ij
>0。
[0016]步骤4:以λ
ij
,j<i作为权重优化π
i

[0017]步骤5:重复步骤3和4,直到收敛,最终得到的π
N
就是所求的模型。
[0018]本专利技术的有益效果在于:用约束描述优先级,解决了传统多目标优化方法没有优先级顺序的问题。引入松弛变量,自动调整各个优化目标的权重。对偶变量自适应调节。与原问题零对偶间隙,为凸优化问题,现有求解器可快速求解。
具体实施方式
[0019]下面结合实例对本专利技术作详细说明。
[0020]在一个强化学习问题中实施上述方法。该强化学习问题要求预测模型控制一台机器人在仿真环境中尽可能快地前进,同时要保证机器人的身体竖直、能耗尽量小。
[0021]因此,该问题包含3个任务。第1个任务是保证机器人的身体竖直;第2个任务是控制机器人尽可能快地前进;第3个任务是降低机器人的能量消耗。
[0022]规定第1个任务拥有最高优先级;第3个任务拥有最低优先级。
[0023]该方法的步骤如下:
[0024]对于优先级i的任务,初始化一个待训练的策略模型π
i
和一个评价函数Q
i
。需要说明的是,在强化学习问题里,评价函数Q
i
也需要通过训练得到,其训练方法可以为拟合Bellman方程。为了训练Q
i
,需要预先确定评价函数学习速率α
Qi
和回报衰减速率γ
i
∈(0,1)。
[0025]对于优先级i的任务,准备一个预先确定的策略模型学习速率α
i
和松弛变量学习速率β
i
。对于优先级i的任务,以及所有更高优先级任务j<i,准备一个预先确定的阈值ε
ij
并维护一个松弛变量λ
ij

[0026]每次训练时,对于每个任务的策略模型和评价函数做如下处理:
[0027]1.对于优先级i的任务,采样得到一组输入s
t
、输出a
t
、回报r
t

[0028]2.使用常规方法更新评价函数Q
i
::
[0029]3.更新松弛变量λ
ij

max(λ
ij

i
(

Q
j

i
(s
t
))

ε
ij
+Q
j

j
(s
t
))),
[0030][0031]4.更新策略模型
[0032]对于每个任务,进行上述计算。不断重复直至收敛。此时,最低优先级的模型π3就是所求的策略。
[0033]此实施例仅为本专利技术较佳的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本专利技术的保护范围之内。因此,本专利技术的保护范围应该以权利要求的保护范围为准。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种优先级分层学习方法,其特征在于,步骤如下:步骤1:对于有N个不同优先级的任务,对于优先级i的任务,记其评价函数为Q
i
,并维护一个预测模型π
i
;步骤2:对于优先级i的任务,以及所有更高优先级任务j<i,准备一个预先确定的阈值ε
ij
,并维护一个松弛变量λ
ij
;步骤3:对于任意i>j,如果Q
j

i
)+ε
ij
<Q
j

j
),则表示π
i
在任务j上的表现比π
j
差太多了,则增大λ
...

【专利技术属性】
技术研发人员:赵明国李沛阳韩新宇
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1