当前位置: 首页 > 专利查询>南京大学专利>正文

基于用户模型学习的多任务强化学习用户运营方法及系统技术方案

技术编号:34563646 阅读:32 留言:0更新日期:2022-08-17 12:52
本发明专利技术公开了一种基于用户模型学习的多任务强化学习用户运营方法及系统,去运营平台线上环境收集每个城市最近一段时间的平台操作和用户反馈数据,换成适用于机器学习的用户轨迹数据和用户行为数据;使用每个城市的用户轨迹数据,训练用于提取特征的编码器网络,输出每个城市每个用户的特征向量;进行聚类操作,构建通用网络模型结构;从每个城市的用户行为数据中去还原出每个城市的用户模型;使用通用网络模型结构初始化算智能体模型,以多个城市的用户模型为多任务环境来训练算法的通用智能体模型。将通用智能体模型中的通用运营策略模型部署到多个城市的线上环境,进行用户运营决策,并产生新一轮的平台操作和用户反馈数据。数据。数据。

【技术实现步骤摘要】
基于用户模型学习的多任务强化学习用户运营方法及系统


[0001]本专利技术涉及一种基于用户模型学习的多任务强化学习用户运营方法及系统,来实现一个可以满足多城市用户运营需求的通用运营系统,属于移动平台的用户运营领域。

技术介绍

[0002]随着移动互联网在我国的不断发展,各行各业都开始往线上平台化方向发展。比如,传统的公共交通设施很难满足部分用户的出行需求,因此像滴滴这样的移动出行平台应运而生,着力打造更加快速、便捷和舒适的出行方式。对于同一行业的不同平台,为了吸引新用户和保证用户粘性,不同平台之间的竞争非常激烈,用户运营也成为了这些平台最为核心的工作之一。现实场景中,每个平台会同时经营很多个城市,每个城市由于用户习惯的差异,最优的运营策略也往往相差很大。如何快速、高效地完成多个城市用户的运营操作,成为了摆在平台面前的一个难题。
[0003]传统方法依赖于人工运营组去总结经验,这些经验由运营人员去对每个城市的历史数据去进行数据分析得到。过于依赖人工运营组,会消耗大量的人力并产生高昂的成本,且难以形成一个通用化、数字化的运营流程。一些比较先进的平台也已经引进了深度学习和强化学习的技术来训练神经网络模型,来辅助人工运营。但是这些方法要么在部分流程上仍然依赖人工,要么仍然只考虑单个城市场景,当有多个城市时,在流程上会产生大量重复工作,比如模型部署阶段需要重复上线多个策略模型。而且把不同城市的数据完全独立开,不利用城市数据之间的部分相似性,一旦出现某个新城市数据量比较少或者质量很差时,只基于这一份不太好的数据,将很难初始化一个性能比较好的运营策略。
[0004]深度强化学习近些年来开始被广泛应用于现实世界复杂的序列化决策问题中,如机器人控制、玩电子游戏和推荐系统等。通过使用强化学习算法来训练得到的深度神经网络策略模型,可以代替人工进行决策。传统的强化学习方法需要与环境进行大量的交互试错过程,在现实环境中会带来很大的危害和代价,因此在本专利技术中提出了一种基于用户模型学习的方法,来通过离线用户行为数据去还原出用户模型环境,并使用用户模型环境来近似代替真实的环境。另外,目前的强化学习方法很难适用于多任务场景,训练出来的策略具有很差的拓展性,往往只能满足一个特定环境决策的需求。一旦环境发生细小改变,策略都会失效。

技术实现思路

[0005]专利技术目的:在移动平台用户运营任务中,需要同时去对多个城市的用户进行运营操作,这些城市的最优用户运营策略往往差异很大。传统方法一般依赖于大量人工数据分析工作,或者使用机器学习方法来对每个城市分别训练一个用户运营的策略模型。前者成本高、过程简单且难以数字化,后者会产生大量重复过程且难以利用数据的相关性。为了解决之前方法存在的问题,本专利技术提出了一个基于用户模型学习的多任务强化学习方法,和基于该方法实现的通用运营系统,整个系统可以自动化代替人工决策的同时,也通过将用
户运营的策略模型设计成可以学习多个任务的通用结构,来实现只需要训练一个运营策略模型就可以完成多城市条件下的用户运营任务。
[0006]本专利技术基于聚类的方法来发现任务的相关性,并将这个先验的相关性知识迁移到模型结构的设计中,再使用可行的强化学习算法,以所学的多个城市的用户模型为多任务环境来训练算法的通用智能体模型,最终得到一个可以适应多城市条件下的用户运营策略模型,从而可以构建一个自动、高效的满足多城市的通用运营系统。
[0007]技术方案:一种基于用户模型学习的多任务强化学习用户运营方法,包括:收集运营平台线上环境中每个城市最近一段时间的平台操作和用户反馈数据;进行特征工程,将原始的平台操作和用户反馈数据分别转换成适用于机器学习的用户轨迹数据和用户行为数据;使用每个城市的用户轨迹数据,训练一个用于提取特征的编码器网络,输出每个城市每个用户的特征向量;基于每个城市每个用户的特征向量,进行聚类操作,然后根据聚类的结果构建一个通用网络模型结构;使用模仿学习方法从每个城市的用户行为数据中去还原出每个城市的用户模型;选择可行的强化学习算法,使用通用网络模型结构初始化强化学习算法所需要的智能体模型,接着以多个城市的用户模型为多任务环境来训练强化学习算法的通用智能体模型;将训练好的通用智能体模型中的通用运营策略模型部署到多个城市的线上环境,进行用户运营决策,并产生新一轮的平台操作和用户反馈数据。
[0008]具体地,本专利技术包括以下步骤:(1)去线上平台收集每个城市最近一段时间所有用户的平台操作和自身反馈记录;(2)进行特征工程,将每个用户的平台操作和自身反馈记录的历史数据转换成按天为间隔、可用于强化学习的轨迹数据;(3)使用这些轨迹数据去训练一个提取用户特征的编码器网络,编码器网络输出每个城市每个用户各自的特征向量;(4)使用每个城市每个用户的特征向量去进行聚类操作,根据聚类操作的结果去构建一个通用网络模型结构;(5)使用模仿学习的方法,去模仿真实的用户行为数据中的用户行为,以构建出每个城市的用户模型,这些用户模型作为后续强化学习的多任务环境;(6)使用通用网络模型结构来初始化可行的强化学习算法所需要的通用智能体模型,以多个城市的用户模型为多任务环境同时训练通用智能体模型,输出智能体模型中的通用运营策略模型;(7)将训练好的通用运营策略模型部署到每个城市的实际环境上,去指导进行用户运营决策,并产生新一轮的平台操作和用户反馈数据。
[0009]所述(1)中,每个城市最近一段时间所有用户的平台操作和用户反馈记录包括:用户在指定时间范围内每一天获得平台对他进行运营操作的数值,包括运营操作的次数和每一次操作涉及动作的强度,所述强度用来衡量平台对于用户运营的强度,比如说用户促销
运营,就对应于折扣的大小;用户反馈记录指用户在收到平台的运营操作后,在平台上进行反馈的次数以及每次反馈产生的平台收益。
[0010]所述(2)中,特征工程将原始的平台操作和用户反馈数据分别转换成适用于机器学习的用户轨迹数据和用户行为数据。令收集到的数据范围是从第1天到第2n天,首先去获得初始化的用户画像:以第n+1天为基准,用户在当天的画像是用户过去历史从第1天到第n天,基于所获平台操作和用户反馈记录,计算得到的一些统计特征数据,用s1来表示用户初始的画像(对应第n+1天)。同理,当预定义好平台运营动作、用户反馈动作和平台回报值,能计算从第n+1天到第2n天每一天的平台运营动作、用户反馈动作和平台回报值数据,分别用a
t
、u
t
和r
t
来表示(n+1≤t≤2n)。同时根据已知的转移规则:s
t+1
=T(s
t
, a
t
, u
t
), 当我们知道当天的用户画像、平台运营动作和用户反馈动作,能计算得到第二天的用户画像。这样从用户的初始画像开始,基于转移规则和第n+1天到第2n天每一天的平台运营动作、用户反馈动作和平台回报值数据,得到了任何一个用户从第n+1天到第2n天内的一条轨迹数据(在轨迹中下标1对应第n+1天):τ={(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于用户模型学习的多任务强化学习用户运营方法,其特征在于,包括如下步骤:步骤(1),去线上平台收集每个城市最近一段时间所有用户的平台操作和自身反馈记录;步骤(2),进行特征工程,将每个用户的平台操作和自身反馈记录的历史数据转换成用于强化学习的轨迹数据;步骤(3),使用轨迹数据训练一个提取用户特征的编码器网络,编码器网络输出每个城市每个用户各自的特征向量;步骤(4),使用每个城市每个用户的特征向量去进行聚类操作,根据聚类操作的结果去构建一个通用网络模型结构;步骤(5),使用模仿学习的方法,去模仿真实的用户行为数据中的用户行为,以构建出每个城市的用户模型;步骤(6),使用通用网络模型结构来初始化强化学习算法所需要的通用智能体模型,以多个城市的用户模型为多任务环境同时训练通用智能体模型,输出智能体模型中的通用运营策略模型;步骤(7),将训练好的通用运营策略模型部署到每个城市的实际环境上,去指导进行用户运营决策,并产生新一轮的平台操作和用户反馈数据。2.根据权利要求1所述的基于用户模型学习的多任务强化学习用户运营方法,其特征在于,所述步骤(1)中,每个城市最近一段时间所有用户的平台操作和用户反馈记录包括:用户在指定时间范围内每一天获得平台对他进行运营操作的数值,包括运营操作的次数和每一次操作涉及动作的强度;用户反馈记录指用户在收到平台的运营操作后,在平台上进行反馈的次数以及每次反馈产生的平台收益。3.根据权利要求1所述的基于用户模型学习的多任务强化学习用户运营方法,其特征在于,所述步骤(2)中,特征工程将每个用户的平台操作和自身反馈记录的历史数据转换成用于强化学习的轨迹数据;令收集到的数据范围是从第1天到第2n天,首先去获得初始化的用户画像:以第n+1天为基准,用户在当天的画像是用户过去历史从第1天到第n天,基于所获平台操作和用户反馈记录,计算得到的一些统计特征数据,用s1来表示用户初始的画像;当预定义好平台运营动作、用户反馈动作和平台回报值,能计算从第n+1天到第2n天每一天的平台运营动作、用户反馈动作和平台回报值数据,分别用a
t
、u
t
和r
t
来表示,n+1≤t≤2n,同时根据已知的转移规则:s
t+1
=T(s
t
, a
t
, u
t
),当知道当天的用户画像、平台运营动作和用户反馈动作,能计算得到第二天的用户画像;从用户的初始画像开始,基于转移规则和第n+1天到第2n天每一天的平台运营动作、用户反馈动作和平台回报值数据,得到了任何一个用户从第n+1天到第2n天内的一条轨迹数据:τ={(s1,a1,r1,s2), (s2,a2,r2,s3),
ꢀ…ꢀ
,(s
n
,a
n
,r
n
,s
n+1
)}一个城市所有用户的轨迹数据就构成了这个城市的轨迹数据集D;如果{1,
ꢀ…ꢀ
, L}表示L个不同的城市,那么总的用户轨迹训练数据就是D
sum
={D1,
ꢀ…ꢀ
, D
L
};任何一个用户在第n+1天到第2n天内的行为数据为:β={((s1,a1),u1), ((s2,a2),u2),
ꢀ…ꢀ
, ((s
n
,a
n
),u
n
)}同理一个城市的所有用户行为数据就构成了这个城市的用户行为数据集B;总的用户
行为训练数据就是B
sum
={B1,
ꢀ…ꢀ
, B
L
}。4.根据权利要求1所述的基于用户模型学习的多任务强化学习用户运营方法,其特征在于,所述步骤(3)中,训练用于提取特征的编码器网络并输出特征向量的过程包括:(301)选择处理时序数据的神经网络模型结构,用以初始化编码器网络;编码器网络输入某个用户的一条时序轨迹数据τ,输出对应于这个用户的特征向量υ;(302)基于对比损失训练编码器网络;(303)总的对比损失就是任意两个城市各取一批用户,在这两批用户之间所有用户对的对比损失之和,用表示,基于梯度下降对编码器网络参数σ做如下更...

【专利技术属性】
技术研发人员:俞扬胡南詹德川周志华
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1