基于用户模型学习的多任务强化学习用户运营方法及系统技术方案

技术编号：34563646 阅读：43 留言：0更新日期：2022-08-17 12:52

本发明专利技术公开了一种基于用户模型学习的多任务强化学习用户运营方法及系统，去运营平台线上环境收集每个城市最近一段时间的平台操作和用户反馈数据,换成适用于机器学习的用户轨迹数据和用户行为数据；使用每个城市的用户轨迹数据，训练用于提取特征的编码器网络，输出每个城市每个用户的特征向量；进行聚类操作，构建通用网络模型结构；从每个城市的用户行为数据中去还原出每个城市的用户模型；使用通用网络模型结构初始化算智能体模型，以多个城市的用户模型为多任务环境来训练算法的通用智能体模型。将通用智能体模型中的通用运营策略模型部署到多个城市的线上环境，进行用户运营决策，并产生新一轮的平台操作和用户反馈数据。数据。数据。

全部详细技术资料下载

【技术实现步骤摘要】
基于用户模型学习的多任务强化学习用户运营方法及系统

[0001]本专利技术涉及一种基于用户模型学习的多任务强化学习用户运营方法及系统，来实现一个可以满足多城市用户运营需求的通用运营系统，属于移动平台的用户运营领域。

技术介绍

[0002]随着移动互联网在我国的不断发展，各行各业都开始往线上平台化方向发展。比如，传统的公共交通设施很难满足部分用户的出行需求，因此像滴滴这样的移动出行平台应运而生，着力打造更加快速、便捷和舒适的出行方式。对于同一行业的不同平台，为了吸引新用户和保证用户粘性，不同平台之间的竞争非常激烈，用户运营也成为了这些平台最为核心的工作之一。现实场景中，每个平台会同时经营很多个城市，每个城市由于用户习惯的差异，最优的运营策略也往往相差很大。如何快速、高效地完成多个城市用户的运营操作，成为了摆在平台面前的一个难题。
[0003]传统方法依赖于人工运营组去总结经验，这些经验由运营人员去对每个城市的历史数据去进行数据分析得到。过于依赖人工运营组，会消耗大量的人力并产生高昂的成本，且难以形成一个通用化、数字化的运营流程。一些比较先进的平台也已经引进了深度学习和强化学习的技术来训练神经网络模型，来辅助人工运营。但是这些方法要么在部分流程上仍然依赖人工，要么仍然只考虑单个城市场景，当有多个城市时，在流程上会产生大量重复工作，比如模型部署阶段需要重复上线多个策略模型。而且把不同城市的数据完全独立开，不利用城市数据之间的部分相似性，一旦出现某个新城市数据量比较少或者质量很差时，只基于这一份不太好的数据，将很难初...

【技术保护点】

【技术特征摘要】
1.一种基于用户模型学习的多任务强化学习用户运营方法，其特征在于，包括如下步骤：步骤（1），去线上平台收集每个城市最近一段时间所有用户的平台操作和自身反馈记录；步骤（2），进行特征工程，将每个用户的平台操作和自身反馈记录的历史数据转换成用于强化学习的轨迹数据；步骤（3），使用轨迹数据训练一个提取用户特征的编码器网络，编码器网络输出每个城市每个用户各自的特征向量；步骤（4），使用每个城市每个用户的特征向量去进行聚类操作，根据聚类操作的结果去构建一个通用网络模型结构；步骤（5），使用模仿学习的方法，去模仿真实的用户行为数据中的用户行为，以构建出每个城市的用户模型；步骤（6），使用通用网络模型结构来初始化强化学习算法所需要的通用智能体模型，以多个城市的用户模型为多任务环境同时训练通用智能体模型，输出智能体模型中的通用运营策略模型；步骤（7），将训练好的通用运营策略模型部署到每个城市的实际环境上，去指导进行用户运营决策，并产生新一轮的平台操作和用户反馈数据。2.根据权利要求1所述的基于用户模型学习的多任务强化学习用户运营方法，其特征在于，所述步骤（1）中，每个城市最近一段时间所有用户的平台操作和用户反馈记录包括：用户在指定时间范围内每一天获得平台对他进行运营操作的数值，包括运营操作的次数和每一次操作涉及动作的强度；用户反馈记录指用户在收到平台的运营操作后，在平台上进行反馈的次数以及每次反馈产生的平台收益。3.根据权利要求1所述的基于用户模型学习的多任务强化学习用户运营方法，其特征在于，所述步骤（2）中，特征工程将每个用户的平台操作和自身反馈记录的历史数据转换成用于强化学习的轨迹数据；令收集到的数据范围是从第1天到第2n天，首先去获得初始化的用户画像：以第n+1天为基准，用户在当天的画像是用户过去历史从第1天到第n天，基于所获平台操作和用户反馈记录，计算得到的一些统计特征数据，用s1来表示用户初始的画像；当预定义好平台运营动作、用户反馈动作和平台回报值，能计算从第n+1天到第2n天每一天的平台运营动作、用户反馈动作和平台回报值数据，分别用a
t
、u
t
和r
t
来表示，n+1≤t≤2n，同时根据已知的转移规则：s
t+1
=T(s
t
, a
t
, u
t
)，当知道当天的用户画像、平台运营动作和用户反馈动作，能计算得到第二天的用户画像；从用户的初始画像开始，基于转移规则和第n+1天到第2n天每一天的平台运营动作、用户反馈动作和平台回报值数据，得到了任何一个用户从第n+1天到第2n天内的一条轨迹数据：τ={(s1,a1,r1,s2), (s2,a2,r2,s3),
ꢀ…ꢀ
,(s
n
,a
n
,r
n
,s
n+1
)}一个城市所有用户的轨迹数据就构成了这个城市的轨迹数据集D；如果{1,
ꢀ…ꢀ
, L}表示L个不同的城市，那么总的用户轨迹训练数据就是D
sum
={D1,
ꢀ…ꢀ
, D
L
}；任何一个用户在第n+1天到第2n天内的行为数据为：β={((s1,a1),u1), ((s2,a2),u2),
ꢀ…ꢀ
, ((s
n
,a
n
),u
n
)}同理一个城市的所有用户行为数据就构成了这个城市的用户行为数据集B；总的用户
行为训练数据就是B
sum
={B1,
ꢀ…ꢀ
, B
L
}。4.根据权利要求1所述的基于用户模型学习的多任务强化学习用户运营方法，其特征在于，所述步骤（3）中，训练用于提取特征的编码器网络并输出特征向量的过程包括：（301）选择处理时序数据的神经网络模型结构，用以初始化编码器网络；编码器网络输入某个用户的一条时序轨迹数据τ，输出对应于这个用户的特征向量υ；（302）基于对比损失训练编码器网络；（303）总的对比损失就是任意两个城市各取一批用户，在这两批用户之间所有用户对的对比损失之和，用表示，基于梯度下降对编码器网络参数σ做如下更...

【专利技术属性】
技术研发人员：俞扬，胡南，詹德川，周志华，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人