一种基于深度强化学习的旅游路线定制方法及系统技术方案

技术编号:32860262 阅读:27 留言:0更新日期:2022-03-30 19:38
本发明专利技术公开了一种基于深度强化学习的旅游路线定制方法及系统,包括依据酒店、景点、交通数据挖掘游客历史偏好得分;基于深度强化学习算法的路线优化框架;获取游客需求,生成智能、定制化路线;基于游客实时场景变化,动态更新路线;该方法可以快速得到包含酒店及景点的智能化、定制化路线,为游客提供更加多样化、便捷的服务,省去游客选择酒店、景点和路线规划的时间;环境看为游客真实所处的旅游环境,旅游环境包括POI信息和游客输入信息,根据游客历史偏好和需求生成路线,可以满足游客个性化和定制化的设计要求;根据游客真实旅游路径,动态化智能化规划路线,并进一步学习优化模型,可以提高游客满意度和体验感。可以提高游客满意度和体验感。可以提高游客满意度和体验感。

【技术实现步骤摘要】
一种基于深度强化学习的旅游路线定制方法及系统


[0001]本专利技术属于旅游路线定制领域,具体为一种基于深度强化学习的旅游路线定制方法及系统。

技术介绍

[0002]旅游业作为现代服务业的重要组成部分,已逐渐成为世界上最重要的经济推动力之一。随着旅游的普及,游客的行为也发生了很大的变化,游客越来越喜欢“定制游”和“自驾游”,而不是预先组织的路线或标准的旅游套餐。
[0003]定制化旅游线路问题被称为“旅游线路设计问题”,其目的是根据游客的约束条件,通过最大化游客的总偏好得分来为游客设计旅游线路。现有的定制化旅游线路机制对酒店的选择关注相对较少,然而这是多日游路线的重要组成部分。实际上,游客通常会在每天结束时选择一家酒店,并在这家酒店继续第二天的旅行。因此,用酒店选择来解决旅游设计问题是一个关键而又复杂的问题。
[0004]现有的主流方法为各种启发方法,主要专注于选择和排序POIs,但是忽略了在每个POIs上花费的观光时间的优化,也忽略了真实交通和游客对POIs的真实偏好。

技术实现思路

[0005]本专利技术的目的在于提供一种基于深度强化学习的旅游路线定制方法及系统;可以快速得到包含酒店及景点的智能化、定制化路线;可以满足游客个性化和定制化的设计要求;可以提高游客满意度和体验感。
[0006]为了实现上述目的,本专利技术采用的技术方案为:一种基于深度强化学习的旅游路线定制方法,包括以下步骤:
[0007]获取游客需求,基于所述游客需求和路线优化模型生成定制化路线;/>[0008]其中,路线优化模型基于深度强化学习框架,将旅游路线规划问题定义为一个马尔科夫决策过程,即按时间序列依次生成POI信息,根据游客给定起点、终点、游玩天数和每天游玩时长,按照游客给定起点,依次选择景点,一天游玩结束后选择酒店;第二天,从酒店出发,重复上述过程,直到游玩结束,选择游客给定的终点,深度强化学习框架包括环境和智能体,游客真实所处的旅游环境作为环境,所述旅游环境包括POI信息和游客输入信息变量,采用深度学习算法学习环境表征;通过输入环境信息,智能体输出下一步需要选择的POI;通过行动者

评论者算法训练,得到路线优化模型;
[0009]根据游客实时场景变化,基于路线优化模型动态更新路线。
[0010]路线优化模型训练包括如下步骤:
[0011]收集旅游目的地的酒店和景点的属性信息及游客评论信息,酒店和景点统称为POI,同时收集POI与交通信息相关的数据;旅游目的地包括传统经典线路一系列目的地或单一某一个城市、或某一处风景区;
[0012]通过分析所述游客评论信息,构建游客画像,挖掘游客对景点的偏好得分;
[0013]基于游客偏好得分、景点信息及交通信息,构建基于深度强化学习框架线优化模型,通过行动者

评论者算法训练,求得优化模型。
[0014]深度强化学习框架包括状态、行动、奖励和策略;
[0015]状态:状态定义某一之前选择的POI序列,状态是环境的输出,是智能体的输入,在旅游线路设计中,根据旅游语境信息将状态元素分为静态元素和动态元素;
[0016]行动:根据当前状态,下一个需要被选择的POI为行动,选择POI后,状态将更新为一个新的状态,选择不同的行动(POI)将导致不同的状态更新;
[0017]奖励:奖励定义一个行为在当前状态下对环境的改变是好是坏,将用户对一个POI序列的偏好值总得分作为奖励Reward,奖励用于指导智能体选择使目标函数最大化的POI序列,其具体计算公式为:
[0018][0019]其中,k∈{1,2,...,K}表示游客类型;U表示总偏好得分值;U
k
表示游客类型为k的游客的总偏好得分值;a
t
表示第t步选择的POI;表示游客类型为k的游客在第t步选择的POI所带来的偏好得分;
[0020]策略:智能体基于策略选择动作,通过输入当前状态,输出动作的概率分布,将当前状态映射为最优控制动作以被下一步选择;一个序列拥有更高的总奖励,更新参数以支持该序列;行动概率的计算方式为:
[0021]P(a
t
|s
t
,G)=π
θ
(s
t
,a
t
)
[0022]其中,G表示POI网络分布图;π
θ
表示参数为θ的策略网络;s
t
表示第t阶段的状态,a
t
表示第t阶段生成的动作;
[0023]接着,计算POI序列的生成概率,其计算方式为:
[0024][0025]其中,O表示POI序列;G表示POI网络分布图;p(o
t
|O
t
‑1,G)表示行动概率,即在第t步根据所选的POI序列选择下一个POI的概率;
[0026]训练DRL模型的目的是更新策略参数,使总奖励值最大化,即训练模型,使得其能产生使用户偏好总得分最大化的路线;通过对给定参数和图的所有旅游路线进行求和来计算期望的奖励,其计算方式为:
[0027][0028]其中,π
θ
表示参数为θ的策略网络;R(O|G)表示在POI网络分布图为G的条件下,POI序列O所获得的奖励;
[0029]最后,采用行动者

评论者算法进行模型训练,得到优化后的DRL模型。
[0030]使用基于策略梯度的行动者

评论者算法来训练策略网络,在行动者

评论者框架中,行动者负责策略梯度学习策略,即策略网络通过与环境的互动产生行动,评论者用来估计预期的累积奖励,预期的累积奖励对评价行动者的表现和指导行动者在下一阶段的行动作出回应;
[0031]通过给出POI网络分布图G并设置参数,策略网络的训练目标是使期望回报最大
化,为了使期望回报最大化,采用策略梯度算法来更新策略;策略梯度表示为:
[0032][0033]其中,G表示POI网络分布图;O
n
表示随机生成的第n个POI序列;R(O
n
|G)表示POI序列O
n
的奖励;b(G)表示期望累积奖励的基线,用于减少训练方差;π
θ
(O)表示参数为θ的策略网络;
[0034]评论者网络为前馈神经网络,输入是各个景点的嵌入特征向量的加权和,接下来是两个隐藏层,即ReLU和Dense层,以及另一个线性层,所述线性层带有单个输出以返回估计的奖励,将均方误差表示为评论者,均方误差用于训练评论者网络参数,具体表示为:
[0035][0036]其中,N表示批大小的个数;O
n
表示随机生成的第n个POI序列;G表示POI网络分布图;R(O
n
|G)表示POI序列O
n
的奖励;b
β
(G)表示参数为β的期望累积奖本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的旅游路线定制方法,其特征在于,包括以下步骤:获取游客需求,基于所述游客需求和路线优化模型生成定制化路线;其中,路线优化模型基于深度强化学习框架,将旅游路线规划问题定义为一个马尔科夫决策过程,即按时间序列依次生成POI信息,根据游客给定起点、终点、游玩天数和每天游玩时长,按照游客给定起点,依次选择景点,一天游玩结束后选择酒店;第二天,从酒店出发,重复上述过程,直到游玩结束,选择游客给定的终点,深度强化学习框架包括环境和智能体,游客真实所处的旅游环境作为环境,所述旅游环境包括POI信息和游客输入信息变量,采用深度学习算法学习环境表征;通过输入环境信息,智能体输出下一步需要选择的POI;通过行动者

评论者算法训练,得到路线优化模型;根据游客实时场景变化,基于路线优化模型动态更新路线。2.根据权利要求1所述的基于深度强化学习的旅游路线定制方法,其特征在于,路线优化模型训练包括如下步骤:收集旅游目的地的酒店和景点的属性信息及游客评论信息,酒店和景点统称为POI,同时收集POI与交通信息相关的数据;旅游目的地包括传统经典线路一系列目的地或单一某一个城市、或某一处风景区;通过分析所述游客评论信息,构建游客画像,挖掘游客对景点的偏好得分;基于游客偏好得分、景点信息及交通信息,构建基于深度强化学习框架线优化模型,通过行动者

评论者算法训练,求得优化模型。3.根据权利要求1所述的基于深度强化学习的旅游路线定制方法,其特征在于,深度强化学习框架包括状态、行动、奖励和策略;状态:状态定义某一之前选择的POI序列,状态是环境的输出,是智能体的输入,在旅游线路设计中,根据旅游语境信息将状态元素分为静态元素和动态元素;行动:根据当前状态,下一个需要被选择的POI为行动,选择POI后,状态将更新为一个新的状态,选择不同的行动(POI)将导致不同的状态更新;奖励:奖励定义一个行为在当前状态下对环境的改变是好是坏,将用户对一个POI序列的偏好值总得分作为奖励Reward,奖励用于指导智能体选择使目标函数最大化的POI序列,其具体计算公式为:其中,k∈{1,2,...,K}表示游客类型;U表示总偏好得分值;U
k
表示游客类型为k的游客的总偏好得分值;a
t
表示第t步选择的POI;表示游客类型为k的游客在第t步选择的POI所带来的偏好得分;策略:智能体基于策略选择动作,通过输入当前状态,输出动作的概率分布,将当前状态映射为最优控制动作以被下一步选择;一个序列拥有更高的总奖励,更新参数以支持该序列;行动概率的计算方式为:P(a
t
|s
t
,G)=π
θ
(s
t
,a
t
)其中,G表示POI网络分布图;π
θ
表示参数为θ的策略网络;s
t
表示第t阶段的状态,a
t
表示第t阶段生成的动作;接着,计算POI序列的生成概率,其计算方式为:
其中,O表示POI序列;G表示POI网络分布图;p(o
t
|O
t
‑1,G)表示行动概率,即在第t步根据所选的POI序列选择下一个POI的概率;训练DRL模型的目的是更新策略参数,使总奖励值最大化,即训练模型,使得其能产生使用户偏好总得分最大化的路线;通过对给定参数和图的所有旅游路线进行求和来计算期望的奖励,其计算方式为:其中,π
θ
表示参数为θ的策略网络;R(O|G)表示在POI网络分布图为G的条件下,POI序列O所获得的奖励;最后,采用行动者

评论者算法进行模型训练,得到优化后的DRL模型。4.根据权利要求3所述的基于深度强化学习的旅游路线定制方法,其特征在于,使用基于策略梯度的行动者

评论者算法来训练策略网络,在行动者

评论者框架...

【专利技术属性】
技术研发人员:赵玺刘佳璠王乐李雨航
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1