【技术实现步骤摘要】
旅程规划模型的训练方法和旅程规划方法
[0001]本公开涉及人工智能
,具体为深度学习
,可应用于旅程规划等场景,尤其涉及一种旅程规划模型的训练方法、旅程规划方法、装置、设备、存储介质以及计算机程序产品。
技术介绍
[0002]目前在进行旅程规划时,通常将旅程规划问题转化为一个整数规划问题进行求解,或者不考虑时间预算信息,基于循环神经网络来生成一个旅程,但基于整数规划问题的规划方法规划结果不一定合理,且求解过程耗时严重,基于循环神经网络的方法不考虑时间预算信息,规划结果不够个性化。
技术实现思路
[0003]本公开提供了一种旅程规划模型的训练方法、旅程规划方法、装置、设备、存储介质以及计算机程序产品,提高了旅程规划的效率。
[0004]根据本公开的一方面,提供了一种旅程规划模型的训练方法,包括:获取训练样本集,其中,训练样本包括旅程请求样本和对应的目标旅程样本;执行以下训练步骤:从训练样本集中选取一对旅程请求样本和目标旅程样本;基于选取的目标旅程样本和旅程请求样本中的时间预算信息,对初始旅程规划模型进行训练,得到训练后的旅程规划模型;响应于训练次数满足第一次数阈值条件,将训练后的旅程规划模型确定为目标旅程规划模型。
[0005]根据本公开的另一方面,提供了一种旅程规划方法,包括:获取旅程请求,旅程请求包括时间预算信息和出发地信息;将旅程请求输入到目标旅程规划模型中,得到目标旅程。
[0006]根据本公开的又一方面,提供了一种旅程规划模型的训练装置,包括:获取模块,被 ...
【技术保护点】
【技术特征摘要】
1.一种旅程规划模型的训练方法,包括:获取训练样本集,其中,训练样本包括旅程请求样本和对应的目标旅程样本;执行以下训练步骤:从所述训练样本集中选取一对旅程请求样本和目标旅程样本;基于选取的目标旅程样本和旅程请求样本中的时间预算信息,对初始旅程规划模型进行训练,得到训练后的旅程规划模型;响应于训练次数满足第一次数阈值条件,将所述训练后的旅程规划模型确定为目标旅程规划模型。2.根据权利要求1所述的方法,还包括:响应于所述训练次数不满足所述第一次数阈值条件,将所述训练后的旅程规划模型作为所述初始旅程规划模型,再次执行所述训练步骤。3.根据权利要求2所述的方法,其中,所述基于选取的目标旅程样本和旅程请求样本中的时间预算信息,对初始旅程规划模型进行训练,得到训练后的旅程规划模型包括:获取选取的旅程请求样本中的所述时间预算信息、出发地信息;基于所述初始旅程规划模型对所述时间预算信息、所述出发地信息以及预先确定的多个候选地点信息进行联合计算,从所述多个候选地点信息中选出至少一个目标地点信息,并与所述出发地信息组成初始旅程信息;基于所述初始旅程信息和选取的目标旅程样本计算得到损失值,基于所述损失值对所述初始旅程规划模型进行参数调整,得到所述训练后的旅程规划模型。4.根据权利要求3所述的方法,其中,所述初始旅程规划模型包括预处理层、注意力层、前馈网络层和规划层;所述基于所述初始旅程规划模型对所述时间预算信息、所述出发地信息以及预先确定的多个候选地点信息进行联合计算,从所述多个候选地点信息中选出至少一个目标地点信息包括:通过所述预处理层对所述多个候选地点信息进行预处理,得到第一向量矩阵;将所述第一向量矩阵输入到所述注意力层中进行计算,得到第二向量矩阵;将所述第二向量矩阵输入到所述前馈网络层中进行计算,得到候选向量矩阵;通过所述规划层对所述候选向量矩阵、所述时间预算信息和所述出发地信息进行联合计算,并基于计算结果从所述多个候选地点信息中选出至少一个目标地点信息。5.根据权利要求4所述的方法,其中,所述通过所述预处理层对所述多个候选地点信息进行预处理,得到第一向量矩阵包括:基于所述预处理层执行如下操作:将所述多个候选地点信息转换为对应的多个向量组,每个向量组中包括坐标嵌入向量、类别嵌入向量和停留时间嵌入向量;将同一组的坐标嵌入向量、类别嵌入向量和停留时间嵌入向量,拼接为一个第一表征向量;将得到的多个第一表征向量确定为所述第一向量矩阵。6.根据权利要求5所述的方法,其中,所述将所述第一向量矩阵输入到所述注意力层中进行计算,得到第二向量矩阵包括:通过所述注意力层中的多个注意力头,对输入的所述第一向量矩阵进行计算,得到多个注意力头矩阵;
将所述多个注意力头矩阵进行拼接,得到所述第二向量矩阵。7.根据权利要求6所述的方法,其中,所述将所述第二向量矩阵输入到所述前馈网络层中进行计算,得到候选向量矩阵包括:通过所述前馈网络层中的多个前馈网络子层,对输入的所述第二向量矩阵进行非线性变换,得到所述候选向量矩阵。8.根据权利要求7所述的方法,其中,所述通过所述规划层对所述候选向量矩阵、所述时间预算信息和所述出发地信息进行联合计算,并基于计算结果从所述多个候选地点信息中选出至少一个目标地点信息包括:基于所述规划层执行以下操作:对所述候选向量矩阵、所述时间预算信息和所述出发地信息进行联合计算,生成一个上下文向量,其中,所述上下文向量包括可用时间;基于所述上下文向量从所述多个候选地点信息中选出一个目标地点信息;响应于所述可用时间不满足时间阈值条件,再次执行所述对所述候选向量矩阵、所述时间预算信息和所述出发地信息进行联合计算。9.根据权利要求8所述的方法,其中,所述对所述候选向量矩阵、所述时间预算信息和所述出发地信息进行联合计算,生成一个上下文向量包括:对所述候选向量矩阵进行拆分计算,生成全局表征向量;对所述候选向量矩阵、所述时间预算信息和所述出发地信息进行联合计算,得到所述可用时间,并将所述可用时间转换为可用时间嵌入向量;从所述候选向量矩阵中获取最后被选中的目标地点信息的表征向量;将所述全局表征向量、所述可用时间嵌入向量和所述最后被选中的目标地点信息的表征向量,拼接为所述上下文向量。10.根据权利要求9所述的方法,其中,所述基于所述上下文向量从所述多个候选地点信息中选出一个目标地点信息包括:对所述上下文向量执行时间掩码操作,得到改进的上下文向量;基于所述改进的上下文向量计算选择每个候选地点信息的概率;将概率最大的候选地点信息确定为所述目标地点信息。11.根据权利要求1
‑
10任一项所述的方法,其中,所述响应于训练次数满足第一次数阈值条件,将所述训练后的旅程规划模型确定为目标旅程规划模型包括:响应于所述训练次数满足所述第一次数阈值条件且不满足第二次数阈值条件,基于策略梯度算法对所述训练后的旅程规划模型进行参数调整,得到优化后的旅程规划模型,并将所述优化后的旅程规划模型作为所述训练后的旅程规划模型,再次执行所述基于策略梯度算法对所述训练后的旅程规划模型进行参数调整;响应于所述训练次数满足所述第二次数阈值条件,将所述优化后的旅程规划模型确定为所述目标旅程规划模型;其中,所述第一次数阈值条件的数值小于所述第二次数阈值条件的数值。12.一种旅程规划方法,包括:获取旅程请求,所述旅程请求包括时间预算信息和出发地信息;将所述旅程请求输入到目标旅程规划模型中,得到目标旅程,其中,所述目标旅程规划
模型基于权利要求1
‑
11任一项所述的训练方法训练得到。13.一种旅程规划模型的训练装置,所述装置包括:获取模块,被配置为获取训练样本集,其中,训练样本包括旅程请求样本和对应的目标旅程样本;训练模块,被配置为执行以下训练步骤:从所述训练样本集中选取一对旅程请求样本和目标旅程样本;基于选取的目标旅程样本和旅程请求...
【专利技术属性】
技术研发人员:江林朗,周景博,徐童,李岩岩,陈浩,窦德景,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。