【技术实现步骤摘要】
信息处理方法及装置、计算设备
本申请涉及电子设备
,尤其涉及一种信息处理方法及装置、计算设备。
技术介绍
在线决策系统是一种基于在线决策模型产生推荐内容,将推荐内容在线推荐给用户,并通过快速获取用户线上反馈对在线决策模型进行调整,以不断根据用户反馈进行推荐内容更新的访问平台。例如,线上课程系统、在线交易系统、社交网络系统、线上金融系统等,线上课程系统可以进行课程推荐、在线交易系统可以进行商品推荐,社交网络系统可以进行社交内容推荐,线上金融系统可以进行金融产品的推荐等。现有技术中,在线决策模型实际是通过平衡探索(Exploration)与利用(Exploitation)的过程,实现在线决策算法收敛,以获得能够产生最高反馈的推荐内容。在线决策算法可以通过学习以获得在线决策模型,在学习模型过程中,管理方可以是确定在线学习算法,并根据经验设置算法超参数以进行建模,之后利用训练数据进行训练,获得在线决策算法的模型参数,并在线决策模型确定之后,还可以通过用户对推荐内容的反馈不断更新在线决策算法的模型参数。但是,在线决策算法通常是依据人工经验选择的,人工经验实际缺乏时会导致算法设置不够准确,导致在线决策模型的决策效果较差,推荐内容的有效性不高。
技术实现思路
有鉴于此,本申请实施例提供一种信息处理方法及装置、计算设备,用以解决现有技术中在线决策算法以及其超参数通常由人工设置而导致推荐有效性较低的技术问题。第一方面,本申请实施例提供一种信息处理方法,包括:检测目标用户针对目标 ...
【技术保护点】
1.一种信息处理方法,其特征在于,包括:/n检测目标用户针对目标处理系统发起的系统访问请求;/n响应于所述系统访问请求,确定多个在线决策模型分别在所述目标处理系统产生的决策结果;/n基于所述多个在线决策模型分别对应的决策结果,确定目标推荐信息;/n为所述目标用户输出所述目标推荐信息。/n
【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:
检测目标用户针对目标处理系统发起的系统访问请求;
响应于所述系统访问请求,确定多个在线决策模型分别在所述目标处理系统产生的决策结果;
基于所述多个在线决策模型分别对应的决策结果,确定目标推荐信息;
为所述目标用户输出所述目标推荐信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个在线决策模型分别对应的决策结果,确定目标推荐信息包括:
将所述多个在线决策模型分别对应的决策结果进行结果融合处理,获得目标决策结果;
根据所述目标决策结果,确定所述目标推荐信息。
3.根据权利要求2所述的方法,其特征在于,所述将所述多个在线决策模型分别对应的决策结果进行结果融合处理,获得目标决策结果包括:
确定所述多个在线决策模型分别对应的决策权重;
根据所述多个在线决策模型分别对应的决策权重,将所述多个在线决策模型分别对应的决策结果进行加权处理,获得所述目标决策结果。
4.根据权利要求3所述的方法,其特征在于,所述为所述目标用户输出所述目标推荐信息之后,还包括:
获取所述目标用户针对所述目标推荐信息执行的反馈操作;
基于所述反馈操作对应的反馈数据,更新所述多个在线决策模型各自的模型参数,获得参数更新后的多个在线决策模型;
获取更新后的所述多个在线决策模型分别对应的决策结果,并返回至所述基于所述多个在线决策模型分别对应的决策结果,确定目标推荐信息的步骤继续执行。
5.根据权利要求4所述的方法,其特征在于,还包括:
基于所述反馈操作对应的反馈数据,更新所述多个在线决策模型分别对应的决策权重,以返回至所述根据所述多个在线决策模型分别对应的决策权重,将所述多个在线决策模型分别对应的决策结果进行加权处理,获得所述目标决策结果的步骤继续执行。
6.根据权利要求4所述的方法,其特征在于,所述基于所述反馈操作对应的反馈数据,更新所述多个在线决策模型各自的模型参数,获得参数更新后的多个在线决策模型之后,还包括:
获取更新后的所述多个在线决策模型各自的模型参数;
针对任一个在线决策模型,确定所述在线决策模型更新后的模型参数对应的模型收敛信息,以获得所述多个在线决策模型分别对应的模型收敛信息;
根据所述多个在线决策模型分别对应的模型收敛信息,生成所述目标处理系统的运行状态信息;
基于所述运行状态信息,确定所述目标处理系统的目标操作内容;
对所述目标处理系统执行与所述目标操作内容相匹配的目标操作。
7.根据权利要求6所述的方法,其特征在于,所述基于所述运行状态信息,确定所述目标处理系统的目标操作内容包括:
基于所述运行状态信息,判断所述目标处理系统是否存在运行故障;
如果是,确定所述目标操作内容为所述目标处理系统的故障处理指令;所述对所述目标处理系统执行与所述目标操作内容相匹配的目标操作包括:响应于所述故障处理指令,处理信息目标处理系统中的运行故障;
如果否,返回至所述获取更新后的所述多个在线决策模型各自的模型参数的步骤继续执行。
8.根据权利要求6所述的方法,其特征在于,所述基于所述运行状态信息,确定所述目标处理系统的目标操作内容包括:
基于所述运行状态信息,对所述多个在线决策模型分别在所述目标处理系统的贡献度进行打分,获得所述多个在线决策模型分别对应的系统贡献分数;
根据所述多个在线决策模型分别对应的系统贡献分数,生成所述多个在线决策模型的贡献提示信息;
所述对所述目标处理系统执行与所述目标操作内容相匹配的目标操作包括:
为所述目标处理系统的系统管理用户输出所述贡献提示信息。
9.根据权利要求6所述的方法,其特征在于,还包括:
为所述目标处理系统的系统管理用户输出所述更新后的所述多个在线决策模型各自的模型参数;
检测所述系统管理用户针对任一个在线决策模型触发的参数调整操作,获取所述系统管理用户针对所述在线决策模型输入的参数调整信息;
根据所述参数调整信息,调整所述在线决策模型的模型参数,返回至所述基于所述目标处理系统的处理目标,获取所述多个在线决策模型分别对应的决策结果的步骤继续执行。
10.根据权利要求1所述的方法,其特征在于,所述多个在线决策模型通过以下方式确定:
从多个在线决策算法中选择至少一个目标决策算法;
获得任一个目标决策算法对应的至少一个在线决策模型,以获取所述至少一个目标决策算法各自的至少一个在线决策模型构成的多个在线决策模型。
11.根据权利要求10所述的方法,其特征在于,所述从多个在线决策算法中选择至少一个目标决策算法包括:
确定所述目标处理系统的系统特征信息;...
【专利技术属性】
技术研发人员:张榕芝,谢淼,赵亮,印卧涛,
申请(专利权)人:阿里巴巴新加坡控股有限公司,
类型:发明
国别省市:新加坡;SG
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。