一种基于强化学习的金融服务产品推荐方法、设备及介质技术

技术编号：43169246 阅读：27 留言：0更新日期：2024-11-01 19:59

本发明专利技术公开了一种基于强化学习的金融服务产品推荐方法、设备及介质，属于计算机软件开发技术领域，用于解决现有的金融服务产品的推荐过程中，推荐准确率较低，降低了用户体验，难以推荐出最受用户青睐的金融产品的技术问题。方法包括：将用户以及对应的金融产品进行张量状态拼接，得到用户状态张量；基于用户状态张量，对金融产品进行偏好向量计算，确定出推荐金融产品；对推荐金融产品进行区间化评分处理，得到环境奖励张量；基于用户状态张量以及环境奖励张量，对推荐智能体网络进行参数的协同训练处理，确定出金融产品推荐模型；通过金融产品推荐模型，对当前用户状态张量进行推荐预测，得到基于金融产品的推荐列表。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机软件开发领域，尤其涉及一种基于强化学习的金融服务产品推荐方法、设备及介质。

技术介绍

1、深度学习在图像处理和自然语言处理等领域不断取得优秀的结果。比如说当前炙手可热的ai修图，利用对抗生成网络实现实时的照片美化；由于bert的出现，在机器翻译领域不断涌现好的实验结果。深度学习在众多领域取得成功的关键因素是它几乎可以通过神经网络来拟合几乎所有的函数，因此深度学习给人们提供了一种全新的解决问题的思路。

2、在推荐系统领域，协同过滤算法是应用最广泛的模型之一。如果比较注重系统的冷启动性能，那么基于内容的推荐算法要更适合；协同过滤算法的优势是性能要更加优秀。因此当前很多推荐系统都会采用将两者融合的方法，也就是混合推荐系统。混合推荐系统在冷启动时会采用基于内容的推荐，而在收集到足够用户数据之后就可以使用协同过滤的方法进行推荐。

3、解决控制的最优化问题是强化学习擅长的，强化学习可以分为演员评论家方法(actor-critic)、基于值的方法(valuebased)、基于策略的方法(policybased)。随着近年来神的学习的发展，越来越多的人致力于强化学习和深度学习的融合，也就是深度强化学习。而现有的金融服务产品的推荐过程中，推荐准确率较低，对于使用用户而言，现有金融产品的推荐评分，难以受到用户青睐，不利于针对用户喜好确定出最适合用户的金融产品。

技术实现思路

1、本申请实施例提供了一种基于强化学习的金融服务产品推荐方法、设备及介质，用于解决如下技

2、本申请实施例采用下述技术方案：

3、一方面，本申请实施例提供了一种基于强化学习的金融服务产品推荐方法，包括：将用户以及对应的金融产品进行张量状态拼接，得到用户状态张量；基于所述用户状态张量，对所述金融产品进行偏好向量计算，确定出推荐金融产品；对所述推荐金融产品进行区间化评分处理，得到环境奖励张量；基于所述用户状态张量以及所述环境奖励张量，对推荐智能体网络进行参数的协同训练处理，确定出金融产品推荐模型；通过所述金融产品推荐模型，对当前用户状态张量进行推荐预测，得到基于所述金融产品的推荐列表。

4、本申请实施例通过对用户和金融产品进行张量状态拼接，能够更好地捕捉用户的特征和偏好，从而实现个性化的金融产品推荐。可以更准确地确定用户对不同金融产品的兴趣和需求，提高推荐的针对性。还能够更细致地评估推荐效果，为强化学习提供更明确的奖励信号。利用模型，能够学习到用户行为和推荐结果之间的关系，从而不断优化推荐策略。提高用户体验，且能不断调整和优化推荐策略，具有较强的适应性和灵活性。提高了金融服务产品推荐的准确性和效果，帮助用户更好地选择适合自己的金融产品。

5、在一种可行的实施方式中，将用户以及对应的金融产品进行张量状态拼接，得到用户状态张量，具体包括：通过预设的智能体，采集所述用户的用户id信息；其中，所述智能体为推荐算法系统；将所述用户id信息进行数值化的张量转换，得到用户张量；基于所述用户id信息，提取与所述用户相关联的所述金融产品；并获取所述金融产品的金融产品id信息；将所述金融产品id信息进行数值化的张量转换，得到每个所述金融产品的金融产品张量；将所述用户张量与所述金融产品张量进行有关张量的状态拼接处理，得到所述用户状态张量。

6、在一种可行的实施方式中，基于所述用户状态张量，对所述金融产品进行偏好向量计算，确定出推荐金融产品，具体包括：采集历史用户状态张量，并将所述历史用户状态张量进行有关训练集合与测试集合的集合划分；对历史用户状态张量集合进行迭代对象集合的转换；将所述历史用户状态张量集合中的所述金融产品进行同一用户id信息下的偏好归类，确定出处于所述同一用户id信息下的所述偏好向量；根据所述偏好向量，识别出智能体中所述用户的偏好执行动作；并基于所述偏好执行动作，确定出所述推荐金融产品；其中，所述偏好执行动作为所述用户的金融产品选择动作。

7、在一种可行的实施方式中，在将所述历史用户状态张量进行有关训练集合与测试集合的集合划分之前，所述方法还包括：对所述历史用户状态张量中对应的金融产品id信息进行信息数量判断；将金融产品id信息数量小于第一预设阈值的用户id信息进行剔除处理，得到预处理后的历史用户状态张量。

8、在一种可行的实施方式中，对所述推荐金融产品进行区间化评分处理，得到环境奖励张量，具体包括：提取所述推荐金融产品的推荐金融产品id信息；通过预设的评分机制，对所述推荐金融产品id信息进行打分处理，得到每个所述推荐金融产品id信息的评分信息；对所述评分信息进行区间化处理，得到处于每个评分区间中的评分信息；将每个评分区间的评分信息进行数值化的张量转换，得到所述环境奖励张量。

9、在一种可行的实施方式中，基于所述用户状态张量以及所述环境奖励张量，对推荐智能体网络进行参数的协同训练处理，确定出金融产品推荐模型，具体包括：通过预设的协同过滤推荐模型，将所述用户状态张量对应的第一数据集以及所述环境奖励张量对应的第二数据集进行有关参数的协同训练处理，并根据协同处理之后的集合数据参数，将所述推荐智能体网络进行网络参数的更新训练，得到新推荐智能体网络；其中，所述推荐智能体网络为推荐算法系统所对应的神经学习网络；将所述新推荐智能体网络部署到预设的强化学习推荐模型中，并基于所述第一数据集以及所述第二数据集，将所述强化学习推荐模型进行迭代训练，得到所述金融产品推荐模型；其中，所述第一数据集为所述强化学习推荐模型的输入数据；所述第二数据集为所述强化学习推荐模型的输出数据。

10、在一种可行的实施方式中，通过所述金融产品推荐模型，对当前用户状态张量进行推荐预测，得到基于所述金融产品的推荐列表，具体包括：采集若干所述当前用户状态张量；将若干所述当前用户状态张量输入到所述金融产品推荐模型中；通过所述金融产品推荐模型，对所述当前用户状态张量进行相似度判断，并将处于同一相似度下的若干当前用户状态张量进行归类划分，得到用户状态张量相似集合；基于所述用户状态张量相似集合所对应的当前环境奖励张量集合，对所述当前用户状态张量进行相似金融产品的关联预测，得到关联金融产品；将所述关联金融产品与所述当前用户状态张量中的金融产品进行表格数据存储，并确定出所述推荐列表。

11、在一种可行的实施方式中，在通过所述金融产品推荐模型，对当前用户状态张量进行推荐预测，得到基于所述金融产品的推荐列表之后，所述方法还包括：通过智能体，将所述推荐列表与所述用户的移动客户端进行数据互通处理；基于互通后的移动客户端，将所述推荐列表进行可视化展示，以完成对所述用户的金融产品推荐。

12、第二方面，本申请实施例还提供了一种基于强化学习的金融服务产品推荐设备，所述设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有能够被所述至少本文档来自技高网...

【技术保护点】

1.一种基于强化学习的金融服务产品推荐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于强化学习的金融服务产品推荐方法，其特征在于，将用户以及对应的金融产品进行张量状态拼接，得到用户状态张量，具体包括：

3.根据权利要求1所述的一种基于强化学习的金融服务产品推荐方法，其特征在于，基于所述用户状态张量，对所述金融产品进行偏好向量计算，确定出推荐金融产品，具体包括：

4.根据权利要求3所述的一种基于强化学习的金融服务产品推荐方法，其特征在于，在将所述历史用户状态张量进行有关训练集合与测试集合的集合划分之前，所述方法还包括：

5.根据权利要求1所述的一种基于强化学习的金融服务产品推荐方法，其特征在于，对所述推荐金融产品进行区间化评分处理，得到环境奖励张量，具体包括：

6.根据权利要求1所述的一种基于强化学习的金融服务产品推荐方法，其特征在于，基于所述用户状态张量以及所述环境奖励张量，对推荐智能体网络进行参数的协同训练处理，确定出金融产品推荐模型，具体包括：

7.根据权利要求1所述的一种基于强化学习的

8.根据权利要求1所述的一种基于强化学习的金融服务产品推荐方法，其特征在于，在通过所述金融产品推荐模型，对当前用户状态张量进行推荐预测，得到基于所述金融产品的推荐列表之后，所述方法还包括：

9.一种基于强化学习的金融服务产品推荐设备，其特征在于，所述设备包括：

10.一种非易失性计算机存储介质，其特征在于，所述存储介质为非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有至少一个程序，每个所述程序包括指令，所述指令当被终端执行时，使所述终端执行根据权利要求1-8任一项所述的一种基于强化学习的金融服务产品推荐方法。

...

【技术特征摘要】

1.一种基于强化学习的金融服务产品推荐方法，其特征在于，所述方法包括：

6.根据权利要求1所述的一种基于强化学习的金融服务产品推荐方法，其特征在于，基于所述用户状态张量以及所...

【专利技术属性】
技术研发人员：刘凯旋，张帆，崔乐乐，李仰允，
申请(专利权)人：天元大数据信用管理有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人