信息推荐模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：43906101 阅读：16 留言：0更新日期：2025-01-03 13:15

本发明专利技术公开了一种信息推荐模型的训练方法、装置、电子设备及存储介质。该方法包括：获取虚拟用户特征模型与虚拟用户行为模型；获取初始信息推荐智能体，将所述初始信息推荐智能体与虚拟用户特征模型、虚拟用户行为模型进行交互，收集得到信息推荐智能体的轨迹数据；基于所述信息推荐智能体的轨迹数据对所述初始信息推荐智能体进行近端策略优化训练，得到目标信息推荐模型。上述技术方案，利用强化学习技术搭配虚拟用户特征模型和虚拟用户行为模型进行信息智能体的迭代训练，使得信息推荐模型能在真实场景中进行准确推荐，提升了信息推荐的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种信息推荐模型的训练方法、装置、电子设备及存储介质。

技术介绍

1、随着人工智能技术的发展，强化学习在购物推荐、视频推荐以及游戏策略推荐等场景中得到了广泛应用。

2、目前，通过强化学习在社交媒体(微博、微信等)的信息推荐中，存在信息推荐不准确的问题。

技术实现思路

1、本专利技术提供了一种信息推荐模型的训练方法、装置、电子设备及存储介质，以提升信息推荐模型的信息推荐准确度。

2、根据本专利技术的一方面，提供了一种信息推荐模型的训练方法，包括：

3、获取虚拟用户特征模型与虚拟用户行为模型；

4、获取初始信息推荐智能体，将所述初始信息推荐智能体与虚拟用户特征模型、虚拟用户行为模型进行交互，收集得到信息推荐智能体的轨迹数据；

5、基于所述信息推荐智能体的轨迹数据对所述初始信息推荐智能体进行近端策略优化训练，得到目标信息推荐模型。

6、根据本专利技术的另一方面，提供了一种信息推荐模型的训练装置，包括：

7、虚拟模型获取模块，用于获取虚拟用户特征模型与虚拟用户行为模型；

8、轨迹数据收集模块，用于获取初始信息推荐智能体，将所述初始信息推荐智能体与虚拟用户特征模型、虚拟用户行为模型进行交互，收集得到信息推荐智能体的轨迹数据；

9、近端策略优化训练模块，用于基于所述信息推荐智能体的轨迹数据对所述初始信息推荐智能体进行近端策略优化训练，得到目标信息推荐模型。

10、根据本专利技术的另一方面，提供了一种电子设备，所述电子设备包括：

11、至少一个处理器；

12、以及与所述至少一个处理器通信连接的存储器；

13、其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本专利技术任一实施例所述的信息推荐模型的训练方法。

14、根据本专利技术的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的信息推荐模型的训练方法。

15、本专利技术实施例的技术方案，通过获取虚拟用户特征模型与虚拟用户行为模型，进而获取初始信息推荐智能体，将初始信息推荐智能体与虚拟用户特征模型、虚拟用户行为模型进行交互，收集得到信息推荐智能体的轨迹数据，进而基于所述信息推荐智能体的轨迹数据对所述初始信息推荐智能体进行近端策略优化训练，得到目标信息推荐模型。上述技术方案，利用强化学习技术搭配虚拟用户特征模型和虚拟用户行为模型进行信息智能体的迭代训练，使得信息推荐模型能在真实场景中进行准确推荐，提升了信息推荐的准确性。

16、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种信息推荐模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取虚拟用户特征模型与虚拟用户行为模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于生成对抗网络构建虚拟用户特征模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于模仿学习构建虚拟用户行为模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述初始信息推荐智能体与虚拟用户特征模型、虚拟用户行为模型进行交互，收集得到信息推荐智能体的轨迹数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述信息推荐智能体的轨迹数据对所述初始信息推荐智能体进行近端策略优化训练，得到目标信息推荐模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述信息推荐智能体的轨迹数据生成目标回放缓存，包括：

8.一种信息推荐模型的训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，

...

【技术特征摘要】

1.一种信息推荐模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取虚拟用户特征模型与虚拟用户行为模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于生成对抗网络构建虚拟用户特征模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于模仿学习构建虚拟用户行为模型，包括：

6.根据权利要求1...

【专利技术属性】
技术研发人员：焦文明，徐亮，秦熔均，赵鉴，陈浩翔，陈健鹏，
申请(专利权)人：南栖仙策南京高新技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人