数据驱动的组合决策模型参数更新方法和系统技术方案

技术编号：41802828 阅读：1 留言：0更新日期：2024-06-24 20:24

本公开提供一种数据驱动的组合决策模型参数更新方法和系统，包括：获得离线数据集，根据离线数据集对初始组合决策模型的当前模型参数进行迭代优化，得到满足预设结束迭代优化条件的目标模型参数，在第i次迭代优化中包括：根据离线数据集和第i次模型参数确定约束违反程度，并根据约束违反程度和离线数据集确定第i+1次模型参数，即提供了一种非梯度法对初始组合决策模型的模型参数进行更新的方法和系统，避免了相关技术中基于梯度法更新造成的收敛效率低的弊端，提高了模型参数更新的效率，且通过结合离线数据集中的历史组合决策相关信息确定约束违反程度，以使得目标组合决策模型的约束违反程度满足全局约束需求，从而提高组合决策的有效性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及人工智能，尤其涉及一种数据驱动的组合决策模型参数更新方法和系统。

技术介绍

1、primal-dual框架主要包括两部分内容：1)离线更新模型参数、2)固定模型参数进行在线决策。

2、其中，在部分1)中，标准框架通常采用梯度法(梯度下降或梯度上升法)更新对偶变量。

3、然而，在带有子模性质的在线组合决策场景中，次模组合优化存在梯度信息稀疏现象，导致梯度法收敛缓慢，在大规模数据或对模型参数迭代速度要求高的场景效率较低。

4、值得说明的是，上述相关技术的内容仅仅是专利技术人个人所知晓的信息，并不代表上述信息在本公开申请日之前已经进入公共领域，也不代表其可以成为本公开的现有技术。

技术实现思路

1、本公开提供一种数据驱动的组合决策模型参数更新方法和系统，用以避免上述技术问题。

2、第一方面，本公开提供一种数据驱动的组合决策模型参数更新方法，所述方法应用于具有子模性质和全局约束的组合决策场景，所述方法包括：

3、获得离线数据集，所述离线数据集用于表征历史组合决策的相关信息；

4、根据所述离线数据集对所述初始组合决策模型的当前模型参数进行迭代优化，得到满足预设结束迭代优化条件的目标模型参数；其中，在第i次迭代优化中，包括：

5、根据所述离线数据集和第i次模型参数确定约束违反程度，并根据所述约束违反程度和所述离线数据集确定第i+1次模型参数；

6、其中，目标组合决策模型用于为所述组合决策

7、在一些实施例中，所述根据所述约束违反程度和所述离线数据集确定第i+1次模型参数，包括：

8、基于闭式解对所述离线数据集进行计算，得到阈值边界点集，其中，所述阈值边界点集包括与所述离线数据集对应的最优组合决策信息发生变化的临界参数值；

9、根据所述约束违反程度和所述阈值边界点集确定所述第i+1次模型参数。

10、在一些实施例中，所述第i次模型参数包括待更新分量和非更新分量；所述基于闭式解对所述离线数据集进行计算，得到阈值边界点集，包括：

11、确定在所述非更新分量固定的情况下，与所述待更新分量对应的所述阈值边界点集；

12、以及，根据所述约束违反程度和所述阈值边界点集确定所述第i+1次模型参数，包括：

13、根据所述约束违反程度和所述阈值边界点集，确定与所述待更新分量对应的更新信息。

14、在一些实施例中，所述离线数据集中包括多个历史决策请求、以及与各历史决策请求各自对应的历史候选元素；所述确定在所述非更新分量固定的情况下，与所述待更新分量对应的阈值边界点集，包括：

15、针对所述历史决策请求中的当前决策请求，根据所述非更新分量、以及与所述当前决策请求对应的当前候选元素，确定与所述当前决策请求对应的预设数量条收益线，其中，所述预设数量与所述当前候选元素的组合决策的数量相同；

16、根据所述待更新分量和所述预设数量条收益线确定与所述当前决策请求对应的阈值边界点，其中，所述阈值边界点集中包括与各历史决策请求各自对应的阈值边界点。

17、在一些实施例中，所述根据所述待更新分量和所述预设数量条收益线确定与所述当前决策请求对应的阈值边界点，包括：

18、确定各收益线在所述待更新分量对应的当前取值处的各自对应的收益值；

19、根据所述各收益线和各收益值确定与所述当前决策请求对应的阈值边界点。

20、在一些实施例中，所述根据所述各收益线和各收益值确定与所述当前决策请求对应的阈值边界点，包括：

21、确定最高收益值对应的第一收益线；

22、确定所述第一收益线与其他收益线中每一收益线对应的交点，其中，所述其他收益线为所述各收益线中除所述第一收益线之外的收益线；

23、将各交点各自对应的参数值确定为与所述当前决策请求对应的阈值边界点。

24、在一些实施例中，在所述最高收益值对应的收益线为多条的情况下，将所述最高收益值对应的多条收益线中斜率最大的收益线确定为所述第一收益线。

25、在一些实施例中，所述根据所述约束违反程度和所述阈值边界点集，确定与所述待更新分量对应的更新信息，包括：

26、根据所述约束违反程度确定优化方向；

27、根据所述优化方向和所述待更新分量，从所述阈值边界点集中确定所述更新信息。

28、在一些实施例中，所述根据所述约束违反程度确定优化方向，包括：

29、在所述约束违反程度小于0的情况下，所述优化方向为小于所述待更新分量的优化方向；

30、在所述约束违反程度大于0的情况下，所述优化方向为大于所述待更新分量的优化方向。

31、在一些实施例中，所述根据所述优化方向和所述待更新分量，从所述阈值边界点集中确定所述更新信息，包括：

32、在所述优化方向为小于所述待更新分量的优化方向的情况下，将所述阈值边界点集中小于所述待更新分量的最大阈值边界点确定为所述更新信息；

33、在所述优化方向为大于所述待更新分量的优化方向的情况下，将所述阈值边界点集中大于所述待更新分量的最小阈值边界点确定为所述更新信息。

34、在一些实施例中，所述离线数据集中包括多个历史决策请求、以及与各历史决策请求各自对应的历史候选元素；所述根据所述离线数据集和第i次模型参数确定约束违反程度，包括：

35、针对所述多个历史决策请求中的当前决策请求，根据所述当前决策请求对应的当前候选元素，确定与所述当前决策请求对应的综合最高收益；

36、根据各历史决策请求各自对应的综合最高收益确定所述约束违反程度。

37、在一些实施例中，所述根据各历史决策请求各自对应的综合最高收益确定所述约束违反程度，包括：

38、根据各历史决策请求各自对应的综合最高收益，确定各综合最高收益对应的最优组合决策信息，并根据各最优组合决策信息计算得到各历史决策请求各自对应的全局约束信息；

39、根据各全局约束信息的和值确定所述约束违反程度。

40、第二方面，本公开提供一种数据驱动的组合决策模型参数更新系统，包括：

41、至少一个存储器，所述存储器包括至少一组指令来更新模型参数；

42、至少一个处理器，同所述至少一个存储器进行通讯；

43、其中，当所述至少一个处理器执行所述至少一组指令时，实施如第一方面任一项所述的方法。

44、第三方面，本公开提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行第一方面任一项所述的方法。

45、第四方面，本公开提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

本文档来自技高网...

【技术保护点】

1.一种数据驱动的组合决策模型参数更新方法，其特征在于，所述方法应用于具有子模性质和全局约束的组合决策场景，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述约束违反程度和所述离线数据集确定第i+1次模型参数，包括：

3.根据权利要求2所述的方法，其特征在于，所述第i次模型参数包括待更新分量和非更新分量；所述基于闭式解对所述离线数据集进行计算，得到阈值边界点集，包括：

4.根据权利要求3所述的方法，其特征在于，所述离线数据集中包括多个历史决策请求、以及与各历史决策请求各自对应的历史候选元素；所述确定在所述非更新分量固定的情况下，与所述待更新分量对应的阈值边界点集，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述待更新分量和所述预设数量条收益线确定与所述当前决策请求对应的阈值边界点，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述各收益线和各收益值确定与所述当前决策请求对应的阈值边界点，包括：

7.根据权利要求6所述的方法，其特征在于，在所述最高收益值对应的收益线

8.根据权利要求3所述的方法，其特征在于，所述根据所述约束违反程度和所述阈值边界点集，确定与所述待更新分量对应的更新信息，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述约束违反程度确定优化方向，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述优化方向和所述待更新分量，从所述阈值边界点集中确定所述更新信息，包括：

11.根据权利要求1所述的方法，其特征在于，所述离线数据集中包括多个历史决策请求、以及与各历史决策请求各自对应的历史候选元素；所述根据所述离线数据集和第i次模型参数确定约束违反程度，包括：

12.根据权利要求11所述的方法，其特征在于，所述根据各历史决策请求各自对应的综合最高收益确定所述约束违反程度，包括：

13.一种数据驱动的组合决策模型参数更新系统，其特征在于，包括：

...

【技术特征摘要】

1.一种数据驱动的组合决策模型参数更新方法，其特征在于，所述方法应用于具有子模性质和全局约束的组合决策场景，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述约束违反程度和所述离线数据集确定第i+1次模型参数，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述待更新分量和所述预设数量条收益线确定与所述当前决策请求对应的阈值边界点，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述各收益线和各收益值确定与所述当前决策请求对应的阈值边界点，包括：

7.根据权利要...

【专利技术属性】
技术研发人员：钱鸿，卢星宇，吴宇鹏，朱志博，周爱民，周俊，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人