当前位置: 首页 > 专利查询>奥多比公司专利>正文

搜索安全测量来部署制造技术

技术编号:14865204 阅读:72 留言:0更新日期:2017-03-19 23:38
本发明专利技术的各实施方式总体上涉及搜索安全测量来部署。具体地,描述了风险量化、策略搜索和自动安全策略部署。在一个或多个实施方式中,技术用于确定策略的安全性,诸如表示新策略将相对于当前部署的策略显示出增加的性能测量(例如,交互或转换)的置信等级。为了进行这种确定,利用强化学习和集中不等式,其生成和约束关于策略的性能测量的置信值并由此提供该性能的统计保证。这些技术可用于量化策略部署中的风险、基于估计性能和该估计中的置信等级选择策略用于部署(例如,其可以包括使用策略空间来减少数据处理量)、用于通过交互创建新策略(其中策略的参数被迭代调整并且评估这些调整的效果)等。

【技术实现步骤摘要】

本专利技术的各实施方式总体上涉及计算机领域,具体地涉及搜索安全测量来部署
技术介绍
用户经由因特网接触越来越多的各种内容(诸如网页)。一种用于使内容提供器提供这些内容货币化的技术是通过加入广告。例如,用户可以访问包括各种广告的网页并且可以选择(例如,“点击”)感兴趣的广告来得到关于该广告中提到的商品或服务的附加信息。因此,商品或服务的提供器可以向内容提供器提供报酬用于包括广告以及用于潜在消费者选择广告。可以使用策略以选择哪些广告被呈现给特定用户或用户组。例如,可以收集描述用户、用户与内容的交互等的数据。然后,该数据可被策略用于确定哪些广告被呈献给用户,诸如增加用户将选择所包括广告中的一个或多个的可能性。然而,用于选择策略部署的传统技术不具有用于保证新选择的策略将比当前策略执行得更加好的机制。例如,存在被称为“策略脱离(off-policy)评价技术”的用于估计策略性能的传统解决方案。然而,这些传统的策略脱离评价技术不能以任何方式约束或描述这种评价的精度。例如,这些现有技术不提供新策略实际上要差于所部署策略的机会的知识。从而,这些传统技术可能潜在地损失收益以及源于较差表现策略的低效。
技术实现思路
描述了风险量化、策略搜索和自动安全策略部署技术。在一个或多个实施方式中,这些技术用于确定策略的安全性,诸如表示新策略将相对于当前部署的策略显示出增加的性能(例如,交互或转换)测量的置信等级。为了进行这种确定,使用强化学习和集中不等式,其生成和约束关于策略的性能测量的置信值,因此提供该性能的统计保证。这些技术可用于量化策略部署中的风险,基于估计的性能和这种估计中的置信等级(例如,可以包括使用策略空间来减少被处理数据的量)选择用于部署的策略,用于通过交互(其中,策略的参数被迭代调整,并且这些调整的效果被评估等等)创建新策略。该
技术实现思路
部分以简化形式介绍了概念的选择,在以下具体实施方式部分进行进一步的描述。如此,该
技术实现思路
部分不用于表示所要求主题的主要特征,也不用于帮助确定所要求主题的范围。附图说明参照附图描述具体实施方式。在附图中,参考标号最左边的数字表示参考标号首先出现的附图。说明书和附图中的不同实例中使用相同的参考标号可以表示类似或相同的项目。附图中表示的实体可以表示一个或多个实体,由此可以在讨论中以单个或多个实体形式来互换地进行参考。图1是可用于使用本文描述的技术的示例性实施方式的环境的示图。图2示出了详细示出强化学习模块的示例性实施方式的系统。图3A示出了策略的性能和置信的示图。图3B包括提供概率密度函数的经验估计的曲线。图4示出了不同的集中不等式函数的结果的图表。图5示出了确定策略参数的安全性的实例。图6示出了以下算法1的伪码的实例。图7示出了以下算法2的伪码的实例。图8示出了以下算法3的伪码的实例。图9是示出描述用于策略改进的风险量化的技术的示例性实施方式中的程序的流程图。图10是示出描述包括策略搜索的一个或多个部署策略的替换控制的示例性实施方式中的程序的流程图。图11是示出通过利用策略空间执行选择策略以替换部署策略来提高效率的示例性实施方式中的程序的流程图。图12是示出迭代生成新策略并用于替换部署策略的示例性实施方式中的程序的流程图。图13示出了执行策略改进技术和算法3的结果。图14表示NAC的性能与手动优化超参数进行比较的示例性结果。图15示出了算法3的应用的结果。图16示出了包括可以如所描述的和/或参照图1至图15使用的实施为任何类型的计算设备的示例性设备的各个部件以实施本文所描述技术的实施例的示例性系统。具体实施方式概述策略被用于确定哪些广告被选择用于包括将被发送给特定用户的内容。例如,用户可以经由网络访问内容提供器以获取内容,诸如通过使用浏览器来获取特定网页。这种访问被内容提供器用于识别与这种访问相关的特性,诸如用户的特性(例如,人口统计资料)以及访问本身的特性(例如,日期、地理位置等)。这些特性被内容提供器使用策略进行处理以确定哪些广告将被选择用于包括在传输回用户的网页中。因此,策略可用于基于访问的不同特性选择不同的广告用于包括在内容中。然而,用户部署策略的传统技术不具有约束或量化新策略是否比当前部署的策略执行得更好的精度的机制。为此,这些传统技术通常迫使用户进行关于新策略是否具有更好性能的最佳猜测,例如使得增加广告的选择数量,使得增加用户购买商品或服务的转换的数量等等。因此,描述用于部署策略的风险可被量化的技术,其用于支持各种功能。例如,描述现有策略的部署的数据被访问和处理以确定新策略是否将相对于现有策略显示出提高的性能。这通过计算表示新策略的性能将至少满足限定值(例如,其可以基于部署策略的性能)的置信度的置信值来进行,因此用作该性能的统计保证。为了计算统计保证,集中不等式被用作以下强化学习的一部分。强化学习是机器学习的一种类型,其中软件代理被执行以在使累积奖的一些概念最大化的环境中采取动作。在该实例中,奖励是使测量的性能最大化以选择广告,诸如增加广告的选择数量(例如,“点击”)、广告的转换(例如,导致“购买”)等。集中不等式被用作强度学习的一部分以确保安全性,新策略显示出至少为部署策略的量的性能。例如,集中不等式被用于解决独立随机变量的函数与它们的期望值的偏离。因此,集中不等式提供了对这些分配的约束并且确保结果的精度。例如,如下面进一步描述的集中不等式可约束值使得阈值以上存在的值被移动到阈值处,可用于塌陷分布的尾部等等。以下,首先在算法1中表示集中不等式,其允许关于策略是否安全用于部署并由此选择广告而不降低性能的有效确定。第二,在算法2中表示安全批量强化学习算法,其被配置为利用强化学习和集中不等式来选择用于部署的策略。第三,在算法3中表示安全迭代算法,其被配置为使用强化学习和集中不等式通过参数和分析的迭代调整生成新策略以确定何时这些调整可能增加性能。即使算法3确保安全性,但其与通过使用策略空间如以下进一步描述的最先进的重度调整的非安全算法相比具有合理的采样效率。首先描述可采用本文描述的技术的示例性环境。然后,描述可以在示例性环境以及其他环境中执行的示例性程序和实施实例。从而,示例性程序的执行不限于示例性环境和实施实例,并且示例本文档来自技高网
...

【技术保护点】
一种用于在用于识别和部署潜在的数字广告活动的数字介质环境中优化活动选择的方法,其中活动可以根据需求被改变、移除或替换,所述方法包括:控制利用多个策略中的至少一个策略替换用于选择广告的内容提供器的一个或多个部署策略,所述控制包括:搜索多个策略以定位被确认安全替换所述一个或多个部署策略的所述至少一个策略,如果所述至少一个策略的性能测量大于性能的阈值测量并且在如通过使用强化学习和集中不等式对所述一个或多个部署策略生成的部署数据计算的一个或多个统计保证所表示的置信度的限定等级内,则所述至少一个策略被确认为安全;以及响应于确认安全替换所述一个或多个其他策略的所述至少一个所述策略的所述定位,使得用至少一个所述策略替换一个或多个其他策略。

【技术特征摘要】
2014.11.24 US 14/551,9751.一种用于在用于识别和部署潜在的数字广告活动的数字介质
环境中优化活动选择的方法,其中活动可以根据需求被改变、移除
或替换,所述方法包括:
控制利用多个策略中的至少一个策略替换用于选择广告的内容
提供器的一个或多个部署策略,所述控制包括:
搜索多个策略以定位被确认安全替换所述一个或多个部署
策略的所述至少一个策略,如果所述至少一个策略的性能测量大于
性能的阈值测量并且在如通过使用强化学习和集中不等式对所述一
个或多个部署策略生成的部署数据计算的一个或多个统计保证所表
示的置信度的限定等级内,则所述至少一个策略被确认为安全;以

响应于确认安全替换所述一个或多个其他策略的所述至少
一个所述策略的所述定位,使得用至少一个所述策略替换一个或多
个其他策略。
2.根据权利要求1所述的方法,其中:
所述多个策略中的每个策略都使用高维矢量表示;以及
所述搜索包括计算在策略空间中被期望指向安全区域的方向。
3.根据权利要求2所述的方法,其中所述搜索被约束至对应于
所述方向的所述多个策略的所述高维矢量的线搜索。
4.根据权利要求3所述的方法,其中所述搜索还包括一个到另
一个地确定具有与所述方向对应的高维矢量的所述多个策略中的至
少一个所述策略显示出性能测量的最高等级。
5.根据权利要求2所述的方法,其中所述方向是概括化自然策
略梯度。
6.根据权利要求1所述的方法,其中所述一个或多个统计保证
被配置为由所述集中不等式对至少一个所述策略的可能性能限定的
性能边界。
7.根据权利要求1所述的方法,其中所述阈值至少部分地基于
所述一个或多个部署策略的测量的性能和设置的裕度。
8.根据权利要求7所述的方法,其中设置所述阈值,使得至少
一个所述策略的估计值显示出相对于所述一个或多个部署策略的性
能测量的改进。
9.根据权利要求1所述的方法,其中部署数据不描述对至少一
个所述策略的部署。
10.根据权利要求1所述的方法,其中接收的部署数据还描述
对至少一个所述策略的部...

【专利技术属性】
技术研发人员:P·S·托马斯G·西奥查奥斯M·加瓦姆扎德
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1