搜索安全测量来部署制造技术

技术编号：14865204 阅读：79 留言：0更新日期：2017-03-19 23:38

本发明专利技术的各实施方式总体上涉及搜索安全测量来部署。具体地，描述了风险量化、策略搜索和自动安全策略部署。在一个或多个实施方式中，技术用于确定策略的安全性，诸如表示新策略将相对于当前部署的策略显示出增加的性能测量(例如，交互或转换)的置信等级。为了进行这种确定，利用强化学习和集中不等式，其生成和约束关于策略的性能测量的置信值并由此提供该性能的统计保证。这些技术可用于量化策略部署中的风险、基于估计性能和该估计中的置信等级选择策略用于部署(例如，其可以包括使用策略空间来减少数据处理量)、用于通过交互创建新策略(其中策略的参数被迭代调整并且评估这些调整的效果)等。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术的各实施方式总体上涉及计算机领域，具体地涉及搜索安全测量来部署。
技术介绍
用户经由因特网接触越来越多的各种内容(诸如网页)。一种用于使内容提供器提供这些内容货币化的技术是通过加入广告。例如，用户可以访问包括各种广告的网页并且可以选择(例如，“点击”)感兴趣的广告来得到关于该广告中提到的商品或服务的附加信息。因此，商品或服务的提供器可以向内容提供器提供报酬用于包括广告以及用于潜在消费者选择广告。可以使用策略以选择哪些广告被呈现给特定用户或用户组。例如，可以收集描述用户、用户与内容的交互等的数据。然后，该数据可被策略用于确定哪些广告被呈献给用户，诸如增加用户将选择所包括广告中的一个或多个的可能性。然而，用于选择策略部署的传统技术不具有用于保证新选择的策略将比当前策略执行得更加好的机制。例如，存在被称为“策略脱离(off-policy)评价技术”的用于估计策略性能的传统解决方案。然而，这些传统的策略脱离评价技术不能以任何方式约束或描述这种评价的精度。例如，这些现有技术不提供新策略实际上要差于所部署策略的机会的知识。从而，这些传统技术可能潜在地损失收益以及源于较差表现策略的低效。
技术实现思路
描述了风险量化、策略搜索和自动安全策略部署技术。在一个或多个实施方式中，这些技术用于确定策略的安全性，诸如表示新策略将相对于当前部署的策略显示出增加的性能(例如，交互...

【技术保护点】
一种用于在用于识别和部署潜在的数字广告活动的数字介质环境中优化活动选择的方法，其中活动可以根据需求被改变、移除或替换，所述方法包括：控制利用多个策略中的至少一个策略替换用于选择广告的内容提供器的一个或多个部署策略，所述控制包括：搜索多个策略以定位被确认安全替换所述一个或多个部署策略的所述至少一个策略，如果所述至少一个策略的性能测量大于性能的阈值测量并且在如通过使用强化学习和集中不等式对所述一个或多个部署策略生成的部署数据计算的一个或多个统计保证所表示的置信度的限定等级内，则所述至少一个策略被确认为安全；以及响应于确认安全替换所述一个或多个其他策略的所述至少一个所述策略的所述定位，使得用至少一个所述策略替换一个或多个其他策略。

【技术特征摘要】
2014.11.24 US 14/551,9751.一种用于在用于识别和部署潜在的数字广告活动的数字介质
环境中优化活动选择的方法，其中活动可以根据需求被改变、移除
或替换，所述方法包括：
控制利用多个策略中的至少一个策略替换用于选择广告的内容
提供器的一个或多个部署策略，所述控制包括：
搜索多个策略以定位被确认安全替换所述一个或多个部署
策略的所述至少一个策略，如果所述至少一个策略的性能测量大于
性能的阈值测量并且在如通过使用强化学习和集中不等式对所述一
个或多个部署策略生成的部署数据计算的一个或多个统计保证所表
示的置信度的限定等级内，则所述至少一个策略被确认为安全；以
及
响应于确认安全替换所述一个或多个其他策略的所述至少
一个所述策略的所述定位，使得用至少一个所述策略替换一个或多
个其他策略。
2.根据权利要求1所述的方法，其中：
所述多个策略中的每个策略都使用高维矢量表示；以及
所述搜索包括计算在策略空间中被期望指向安全区域的方向。
3.根据权利要求2所述的方法，其中所述搜索被约束至对应于
所述方向的所述多个策略的所述高维矢量的线搜索。
4.根据权利要求3所述的方法，其中所述搜索还包括一个到另
一个地确定具有与所述方向对应的高维矢量的所述多个策略中的至
少一个所述策略显示出性能测量的最高等级。
5.根据权利要求2所述的方法，其中所述方向是概括化自然策
略梯度。
6.根据权利要求1所述的方法，其中所述一个或多个统计保证
被配置为由所述集中不等式对至少一个所述策略的可能性能限定的
性能边界。
7.根据权利要求1所述的方法，其中所述阈值至少部分地基于
所述一个或多个部署策略的测量的性能和设置的裕度。
8.根据权利要求7所述的方法，其中设置所述阈值，使得至少
一个所述策略的估计值显示出相对于所述一个或多个部署策略的性
能测量的改进。
9.根据权利要求1所述的方法，其中部署数据不描述对至少一
个所述策略的部署。
10.根据权利要求1所述的方法，其中接收的部署数据还描述
对至少一个所述策略的部...

【专利技术属性】
技术研发人员：P·S·托马斯，G·西奥查奥斯，M·加瓦姆扎德，
申请(专利权)人：奥多比公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人