本发明专利技术公开了一种信息处理设备、信息处理方法和程序。所述信息处理设备包括学习部分,被配置为使用由能够执行行为的代理执行的行为和当代理已经执行了行为时在代理中观察到的观察值来学习由以下定义的状态转移概率模型:状态由于代理执行的行为而进行状态转移的每个行为的状态转移概率;以及从所述状态观察到预定观察值的观察概率。
【技术实现步骤摘要】
本专利技术涉及一种信息处理设备、信息处理方法和程序,具体地涉及一种使得例如 可以确定能够自主执行各种行为的代理(自主代理)的适当行为的信息处理设备、信息处 理方法和程序。
技术介绍
作为状态预测和行为确定方法,例如存在一种方法,用于应用部分观察的马尔可 夫决策过程并且根据学习数据自动地构造静态的部分观察的马尔可夫决策过程(参见例 如日本待审专利公布第2008-186326号,以下称为专利文献1)。另外,作为用于自主移动机器人或者钟摆(pendulum)的操作计划方法,存在一种 方法,用于建立在马尔可夫状态模型中离散化的行为计划,并且进一步向控制器输入计划 的目标以及得出要提供给控制对象的输出从而执行期望的控制(参见例如日本待审专利 公布第2007-317165和2006-268812号,分别被称为专利文献2和3)。
技术实现思路
虽然已经提出了各种方法作为用于确定能够自主执行各种行为的代理的适当行 为的方法,但是存在提出另外的新方法的要求。考虑到这种情况提出了本专利技术。期望能够确定代理的适当行为,即确定适当行为 作为要由代理执行的行为。根据本专利技术的第一实施例的信息处理设备和程序是一种信息处理设备和用于使 计算机用作信息处理设备的程序,所述信息处理设备包括学习部分,被配置为使用由代理 执行的行为和当代理已经执行了该行为时代理中观察到的观察值来学习由每个行为的状 态转移概率和观察概率定义的状态转移概率模型,所述每个行为是状态由于能够执行行为 的代理执行的行为而进行状态转移的行为,所述观察概率是从所述状态观察到预定观察值 的观察概率。根据本专利技术的第一实施例的信息处理方法是一种信息处理设备的信息处理方法, 所述方法包括步骤使用由代理执行的行为和当代理已经执行了行为时代理中观察到的观 察值来学习由每个行为的状态转移概率和观察概率定义的状态转移概率模型,所述每个行 为是状态由于能够执行行为的代理执行的行为而进行状态转移的行为,所述观察概率是从 所述状态观察到预定观察值的观察概率。在如上所述的第一实施例中,使用由代理执行的行为和当代理已经执行了行为 时代理中观察到的观察值来学习由每个行为的状态转移概率和观察概率定义的状态转移 概率模型,所述每个行为是状态由于能够执行行为的代理执行的行为而进行状态转移的行 为,所述观察概率是从所述状态观察到预定观察值的观察概率。根据本专利技术的第二实施例的信息处理设备或程序是一种信息处理设备或用于使 计算机用作信息处理设备的程序。所述信息处理设备包括状态识别部分,被配置为根据状态转移概率模型,使用由能够执行行为的代理执行的行为和当代理已经执行了行为时代理 中观察到的观察值来识别代理的当前状况,并且获得作为状态转移概率模型的状态的当前 状态,所述状态转移概率模型的状态对应于当前状况,所述状态转移概率模型是通过使用 由代理执行的行为和当代理已经执行了行为时代理中观察到的观察值来学习由每个行为 的状态转移概率和观察概率定义的状态转移概率模型而获得的,所述每个行为是状态由于 能够执行行为的代理执行的行为而进行状态转移的行为,所述观察概率是从所述状态观察 到预定观察值的观察概率;目标确定部分,被配置为将所述状态转移概率模型的状态之一 确定为被设置为目标的目标状态;以及行为确定部分,被配置为根据所述状态转移概率模 型计算行为计划为最大化从所述当前状态向所述目标状态的状态转移的可能性的行为系 列,并且所述行为确定部分被配置为根据所述行为计划确定接下来要由代理执行的行为。根据本专利技术的第二实施例的信息处理方法是一种信息处理设备的信息处理方法。 所述信息处理方法包括步骤根据状态转移概率模型,使用由能够执行行为的代理执行的 行为和当代理已经执行了行为时代理中观察到的观察值来识别代理的当前状况,并且获得 作为状态转移概率模型的状态的当前状态,所述状态转移概率模型的状态对应于当前状 况,所述状态转移概率模型是通过使用由代理执行的行为和当代理已经执行了行为时代理 中观察的观察值来学习由每个行为的状态转移概率和观察概率定义的状态转移概率模型 而获得的,所述每个行为是状态由于能够执行行为的代理执行的行为而进行状态转移的行 为,所述观察概率是从所述状态观察预定观察值的观察概率;将状态转移概率模型的状态 之一确定为被设置为目标的目标状态;并且根据状态转移概率模型计算行为计划为最大化 从所述当前状态向所述目标状态的状态转移的可能性的行为系列,并且根据所述行为计划 确定接下来要由代理执行的行为。在如上所述的第二实施例中,根据状态转移概率模型,使用由能够执行行为的代 理执行的行为和当代理已经执行了行为时代理中观察到的观察值识别了所述代理的当前 状况,并且获得作为状态转移概率模型的状态的当前状态,所述状态转移概率模型的状态 对应于当前状况,所述状态转移概率模型是通过使用由代理执行的行为和当所述代理已经 执行了行为时代理中观察到的观察值来学习由每个行为的状态转移概率和观察概率定义 的状态转移概率模型而获得的,所述每个行为是状态由于能够执行行为的代理执行的行为 而进行状态转移的行为,所述观察概率是从所述状态观察预定观察值的观察概率。此外,状 态转移概率模型的状态之一被确定为被设置为目标的目标状态。然后,基于状态转移概率 模型计算行为计划为最大化从所述当前状态向所述目标状态的状态转移的可能性的行为 系列,并且接下来要由代理执行的行为根据行为计划确定。 0012]顺便提及,所述信息处理设备可以是独立的设备,或者可以是构成一个设备的内 部模块。程序可以通过经由传输介质发送或者处于被记录在记录介质中的状态被提供。根据本专利技术的第一和第二实施例,可以将适当的行为确定为要由代理执行的行 为。附图说明图1是示出了行为环境的图2是示出了其中行为环境的结构改变的状态的图;图3A和3B是示出了代理执行的行为和代理观察到的观察值的图;图4是示出了应用根据本专利技术的信息处理设备的代理的一个实施例的配置的示 例的框图;图5是帮助说明反射行为模式中的处理的流程图;图6A和6B是帮助说明扩展HMM的状态转移概率的图;图7是帮助说明学习扩展HMM的处理的流程图;图8是帮助说明识别行为模式中的处理的流程图;图9是帮助说明确定目标状态的处理的流程图,该处理由目标确定部分执行;图10AU0B和IOC是帮助说明行为确定部分24计算行为计划的图;图11是帮助说明使用抑制因子来修正扩展HMM的状态转移概率的图,该修正由行 为确定部分进行;图12是帮助说明更新抑制因子的处理的流程图,该处理由状态识别部分执行;图13是帮助说明由开放端检测部分检测为开放端的扩展HMM的状态的图;图14A和14B是帮助说明开放端检测部分列出状态Si的处理的图,其中以等于或 者高于阈值的概率观察到观察值Ok ;图15是帮助说明使用针对观察值Ok列出的状态Si来生成行为模板的方法的图;图16是帮助说明计算基于观察概率的行为概率的方法的图;图17是帮助说明计算基于状态转移概率的行为概率的方法的图;图18是示意性地示出了差分行为概率的图;图19是帮助说明检测开放端的处理的流程图;图20是帮助说明一种用于由分支结构检测部分检测分支结构的状态的方法的 图;图21A和21B是示出了模拟中使用的行为环境的图;图22本文档来自技高网...
【技术保护点】
一种信息处理设备,包括:学习装置,用于使用由能够执行行为的代理执行的行为和当所述代理已经执行了行为时在所述代理中观察到的观察值学习由以下定义的状态转移概率模型:状态由于由所述代理执行的行为而进行状态转移的每个所述行为的状态转移概率;以及从所述状态观察到预定观察值的观察概率。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:野田邦昭,佐部浩太郎,吉池由纪子,河本献太,日台健一,
申请(专利权)人:索尼公司,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。