信息处理设备、信息处理方法和程序技术

技术编号：4019932 阅读：158 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种信息处理设备、信息处理方法和程序。所述信息处理设备包括学习部分，被配置为使用由能够执行行为的代理执行的行为和当代理已经执行了行为时在代理中观察到的观察值来学习由以下定义的状态转移概率模型：状态由于代理执行的行为而进行状态转移的每个行为的状态转移概率；以及从所述状态观察到预定观察值的观察概率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种信息处理设备、信息处理方法和程序，具体地涉及一种使得例如可以确定能够自主执行各种行为的代理(自主代理)的适当行为的信息处理设备、信息处理方法和程序。
技术介绍
作为状态预测和行为确定方法，例如存在一种方法，用于应用部分观察的马尔可夫决策过程并且根据学习数据自动地构造静态的部分观察的马尔可夫决策过程(参见例如日本待审专利公布第2008-186326号，以下称为专利文献1)。另外，作为用于自主移动机器人或者钟摆(pendulum)的操作计划方法，存在一种方法，用于建立在马尔可夫状态模型中离散化的行为计划，并且进一步向控制器输入计划的目标以及得出要提供给控制对象的输出从而执行期望的控制(参见例如日本待审专利公布第2007-317165和2006-268812号，分别被称为专利文献2和3)。
技术实现思路
虽然已经提出了各种方法作为用于确定能够自主执行各种行为的代理的适当行为的方法，但是存在提出另外的新方法的要求。考虑到这种情况提出了本专利技术。期望能够确定代理的适当行为，即确定适当行为作为要由代理执行的行为。根据本专利技术的第一实施例的信息处理设备和程序是一种信息处理设备和用于使计算机用作信息处理设备的程序，所述信息处理设备包括学习部分，被配置为使用由代理执行的行为和当代理已经执行了该行为时代理中观察到的观察值来学习由每个行为的状态转移概率和观察概率定义的状态转移概率模型，所述每个行为是状态由于能够执行行为的代理执行的行为而进行状态转移的行为，所述观察概率是从所述状态观察到预定观察值的观察概率。根据本专利技术的第一实施...

【技术保护点】
一种信息处理设备，包括：学习装置，用于使用由能够执行行为的代理执行的行为和当所述代理已经执行了行为时在所述代理中观察到的观察值学习由以下定义的状态转移概率模型：状态由于由所述代理执行的行为而进行状态转移的每个所述行为的状态转移概率；以及从所述状态观察到预定观察值的观察概率。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：野田邦昭，佐部浩太郎，吉池由纪子，河本献太，日台健一，
申请(专利权)人：索尼公司，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人