一种人工智能强化学习服务平台制造技术

技术编号:24937189 阅读:33 留言:0更新日期:2020-07-17 20:46
本发明专利技术涉及一种人工智能强化学习服务平台,从结构上划分为基础设施层、应用服务层以及接口访问层,基础设施层提供强化学习服务平台所须的网络资源、计算资源、存储资源和虚拟化服务资源,并通过虚拟化、负载均衡、容灾备份以及弹性计算技术提供云存储、云处理相关的IT基础设施服务;应用服务层包括基于Project的封装和管理模块、云端开发及调试环境模块、虚拟开发环境接口模块三部分;三者自上而下为领域研究者提供各种通用或者自定义的云端研究环境;平台将强化学习研究涉及的数据、算法以及研究环境以Project的形式,封装在虚拟化容器中,为每个使用平台的用户开辟独立的试验环境;接口访问层能够让强化学习研究者自助式的管理其云计算环境。

【技术实现步骤摘要】
一种人工智能强化学习服务平台
本专利技术涉及前强化学习开发平台技术,特别涉及一种人工智能强化学习服务平台。
技术介绍
机器学习是以研究模拟人类学习行为,在获取知识后经过学习产生新的知识为研究目标,是人工智能的核心问题之一。基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律获取知识,利用这些规律与知识,通过一定的学习模式对未来数据或无法观测的数据进行预测。机器学习根据学习模式可以分类为监督学习、无监督学习和强化学习等。强化学习的目标是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。近年来,强化学习已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈、机器视觉等领域,并被认为是迈向通用人工智能的重要途径。但是,由于强化学习任务难度不一,任务种类难以统一集成,结果难以复现,缺少标准化环境,各研究机构纷纷推出了自己的强化学习环境。OpenAI在2016年推出了OpenAIGym环境,旨在发展和对比不同的强化学习算法,并经过几年的发展逐渐纳入了一系列Atari游戏、经典控制、机器人控制、文字游戏等难易不同的强化学习环境;DeepMind在2018年和2019年分别发布了面向机器人控制领域的DeepMindControlSuite强化学习环境和面向博弈游戏领域的OpenSpiel强化学习环境等。虽然这些环境一定程度上在特定领域提供了标准化研究环境,但基于这些强化学习环境做开发和研究还面临着以下几个问题:训练强化学习算法需要大量计算资源,缺少可以调用大规模集群的一站式的科研环境;部署相应的强化学习开发环境耗费大量时间,由于软件版本、超参等不同,算法复现难度较大;服务器端缺少可视化的开发工具,无法实时观测到强化学习智能体环境模拟,难以快速开发和验证代码。
技术实现思路
本专利技术目的在于,提供一站式的强化学习开发平台,为快速复现、开发人工智能算法提供可视化工具,并配备数据、项目管理模块,从而促进建成强化学习统一标准化科研环境。为实现上述目的,本专利技术提供了一种人工智能强化学习服务平台,该平台从结构上划分为基础设施层、应用服务层以及接口访问层,其中:基础设施层用于提供强化学习服务平台所须的网络资源、计算资源、存储资源和虚拟化服务资源,并通过虚拟化、负载均衡、容灾备份以及弹性计算技术提供云存储、云处理相关的IT基础设施服务。应用服务层,包括基于Project的封装和管理模块、云端开发及调试环境模块、虚拟开发环境接口模块三部分;三者自上而下为领域研究者提供各种通用或者自定义的云端研究环境;平台将强化学习研究涉及的数据、算法以及研究环境以Project的形式,封装在虚拟化容器中,为每个使用平台的用户开辟独立的试验环境。接口访问层,是云服务消费者的接入层,能够让强化学习研究者自助式的管理其云计算环境。进行一步地,基于Project的封装和管理模块主要完成Project的创建、Project复制、Project编辑、Project删除以及Project分享。进行一步地,云端开发及调试环境模块包括开发工具和交互工具,所述开发工具包括在线IDE、JupyterNotebook、云主机在线Shell工具;所述交互工具包括Tensorboard、视频播放器和云端模拟器。进行一步地,在线IDE为基于浏览器的集成式开发环境,内置了Python的语言环境,边写代码边调试预览,实时查看效果;用户通过所述在线IDE创建Project的代码程序,进行在线开发、调试操作;JupyterNotebook采用容器化部署,为用户提供交互式的强化学习编程环境;客户端部分负责笔记代码的运行、存储和输出等功能,并通过markdown语法进行标记,以JSON格式发送给容器存储,容器负责存取笔记代码、调用编译内核功能。Tensorboard采用容器化部署,实现展示Tensorflow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息的功能;平台提供TensorBoard作为在训练大规模神经网络时将复杂的运算过程可视化的工具,方便用户展示训练过程中绘制的图像、网络结构。视频播放器采用基于OSS服务的视频播放服务器,实现将物理引擎渲染生成的视频的点播服务;平台将算法输出的视频输出至前端集成开发环境中,供研究者分析、验证算法;在线模拟器提供了可视化和交互功能,体现在智能体环境的渲染显示、训练损失函数曲线的展示以及基于web端的实时交互功能。进行一步地,虚拟开发环境接口模块包括工具后台管理接口、虚拟机服务心跳接口和数据同步接口。进行一步地,接口访问层的应用包括用户注册模块、用户登录模块以及用户认证模块。进行一步地,应用服务层还包括:Web后台模块,其包括后端框架、Web服务器、数据库、web接口的设计和开发;Web前端模块,其包括前端框架、前端UI、前端编程采用bootstrap、jquery和ajax技术;数据库模块,采用mysql,Redis。进行一步地,平台还包括后台管理模块,台管理模块包括用户管理、机时管理、权限管理、OSS服务管理、安全管理和日志管理。本专利技术采用目前较为成熟的虚拟化方案,面向强化学习研究领域的计算、分析与共享的综合云服务环境。平台在基础设施之上构建包含云平台软硬件基础设施的按需、弹性、集约、可靠、安全的云端集成开发环境,达到下列目标:1)实现算法、强化学习环境共享,达到模拟环境的高可用性;2)实现已有的异构GPU计算资源、存储系统资源的有效整合,降低强化学习研究门槛,减少算法共享的开销,提升模拟、验证的便捷水平;3)实现面向Project的强化学习模拟和共享典型应用,提高资源利用率和算法可靠性,为强化学习研究者提供方便、高效的支持服务。附图说明下面结合附图和实施例对本专利技术进一步说明。图1为本专利技术实施例提供的一种人工智能强化学习服务平台结构示意图;图2为中间文件的协作渲染模式示意图。具体实施方式图1为本专利技术实施例提供的一种人工智能强化学习服务平台结构示意图。如图1所示,本专利技术实施例提供的人工智能强化学习服务平台从结构上划分为基础设施层、应用服务层以及接口访问层,其中:基础设施层用于提供强化学习服务平台所须的网络资源、计算资源、存储资源和虚拟化服务资源,并通过虚拟化、负载均衡、容灾备份以及弹性计算技术提供云存储、云处理相关的IT基础设施服务。基础设施层采用OpenStack云计算管理平台,并通过Python语言调用OpenStack服务,如Nova、Keystone、Glance、Neutron,Horizon。应用服务层,包括基于Project的封装和管理模块、云端开发及调试环境模块、虚拟开发环境接口模块三部分;三者自上而下为领域研究者提供各种通用或者自定义的云端研究环境;平台将本文档来自技高网
...

【技术保护点】
1.一种人工智能强化学习服务平台,其特征在于,结构上划分为基础设施层、应用服务层以及接口访问层,其中:/n所述基础设施层,用于提供强化学习服务平台所须的网络资源、计算资源、存储资源和虚拟化服务资源,并通过虚拟化、负载均衡、容灾备份以及弹性计算技术提供云存储、云处理相关的IT基础设施服务;/n所述应用服务层,包括基于Project的封装和管理模块、云端开发及调试环境模块、虚拟开发环境接口模块三部分;三者自上而下为领域研究者提供各种通用或者自定义的云端研究环境;平台将强化学习研究涉及的数据、算法以及研究环境以Project的形式,封装在虚拟化容器中,为每个使用平台的用户开辟独立的试验环境;/n所述接口访问层,是云服务消费者的接入层,能够让强化学习研究者自助式的管理其云计算环境。/n

【技术特征摘要】
1.一种人工智能强化学习服务平台,其特征在于,结构上划分为基础设施层、应用服务层以及接口访问层,其中:
所述基础设施层,用于提供强化学习服务平台所须的网络资源、计算资源、存储资源和虚拟化服务资源,并通过虚拟化、负载均衡、容灾备份以及弹性计算技术提供云存储、云处理相关的IT基础设施服务;
所述应用服务层,包括基于Project的封装和管理模块、云端开发及调试环境模块、虚拟开发环境接口模块三部分;三者自上而下为领域研究者提供各种通用或者自定义的云端研究环境;平台将强化学习研究涉及的数据、算法以及研究环境以Project的形式,封装在虚拟化容器中,为每个使用平台的用户开辟独立的试验环境;
所述接口访问层,是云服务消费者的接入层,能够让强化学习研究者自助式的管理其云计算环境。


2.根据权利要求1所述的平台,其特征在于,所述基于Project的封装和管理模块主要完成Project的创建、Project复制、Project编辑、Project删除以及Project分享。


3.根据权利要求1所述的平台,其特征在于,所述云端开发及调试环境模块包括开发工具和交互工具,所述开发工具包括在线IDE、JupyterNotebook、云主机在线Shell工具;所述交互工具包括Tensorboard、视频播放器和云端模拟器。


4.根据权利要求3所述的平台,其特征在于,
所述在线IDE为基于浏览器的集成式开发环境,内置了Python的语言环境,边写代码边调试预览,实时查看效果;用户通过所述在线IDE创建Project的代码程序,进行在线开发、调试操作;
所述JupyterNotebook采用容器化部署,为用户提供交互式的强化学习编程...

【专利技术属性】
技术研发人员:王晓光曹荣强王珏周纯葆张博尧王彦棡
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1