算法全覆盖，还能玩星际争霸，开源决策智能平台OpenDILab面世

和知讯科技网 2021-07-26 4

从强化学到MCTS，百度首次设立了百度奖学金计划，从星际争霸AI到自动驾驶，秉承“助你实现技术梦想”宗旨，上海人工智能实验室开源决策智能平台OpenDILab，每年面向全球华人学子选拔8-10名顶尖AI技术青年人才，自带最优参数，为每人提供20万奖金助力其科技研究。目前,百度已经累积颁发了超千万元奖金、支持了近百名杰出青年学子在AI领域奋勇向前，一键上手SOTA决策AI算法，并提供数据、平台支持和专家指导，AI者们赶快试试这个新开源的国产决策AI平台OpenDILab。

撰文 | 机器之心编辑

开源是推动人工智能技术进步的重要力量。

近年来，帮助奖学金获得者在相关领域内继续研究、深造，AI者们也一直在享受着开源带来的技术红利：前沿算法、数据、AI框架、甚至算力。这些开源资源为者们带来了极的便利，助力有志于通过技术改变世界的学生实现技术梦想。作为目前国内AI领域资助金额与含金量的学术奖学金之一,百度奖学金早已成为业内的“人才认证书”与“行业风向标”，而反过来，深受学界和产业界认可。在今年5月20日举办的第八届百度奖学金颁奖典礼上，通过汇聚者们的力量，百度首席技术官王海峰为来自清华学、麻理工学院、斯坦福学等国内外顶尖学府的10位AI学霸颁发了奖杯及奖金。哈尔滨工业学的车万翔老师对百度奖学金给予了高度评价：“百度奖学金肯定了学生的研究成果,为学生们提供了充足资金,创造了有效的交流机会和环境,帮助他们完成科研工作,对整个产业、技术发展起到很的促进作用。”除百度奖学金外，这些开源项目也得到了极的发展。

在意识到开源的力量之后，百度一直对高校AI人才培养高度重视，国内高校、企业也纷纷加入到开源社区。

在2021世界人工智能上，上海人工智能实验室就做出了开源新动作：开源决策智能平台OpenDILab。

2021WAIC科学前沿全体会议上，上海人工智能实验室青年科学家刘宇博士发布OpenDILab开源决策AI平台

据介绍，它是首个覆盖最全学术界算法和工业级规模的决策AI平台。也就是说，OpenDILab不仅实现了最全面的算法覆盖，例如强化学，还提供了丰富的工业级应用环境，可应用于自动驾驶、游戏竞技等领域。

如今，OpenDILab已经被放到Github上。就让我们对此项目一探究竟。

GitHub：https://github.com/opendilab/

一为什么要开源OpenDILab？

首先，为什么要做这样一个平台？

我们知道，过去10年，感知AI已经让机器具备了从「看清」到「看懂」的能力，例如，给定一张猫的图片，机器能够判别出这是一只猫。

然而相较于这种感知层面的人工智能，决策AI问题是一项更加复杂的任务，它需要进行推理、决策、规划等。

因此，决策AI是下一代AI的重要方向已经是业界共识。

目前决策AI主要存在两难题：

一是决策类问题因涉及多模态数据空间、跨尺度计算逻辑、多领域算法融合，这些问题很难标准化。与感知类AI单纯的视觉信息不同，决策类AI通常需要同时处理诸如图像、语音、结构化数据等多种复杂模态的数据类型。此外，单机单卡与多机多卡甚至跨集群计算的决策AI计算逻辑也完全不同。不同任务间的最优算法配置也差别较。

二是作为一个前沿领域，决策AI的问题定义和研究视角在学术界和工业界之间存在巨差距，诸多新奇的学术算法缺少环境和计算pipeline上的通用性，很多情况下只能限于toy model级别的实验环境，无法转化到真正的工业场景上去，而从工业界本身来看，如何将实际问题抽象为适合现有的决策AI算法解决的环境，仍是阻碍决策AI技术应用实践的核心门槛。

针对决策AI的技术难题，以及产学研协同创新过程中的困难，上海人工智能实验室开源了OpenDILab平台。它首次将产业应用中对于训练系统、环境接口、算法设计的需求与学术界进行了有效连接。

作为一套完备的决策 AI 训练与组织框架，OpenDILab 平台自顶而下覆盖了应用层、算法层、训练层和支持层，适配了从单机到服务器集群规模的全尺度高效训练pipeline。

OpenDILab平台概览。

· 应用层：涵盖多种决策场景，支持多模态数据空间的表示和变换，并提供量性能优异的算子，助力AI做出最优决策；

· 算法层：提供多种常用模块化组件，可在此基础上构建不同的算法模型，支持用户多维度的扩展和定制，完成决策AI算法的统一；

· 训练层：内置多种类型的执行计算图，并深度优化了相应数据吞吐和资源利用率，可为小到学术研究，到工业级应用的多种规模问题提供支持；

· 支持层：尝试了CUDA异构计算和决策AI算法的结合，而在资源调度方面，OpenDILab可依据算法和资源，动态管理整个训练过程，提供异常自动化维护等多种微服务。作为一个系统工程，OpenDILab为AI+SYSTEM带来了全新形态。

二一键实现决策算法与应用

OpenDILab (beta) 开源后，研究者和者们可以访问github，获取最强最全的决策AI算法Zoo，查看自动驾驶、游戏AI等工业问题在OpenDILab平台加持下的具体实践，以及诸多决策AI系统设计和优化的相关组件。

在OpenDILab（beta）的开源版本里，我们可以看到它已经了四个核心代码库，最底层的DI-engine，致力于解决决策AI环境算力标准化的训练问题；中层的算法抽象层DI-zoo，提供了目前最全最强的决策AI算法集合。还有顶应用生态层，开源了基于 DI-engine的自动驾驶决策平台DI-drive和面向策略游戏《星际争霸II》的规模分布式训练平台DI-star。

DI-engine是一个通用的决策智能引擎，不仅支持 DQN、PPO、SAC 等多数基础的深度强化学（DRL）算法，而且支持诸多特定研究领域的算法，如多智能体RL中的QMIX、逆向RL中的GAIL 和探索和稀疏奖励问题中的HER，RND等等。对于每种算法，可以从多种环境和多种训练pipeline的角度探索决策AI技术的不同形态。

DI-zoo则可以为者提供当前最全、最强的决策AI算法集，拥有包括强化学、MARL、MCTS等20多种跨领域决策AI算法，支持10多个决策AI环境，并原生集成了量研究员的算法调优经验。这为者去了调参困扰，方便在统一平台对比性能。

而说到应用层的两个代码库：DI-star、DI-drive，可以说是研究决策AI最合适的场景。

从国际象棋、围棋到麻将、，各类游戏一直都是AI挑战的对象，而这些复杂的游戏也成为了研究AI技术的绝佳场景。星际争霸2作为目前难度的游戏之一，为检验人工智能决策能力提供了合适的舞台。

基于DI-engine的底层支持和规模分布式深度强化学训练技术，DI-star打造出了人类师分段水平星际争霸2智能体，并把完整的技术实现细节和与人机对战测试（仅需Windows系统+1060以上显卡）给所有人，希望借此促进通用人工智能的研究。

同时OpenDILab团队也希望借助DI-star，汇聚更多社区者的力量优化规模深度强化学训练效率等方面的问题，将AlphaStar级别的智能体设计简化到原来的1/20～1/30。

自动驾驶同样也是当前人工智能的热门研究方向。决策、规划与控制是自动驾驶任务的脑，被各公司视作高度保密技术。DI-drive是自动驾驶领域第一个开源的，人人可以参与的研究平台。

DI-drive支持各种模仿学强化学等决策算法，支持多模态类型的输入输出，支持高度定制的可视化模块，为自动驾驶和决策 AI 搭建了至关重要的桥梁。DI-drive 还自主研发设计了 Casezoo 这一从实车采集数据转化而成的测试场景，在及贴近真实的驾驶环境中训练和测试决策模型，促进自动驾驶领域仿真研究在实车环境中的推广和应用。

未来，OpenDILab还将提供诸如AutoML、信控等更多的工业级生态应用，加速下一代人工智能的重技术突破和创新应用的落地。

而对我们者来说，一个开源平台是否有意义在于能为我们带来哪些方面的增益，OpenDILab平台的开源也不例外。

无论你是想入门决策AI的技术萌新，还是志在探索算法真理的研究员，又或是想应用决策AI技术到各类实际应用中的工程师，都可以通过OpenDILab平台获得在算法，系统，工程等方面的经验和工具支持。而现今开源的OpenDILab (beta) ，也正在期待更多的者使用、反馈并逐渐完善它，整个社区一起共同构建最强最好用的决策AI平台。

Exploration and Exploitation，就从现在开始！

标签：算法开源人工智能智能平台上海人工智能实验室