Press "Enter" to skip to content

意义远超阿法狗:DeepMind用足球撬开物理世界的人工智能

  人工智能必须重新创造人类玩家所做的一切——甚至是我们不需要有意识地思考的事情,比如如何精确地运用每个肢体和每块肌肉处理移动中的球——每秒做出数百个决定。足球场上最基本的动作也需要极为复杂和精确的计算和控制,我们没有考虑就这样做,这对人工智能来说是一个非常困难的问题,我们并不确定人类究竟是如何做到这一点的。 ”Lever 说。

  既然目前的物理机器人的运动能力远远无法满足模拟足球比赛的需要, DeepMind决定使用以真人为模型的虚拟人形机器人,这些虚拟机器人有 56 个关节点和受限的运动范围 ——这意味着它们无法像伊布拉希莫维奇那样将膝关节旋转到夸张的角度。首先,研究人员只是给虚拟机器人球员一个目标 ——例如跑步或踢球 ——然后通过大量训练和强化学习,让虚拟机器人尝试弄清楚如何到达目标,就像过去研究人员所做的那样教模拟类人机器人如何在复杂物理环境中通过障碍(那次训练得到了滑稽的结果,机器人的动作看上去就像抽搐的僵尸,下图:)。

  

  “这并没有真正奏效,” DeepMind 研究科学家 Nicolas Heess 说道,他与 Lever是该论文的合著者。由于问题的复杂性、可用的选项范围广泛以及缺乏关于任务的先验知识,虚拟机器人们真的不知道从哪里开始 ——因此扭动和抽搐。

  因此, Heess、 Lever 及其同事使用了神经概率运动原语 (NPMP),这是一种将 AI 模型推向更像人类的运动模式的教学方法,期望这些基础知识将有助于解决如何在虚拟足球场周围移动。 “它让你的运动控制看上去更像是现实的人类行为, ”Lever 说。 “这是从动作捕捉中学到的 ——捕捉真实人类球员的踢球动作。 ”

  这“重新配置了行动空间,” Lever 说。虚拟机器人的运动受到它们模仿的人体关节的限制,只能以某些方式弯曲,来自真实人类的数据会进一步限制它们,这有助于简化问题。 “它使有价值的东西更有可能通过反复试验被发现, ”Lever 说。 NPMP 加速了学习过程。在教人工智能以人类的方式做事的同时,给予它足够的自由度去自己去发现问题的解决方案,二者需要达成一个 “微妙的平衡 ” 。

  基础训练之后是单人训练:无球跑动、盘带运球,模仿人类学习足球的基础培训。强化学习的奖励是像在无球的情况下成功跟踪目标,或者将球运到靠近目标的地方。 Lever 说,这种技能课程是完成日益复杂的任务的一种自然方式。

  目的是鼓励虚拟机器人在足球环境中重用他们可能在足球环境之外学到的技能——在不同的运动策略之间进行总结和灵活切换。掌握这些技巧的机器人充当教练。就像鼓励人工智能模仿它从人类动作捕捉中学到的东西一样,新手机器人也因为没有偏离教练机器人在特定场景中使用的策略太远而得到奖励,至少在开始时是这样。“这实际上是在训练期间优化的算法参数,” Lever 说。 “随着时间的推移,他们原则上可以减少对教练的依赖。 ”

  训练好虚拟机器人球员后,就进入比赛训练阶段:从 2v2 和 3v3 比赛开始,以最大限度地提高机器在每轮模拟中积累的经验(类似业余爱好者的小场轮换比赛)。刚开始场面异常混乱,机器人球员们像公园里的狗群一样追逐足球,球员像醉汉一样跌跌撞撞地奔跑,进球全靠意外,不是通过助攻射门,而是墙面的幸运反弹。

  在比赛训练中,研究人员只是给虚拟机器人球员设定了一个目标:进球获得奖励,但研究人员很快发现团队的合作等特性开始出现。“在训练开始时,所有机器人都只是傻乎乎跑向球,几天后的某个时候,我们看到机器人开始意识到“跑位”——当一名队友控球时,另外一个机器人会跑到空挡期待队友尝试射门或传球,” Lever 说。这是第一次在如此复杂且反应迅速的人工智能中看到这种协作和团队合作。 “这是我感兴趣的突破之一, ”Lever 说。

  至于这一切的意义何在? Heess指出这不是要称霸机器人世界杯,而是将虚拟机器人学到的一些低级技能灌输到物理机器人中,以使它们在现实世界中以更 “安全和自然 ”的方式移动。这不仅是为了避免吓到与它们互动的人类,而且还可以解决非结构化强化学习可能产生的紧张、不规则的运动,后者可能会损坏未经过适应性优化的机器人,或者只是浪费能量。

  这都是“拟真智能”( embodied intelligence)工作的一部分——即通用人工智能可能需要以某种物理形式在世界各地移动,并且这种形式的属性可能决定它的行为方式。“这在模拟世界(越来越多地以基于物理的模拟为特色)和开发机器人学习方法方面都很有趣,” Heess 说。

  最终,这些看上去像闹剧的虚拟机器人足球比赛可以帮助机器人及其在数字世界的虚拟版本以看起来更人性化的方式移动——即使他们也许永远不会在足球比赛中击败我们。“足球本身并不是真正的最终目标,” Lever 说: “像人类一样踢球对于人工智能来说欠缺的东西太多了。 ”

  更多内容,请阅读原文获取。