Google如何将强化学习应用于模拟足球？

谷歌大脑团队的研究人员开源Google Research Football，这是一个利用强化学习教授AI代理人如何掌握世界上最受欢迎的运动的新环境。

足球（美国足球）是迄今为止世界上最受欢迎的运动。全球拥有超过40亿球迷，足球已被证明可以超越世代，超越了地缘政治竞争，甚至超越了战争冲突。这种热情已转移到视频游戏领域，其中像FIFA这样的游戏经常被列为全球最受欢迎的视频游戏之一。尽管它很受欢迎，但足球是已经证明具有人工智能（AI）技术的游戏之一。像FIFA这样的环境的复杂性经常给AI算法带来噩梦。最近，Google Brain团队的研究人员开放了Google Research Football，这是一个利用强化学习教授AI代理如何掌握世界上最受欢迎的运动的新环境。Google Research Football背后的原则在随附发布的研究论文中进行了概述。

快速浏览一下足球的游戏动态，就会发现AI代理面临明显的挑战。该游戏需要11名球员的协调行动，以评估对方球队中另外11名球员的行动。这些策略会随着游戏的进行而不断变化，规则也并不完全确定。此外，规则/战略的丰富性和复杂性，如进球、助攻、角球、黄牌和红牌、越位、手球、点球和替换都会让大多数铁杆球迷感到困惑，所以想象一下在AI算法中对这些球迷进行建模。毫不奇怪，传统的监督学习技术在应用于足球环境时往往不足。但是，如果AI代理人可以通过简单的比赛来学习踢足球呢？这就是Google Brain团队遵循的策略。

足球强化学习

将强化学习应用于足球环境的想法似乎很直观。毕竟，强化学习已经成为人工智能的一些最大突破，从创建AlphaGo到复杂的多人游戏环境（如Dota2或Quake III）中超越人类。强化学习提供了一种模型，其中AI代理可以通过反复试验而不是预先定义的训练数据集来掌握环境规则。一般来说，游戏为强化学习代理提供了一个良好的环境，因为他们以可重复的方式测试新想法，因此将这些原则应用于足球的想法似乎是直观的。然而，为足球创造强化学习远非微不足道，它带来了一系列非常独特的挑战：

复杂性：与市场上的大多数强化学习环境相比，足球并不专注于解决一系列简单的任务，而是一系列复杂的任务。
随机性：大多数强化学习环境基本上是确定性的，并且不能很好地处理随机性。与自动驾驶汽车等其他场景一样，足球受到不同来源随机性，这极大地增加了算法的复杂性。
多人游戏：足球是所谓的合作，是多智能体学习场景，它基本上描述了一个代理需要协作并相互竞争以实现一系列目标的环境。从强化学习的角度来看，这种类型的环境为AI代理提供了最高程度的复杂性。
完全可观察但持续：足球比赛在人工智能理论中被称为一个完全可观察的环境，可以在其整体中进行可视化。这与诸如Dota2、Quake III甚至是扑克之类的环境形成对比，其中代理商不知道完整的游戏环境。然而，足球的可观察性受到游戏的连续性的挑战，在游戏中，为了实现特定的目标，任何给定的状态都有几乎不定式的动作来完成一个特定的目标。
昂贵：模拟复杂的环境（如足球）通常需要昂贵的GPU架构，这对大多数研究实验室来说都是有成本的限制的。

这些是足球设法逃避大多数AI算法的一些关键原因。 Google Brain团队通过最先进的强化学习模式平衡了这些挑战，以非常独特的方式掌握足球。

谷歌研究足球

Google Research Football项目是一个强化学习环境，球员通过简单的游戏，代理人可以学习踢足球。该平台的当前版本基于三个基本组件：

足球引擎：一种高度优化的游戏引擎，模拟足球比赛。
足球基准：一组多样化的基准任务，可以用来比较不同的算法。
足球学院：一系列逐步加强和多样化的强化学习场景。

足球引擎

足球引擎是基于流行的Gameplay Football环境的高级足球模拟。该引擎模拟一个完整的足球比赛，它接受来自两支球队的输入动作，其中包括最常见的动作，例如进球、犯规、角球、点球或越位。

从强化学习的角度来看，足球引擎包括一系列值得强调的相关属性：

状态和观察：足球引擎将游戏建模为状态和观察的组合。在该上下文中，状态被定义为在执行操作之后由环境返回的完整数据集。另一方面，观察被定义为作为控制算法的输入提供的状态的任何变换。

操作：足球引擎模拟一系列可用于任何给定状态的代理的操作。动作包括标准移动动作（向上、向下、向左、向右），以及不同的踢球方式（短传和长传、射门以及沿途无法轻易拦截的高传球）。此外，球员可以冲刺，这会影响他们的疲劳程度。
随机性和决定论：足球引擎可以以随机或确定模式运行。前者在默认情况下启用，会引入几种类型的随机性：例如，从框顶部开始的相同镜头可能会导致不同数量的结果。在后者中，针对固定对手的固定策略总是会产生相同的动作和状态序列。
OpenAI Gym兼容性：足球引擎开箱即用，与广泛使用的OpenAI Gym API兼容，简化了其在其他研究环境中的应用。

当前版本的Football Engine是用C ++编写的，允许它在现成的机器上运行，无论是GPU还是没有基于GPU的渲染。这使其在单个六核机器上达到每天大约2500万步的性能。

足球基准

足球引擎为研究人员提供了基本的构建模块，可以尝试掌握足球的新思路。但是，我们仍然需要一个完善的机制来客观地评估这些想法的可行性。 Football Benchmark根据预定义的任务集评估不同的策略。从功能上讲，这些基准的目标是针对固定的基于规则的对手进行足球的“标准”游戏，该对手是为此目的而手工设计的。目前版本的Football Benchmark提供三个版本：足球简单基准、足球中等基准和足球难度基准，它们只是对手的实力不同。

Google Brain团队使用两种先进的强化学习算法测试了足球基准：DQN和IMPALA。您可以在下面看到两种不同奖励模式（评分和检查点）的比较。我们可以看到增加难度水平需要模型使用更多步骤。

足球学院

足球引擎允许我们模拟完整的足球比赛，而足球基准允许我们评估不同的强化学习模型以应对既定的挑战。最后一步可能是学习如何为足球基准训练强化学习代理。这就是足球学院的作用，这是一系列不同难度的场景，其主要目标是让研究人员快速开始新思路，并对其进行迭代。足球学院包括各种各样的设置，代理人必须学习如何在一个空球上得分，如何向守门员跑，如何在球员之间快速传球以击败防守线，或者如何执行快速反击。例如，下面我们可以看到在足球学院的不同场景中评估IMPALA算法的结果。