大数据文摘出品

来源：Nature

编译：魏子敏、宁静

在开发通用人工智能的过程中，训练和评估算法同样重要。

评估指标不仅仅在培训结束时发挥作用，并且也是整个培训过程中智能体进化的关键驱动因素。

错误的排序和不合理的限制可能会让AI自行进化出奇怪的“心眼”。在之前我们的一篇报道中就总结了错误的评估方式导致的AI“钻空子”训练法，比如在让AI玩俄罗斯方块的时候，发现最佳完成任务的方式是直接暂停游戏；在玩井字棋的时候，AI发现它如果做出奇怪的步骤，对手会非常崩溃。

Deepmind一直致力于研发多智能体的训练算法，并且很看重过程中的评估。他们刚刚发布了一种新的为智能体进行排名的方法,α-Rank。这是一个基于新的动态博弈理论的解决方案，被称为Markov-Conley Chains（MCCs）。这一解决方案可以确保唯一的、切实存在，并且可进行可处理的计算。这些属性允许对大型多智能体进行交互排名，并且规模也超出了之前的研究。

这一研究方法本月初在《自然》杂志的Scitentific Reports上被发布

论文获取链接

https://www.nature.com/articles/s41598-019-45619-9.pdf

支撑α-Rank的进化观点是，游戏中的智能体之间通过相互作用，构成了一个不断变化的种群的动态系统，其中较为强大的代理会复制并取代较弱的对应物。

为了计算智能体之间的排名,α-Rank在从一个智能体向另一个演化的过程中会构建出一个图表（如下图）。这一群类在游戏过程中花费的平均时间就构成了每个智能体的评级数据。

当前存在的模型基本上受限于智能体的数量、交互类型（超过二元）和经验游戏的类型（对称和非对称）这些维度中的一个或者多个，并且不能保证收敛到期望的游戏理论解决方案概念（通常是纳什均衡）。α-Rank自动提供对评估中的代理集合的排名，并提供相关组件的优势、弱点和长期动态的分析。

与纳什均衡（一种仅基于固定点的静态解决方案概念）相比，MCCs是基于马尔可夫链、康利在动力系统的指数理论，以及动力系统的核心要素——固定点、循环集、周期轨道和极限环。Deepmind在论文中引入数学证明，不仅提供现有连续和离散时间进化评估模型的总体和统一视角，而且揭示了α-Rank方法的正式基础。

目前，Deepmind已经在几种游戏中说明了这种方法，并在几个领域进行了经验验证，包括AlphaGo，AlphaZero，MuJoCo Soccer和Poker。

论文的主要贡献在三个方面：

引入多种群离散时间模型，即使在非对称游戏中也可以进行多玩家互动的进化分析；
MCC解决方案概念的引入，一种新的游戏理论概念，捕捉多智能体交互的动态，以及与离散时间模型的连接；
提出α-Rank：一般多种群设置的具体排序策略/算法。

论文结构的思维导图如下图所示，每个章节包含的内容以及之间的联系很直观地反映出来，方便读者阅读。

DeepMind发布多智能体协作最新评估方法α-Rank，登上Nature

论文的主要贡献在三个方面：

你可能也喜欢这些文章