硅谷王川:深度学习有多深?双陆棋和神经网络(21)

本文是硅谷王川:深度学习有多深?多巴胺的诱惑(20) 的续篇

本文是硅谷王川:深度学习有多深?多巴胺的诱惑(20)的续篇。

(1)所有没有成熟的新理论,新技术出现之初,学术界都会有两派:

好派 人工智能,增强学习就是好, 就是好!)

P 派人工智能,增强学习好个 P, 好个 P ! )

P 派对增强学习理论最为诟病之处:不实用,然并卵.

迄今为止关于各种算法的讨论,都离不开一个核心概念: 价值函数.

简单说,在贝尔曼方程里面,价值函数就是目前状态的理论最大值

在漂亮的公式背后,如何求解价值函数,是个大问题早期教科书里的简单例子中,价值函数就是一个表格. 每个状态,表格里对应一个函数值,在模拟和学习中不断更新.

但对于稍微复杂的问题,状态空间极大,表格根本不实用.

以围棋为例,一盘棋下完,每步棋平均有 250个选择,落棋之后平均还会走 150步,状态空间约等于 250 的150次方 这个数字已经远超过宇宙里的原子的数目 (有估算是 10的 80次方)计算量之大,即使用前面提到的蒙特-卡洛模拟,也无法胜任.

怎么办?解决方法是: 近似, 近似, 近似.

(2)如何近似价值函数

86年以后,随着反向传播算法的发明,神经网络的研究开始复苏.

一些研究者,开始使用神经网络用于价值函数的近似计算.

奥地利学者 Kurt Hornik 在1991年的论文里,曾经证明,一个前馈神经网络,可以近似任何连续的非线性的函数增加近似的精度,可以依靠增加神经元的数目实现.

神经网络用于价值函数的近似计算,它的一个优点,是相对于神经元连接的各个参数可以微分求导通用的计算方法,是计算神经网络拟合的函数值,和实际值的方差,求导,然后使用所谓的随机梯度下降 (Stochastic Gradient Descent) 的方法把方差最小化

神经网络,和时间差分算法,第一个在实用上的突破,来自西洋双陆棋.

(3)西洋双陆棋 (Backgammon),是一个有着五千年历史的古老游戏对弈双方各有15个棋子,每次靠掷两个骰子决定移动棋子的步数,最先把棋子全部转移到对方区域者,获胜.

硅谷王川:深度学习有多深?双陆棋和神经网络(21)

双陆棋上世纪六十年代在美国开始流行,1967年在赌城拉斯维加斯开始了第一次世界锦标赛.

1992年,IBM的研究员 Gerald Tesauro 开发了一个结合时间差分学习 (TD Learning)和神经网络的算法,给它取名 TD-Gammon, 专攻双陆棋.

TD-gammon 使用了一个三层神经网络,如下图,棋盘状态由198个神经元代表,为输入端中间的隐层有40-80个神经元,最后的输出值是价值函数的估算.

硅谷王川:深度学习有多深?双陆棋和神经网络(21)

TD-gammon 最初版本,中间的隐层只有40个神经元,通过自己和自己下棋提高水平每走一步,用时间差分算法,根据价值函数估算的差值,重新微调神经网络的参数经过三十万个棋局的自我训练后,它达到了此前表现最好的电脑程序的水平

此后改进版的算法,把隐层神经元数目增加到80,经过一百五十万次棋局的训练后,达到了和当时世界一流选手同等的水平.

TD-gammon 的另外一个收获是,在开局的落子上,发现了另外一种被所有前人忽略的走法,比传统走法要略优这个新的开局走法,后被参加锦标赛的选手广泛采纳.

电脑发现了比人们的几百年,几千年来的定势思维更高明的策略, 这个现象之后将不断重复

(4)从 TD-gammon 算法的成功,已经隐约可以看到一个有趣的现象:

生物进化的历史, 好似算法和计算能力提高的历史.

拥有抽象的近似计算能力,只要超越对手一点点,只要进步速度比对手更快, 就可以在生存竞争中胜出,更大概率的把基因传递到下一代.

Tesauro 之后有许多研究者试图把类似 TD-gammon 的算法用到象棋,围棋和其它游戏上,但是效果并不显著主流的看法是,因为双陆棋每个回合都要掷骰子,游戏有较大的随机性,恰好和 TD-gammon 的算法合拍. 双陆棋的成功是个特例.

增强学习从理论到计算能力上,还有太多问题要解决,差距要弥补.

“好派”阵营继续壮大,但 “P派” 底子厚,仍然不为所动.

本文为专栏文章,来自:硅谷王川,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/27043.html 。

(0)
上一篇 2016-09-19 05:00
下一篇 2016-09-27 14:52

相关文章

关注我们
关注我们
分享本页
返回顶部