蒙特卡洛方法介绍

前言

不久前参加了邓辉、孙鸣老师的《机器学习之旅》的培训。在培训课堂上邓辉老师对AlphaGO的架构以及实现进行了介绍，其中涉及AlphaGO的的多项关键技术，其中之一就是蒙特卡洛方法（除外还包括快速走子、走棋网络以及估值网络）。当时听得一知半解，仅仅知其然但不知其所以然。经过一段时间的学习研究，想通过这篇文章来做一个过程性总结。

围棋的不同

早在1996年，深蓝就战胜了国际象棋大师卡斯帕罗夫，成为首个在标准比赛时限内击败国际象棋世界冠军的电脑系统。随着计算机能力的不断增强，计算机的计算、存储能力都是人类望尘莫及的，在人们脑海中计算机战胜人类不是理所应当的吗？直到今年Google DeepMind挑战李世石成功引起的轰动效应，才发现事情没那么简单。那么为什么围棋这一难题在深蓝胜利之后的20年才被计算机攻克呢？围棋与其他棋类差别究竟在哪呢？对于这些问题还是需要回归到棋力的要求说起，评价一个优秀棋手的能力无非是从计算能力和对棋局的评判能力说起，下面将分别说明：

计算能力要求的不同

首先，国际象棋的棋盘大小为64（88），围棋的大小为361（1919）。由于棋盘大小的不同，每走一步国际象棋和围棋的计算量的要求是不一样的，围棋明显要求更高。这在博弈论中一般称之为分支因子，即平均每个落子后的合法走法，国际象棋的分支因子约为35，而围棋大约是250。另外一个可以说明计算能力要求不同的指标是搜索空间，在该指标上两者也存在指数级的差异，国际象棋是10^50，而围棋是10^171。我们知道宇宙中的原子总数总共大约也才10^80，因此围棋的搜索空间绝对算是天文数字。

棋局评判能力要求的不同

棋局的评判一般使用估值函数来评估，国际象棋的棋局局面特征比较明显，最容易想到的是可以给每个棋子设置不同的分值，对弈双方算下各自总分来看哪一方更占据优势。如果再加上一定的位置特征（比如棋子在不同的位置有不同的加减分），棋子的行动力，棋子之间的保护关系等特征，对局面的评价就已经很靠谱了。而对于围棋上述方法基本不起任何作用，差一个棋子的盘面都可能是翻天覆地的。但既然高手能在几百个选择中知道哪几个位置值得考虑，说明它的估值函数还是存在有且规律可循的。