人机大战柯洁怎么就输了？几分钟看懂围棋规则

2017-05-25 来源：科技美学评论0条

人机大战火热进行中。柯洁以“四分之一子”之差输给了AlphaGo。很多人对此有点懵圈：“

这四分之一子”是什么概念？

围棋又是如何判定输赢的呢？

围棋当然不是五子棋，不过基本规则也并非天书。来看看知名微博博主“@柴知道”制作的一段4分钟的科普视频，看完就能明白个大概了。

人机大战柯洁怎么就输了？几分钟看懂围棋规则 - 1

原标题《4分钟了解围棋规则 | 柯洁输给AlphaGo的“四分之一子”是什么意思？》

视频大小约8.9mb

前方预警，前方高能预警，前方核能预警，本文中可能出现各种各样你看不懂其实我也不怎么懂的专业名词。

大家可以打开电脑，一边百度一边看。

人机大战柯洁怎么就输了？几分钟看懂围棋规则 - 3

昨天柯洁和阿尔法狗打完了第一局，不对，下完了第一局。最后结果以阿尔法狗获胜收场，柯洁在下期期间也是贡献了不少表情包。另外这位的名字是柯洁，不是何洁也不是柯蓝也不是柯南。

人机大战柯洁怎么就输了？几分钟看懂围棋规则 - 4

按照Deepmind团队的预测，与柯洁对战的AlphaGo Master要比去年同李世石对战的AlphaGo Lee强三个子。

三个子是什么概念？引用柯洁的话说就是，武林高手在对决的时候，对手让你先捅他三刀。有网友调侃说，这意味着柯洁比李世石强三个子。

人机大战柯洁怎么就输了？几分钟看懂围棋规则 - 5

李世石哭晕在厕所，躺着也中枪

人机大战柯洁怎么就输了？几分钟看懂围棋规则 - 6

无论是李世石还是柯洁，其实他们在下期的时候面对的都是帮阿尔法狗落子的黄士杰，也就是阿尔法狗的幕后推手。

为什么不能把阿尔法狗做成一个机器人，能下棋，能和对手偶尔互动，是不是看起来更“正常”一点呢？对于机器来说，这其实一点都不简单。

我们都知道围棋棋盘是什么样子的，棋盘上有纵横各19条直线将棋盘分成361个交叉点，棋子走在交叉点上。这么大的空间里，让人类找最好的落子处需要大量的脑力和体力。但是人工智能不需要，他们能发热的只有CPU。人工智能只需要用庞大的数据做制成就可以利用它飞快的运算速度来进行优化搜索。

人机大战柯洁怎么就输了？几分钟看懂围棋规则 - 7

在此我们要引出三个概念，就是深度学习（DL）、强化学习（RL），和蒙特卡洛树搜索（MCTS）。

深度学习，主要用来学习和建立两个模型网络。一是评测现在的棋盘状态如何。也就是说给当前的棋盘状态打个分，评估一下赢的期望值，它就是价值网络（ValueNetwork）。输入是棋盘19x19每个点的状态，有子或无子，输出是赢的期望值。

要是足够聪明，那么找一个数学家过来就可以在黑板上写出一个公式来表达。但是人工智能并没有被教导这种“随机应变”“融会贯通”的功能，所以它只能用多层的神经元网络来近似的表达这个高级函数。

二是根据现在的棋盘状态，决定下一个棋子该如何走才能有最大的赢的概率，它就是AlphaGo的策略网络（PolicyNetwork）。也就是说，给一个19x19的棋盘状态，所有空的落子处哪个是最佳的选择，会有最大的赢率。

人机大战柯洁怎么就输了？几分钟看懂围棋规则 - 8

同样我们也可以用一个函数来描述，比如输入是当前棋盘状态，输出是每个落子处和它期望的赢的期望值。但这个函数还没有一个高级的数学公式，所以，最后也求助于多层神经网络。

那么所谓的深度学习网络是怎么被人工智能玩转的呢？在这里我们要提出另一个名词，叫随机梯度下降（SGD）。

围棋没有求解公式，或者说没有一个相对简单的求解公式，人工智能只能求助于迭代，随机梯度下降迭代。简单解释一下，就是摸着石头过河。人工智能拼命的算，直到它算到一个它满意的结果为止。这个过程周而复始，其实本身很简单的。按我们的话来说，人工智能用了最“笨”的方法。假设我们做选择题时发现这个公式有四个选项，那么最笨的方法就是把这四个选项都带进去算一遍。这就是人工智能风格的方法。

人机大战柯洁怎么就输了？几分钟看懂围棋规则 - 9

当然，基础数据都已经被前辈们输入进阿尔法狗的服务器里了，那么庞大的数据量阿尔法狗是不可能现场进行计算的。这样阿尔法狗在下棋的时候就可以大大减少搜索空间，把不好的落子处全部剔除掉。

那么如果阿尔法狗当时认为不好的落子处并不一定不好的话，怎么办呢？这里就是强化学习的领域，也就是self-play。拿武侠小说的套路来说，这个叫左右手互博。说的形象点，两台阿尔法狗对着下棋，通过深度学习的网络模型记录下来，提高前面两个模型网络的效果。在强化学习的算法中，也需要大量的迭代计算，以求得到最优的期望值，也就是达到收敛。

人机大战柯洁怎么就输了？几分钟看懂围棋规则 - 10

到这一步的时候，阿尔法狗已经可以算得上普通玩家了。但是在很多选择没有被选择过的情况下，阿尔法狗如果不能保证模型预测的每一步都是最好的该怎么办？

最后一个名词来了，就是蒙特卡洛树搜索。这是通过随机的对游戏进行推演来逐渐建立一棵不对称的搜索树的过程。大概可以被分成四步。选择(Selection)，拓展(Expansion)，模拟(Simulation)，反向传播(Backpropagation)。

人机大战柯洁怎么就输了？几分钟看懂围棋规则 - 11

简单的说，就是简单粗暴的一个一个试。大家都知道挑麦穗的那个故事吧？从一块田地的开始走到结束，挑出你认为最大的麦穗。有的版本是挑苹果，不过差不多。蒙特卡洛树搜索就是从最开始拿出一束麦穗或一个苹果，一个一个的比较到最后。那么你挑选的次数一定是特别多的，不然你无法知道你是不是挑出了最大的那个。只是人力有限，你并不知道你挑到最后的那个是不是最大的，但是你可以保证这个绝对是相对来说很大的一个。

听着都累吧？

人机大战柯洁怎么就输了？几分钟看懂围棋规则 - 12