最好看的新闻,最实用的信息
09月13日 21.2°C-23.3°C
澳元 : 人民币=4.78
珀斯
今日澳洲app下载
登录 注册

人机大战 柯洁怎么就输了?几分钟看懂围棋规则

2017-05-25 来源: 科技美学 评论0条


人机大战火热进行中。柯洁以“四分之一子”之差输给了AlphaGo。很多人对此有点懵圈:“

这四分之一子”是什么概念?

围棋又是如何判定输赢的呢?

围棋当然不是五子棋,不过基本规则也并非天书。来看看知名微博博主“@柴知道”制作的一段4分钟的科普视频,看完就能明白个大概了。

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 1

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 2

原标题《4分钟了解围棋规则 | 柯洁输给AlphaGo的“四分之一子”是什么意思?》

视频大小约8.9mb



前方预警,前方高能预警,前方核能预警,本文中可能出现各种各样你看不懂其实我也不怎么懂的专业名词。


大家可以打开电脑,一边百度一边看。

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 3

昨天柯洁和阿尔法狗打完了第一局,不对,下完了第一局。最后结果以阿尔法狗获胜收场,柯洁在下期期间也是贡献了不少表情包。另外这位的名字是柯洁,不是何洁也不是柯蓝也不是柯南。

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 4

按照Deepmind团队的预测,与柯洁对战的AlphaGo Master要比去年同李世石对战的AlphaGo Lee强三个子。

三个子是什么概念?引用柯洁的话说就是,武林高手在对决的时候,对手让你先捅他三刀。有网友调侃说,这意味着柯洁比李世石强三个子。

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 5

李世石哭晕在厕所,躺着也中枪

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 6

无论是李世石还是柯洁,其实他们在下期的时候面对的都是帮阿尔法狗落子的黄士杰,也就是阿尔法狗的幕后推手。

为什么不能把阿尔法狗做成一个机器人,能下棋,能和对手偶尔互动,是不是看起来更“正常”一点呢?对于机器来说,这其实一点都不简单。

我们都知道围棋棋盘是什么样子的,棋盘上有纵横各19条直线将棋盘分成361个交叉点,棋子走在交叉点上。这么大的空间里,让人类找最好的落子处需要大量的脑力和体力。但是人工智能不需要,他们能发热的只有CPU。人工智能只需要用庞大的数据做制成就可以利用它飞快的运算速度来进行优化搜索。

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 7

在此我们要引出三个概念,就是深度学习(DL)、强化学习(RL),和蒙特卡洛树搜索(MCTS)。

深度学习,主要用来学习和建立两个模型网络。一是评测现在的棋盘状态如何。也就是说给当前的棋盘状态打个分,评估一下赢的期望值,它就是价值网络(ValueNetwork)。输入是棋盘19x19每个点的状态,有子或无子,输出是赢的期望值。

要是足够聪明,那么找一个数学家过来就可以在黑板上写出一个公式来表达。但是人工智能并没有被教导这种“随机应变”“融会贯通”的功能,所以它只能用多层的神经元网络来近似的表达这个高级函数。

二是根据现在的棋盘状态,决定下一个棋子该如何走才能有最大的赢的概率,它就是AlphaGo的策略网络(PolicyNetwork)。也就是说,给一个19x19的棋盘状态,所有空的落子处哪个是最佳的选择,会有最大的赢率。

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 8

同样我们也可以用一个函数来描述,比如输入是当前棋盘状态,输出是每个落子处和它期望的赢的期望值。但这个函数还没有一个高级的数学公式,所以,最后也求助于多层神经网络。

那么所谓的深度学习网络是怎么被人工智能玩转的呢?在这里我们要提出另一个名词,叫随机梯度下降(SGD)

围棋没有求解公式,或者说没有一个相对简单的求解公式,人工智能只能求助于迭代,随机梯度下降迭代。简单解释一下,就是摸着石头过河。人工智能拼命的算,直到它算到一个它满意的结果为止。这个过程周而复始,其实本身很简单的。按我们的话来说,人工智能用了最“笨”的方法。假设我们做选择题时发现这个公式有四个选项,那么最笨的方法就是把这四个选项都带进去算一遍。这就是人工智能风格的方法。

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 9

当然,基础数据都已经被前辈们输入进阿尔法狗的服务器里了,那么庞大的数据量阿尔法狗是不可能现场进行计算的。这样阿尔法狗在下棋的时候就可以大大减少搜索空间,把不好的落子处全部剔除掉。

那么如果阿尔法狗当时认为不好的落子处并不一定不好的话,怎么办呢?这里就是强化学习的领域,也就是self-play。拿武侠小说的套路来说,这个叫左右手互博。说的形象点,两台阿尔法狗对着下棋,通过深度学习的网络模型记录下来,提高前面两个模型网络的效果。在强化学习的算法中,也需要大量的迭代计算,以求得到最优的期望值,也就是达到收敛。

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 10

到这一步的时候,阿尔法狗已经可以算得上普通玩家了。但是在很多选择没有被选择过的情况下,阿尔法狗如果不能保证模型预测的每一步都是最好的该怎么办?

最后一个名词来了,就是蒙特卡洛树搜索。这是通过随机的对游戏进行推演来逐渐建立一棵不对称的搜索树的过程。大概可以被分成四步。选择(Selection),拓展(Expansion),模拟(Simulation),反向传播(Backpropagation)。

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 11

简单的说,就是简单粗暴的一个一个试。大家都知道挑麦穗的那个故事吧?从一块田地的开始走到结束,挑出你认为最大的麦穗。有的版本是挑苹果,不过差不多。蒙特卡洛树搜索就是从最开始拿出一束麦穗或一个苹果,一个一个的比较到最后。那么你挑选的次数一定是特别多的,不然你无法知道你是不是挑出了最大的那个。只是人力有限,你并不知道你挑到最后的那个是不是最大的,但是你可以保证这个绝对是相对来说很大的一个。

听着都累吧?

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 12

但是阿尔法狗就是如此的“不知变通”,或者说无法“触类旁通”。人类把最笨的方法教给了阿尔法狗,如果不是它算的快并且有庞大的数据做基础,它是无法做到像今天这样和柯洁对战的。

这样的阿尔法狗也许可以战胜柯洁,也许可以问鼎星际,但是它注定写不出E=mc²这种公式。人类擅长的是学习迁移,而现在的人工智能还无法做到这一点。



在比赛结束后,有网友发现王思聪居然跑到柯洁的微博上冷嘲热讽,留下了“哟,当时李和alphago下的时候你那嚣张劲儿哪儿去了?”这么一句话。

一般来说,王思聪的很多观点都会被网友们强烈支持。但这次情况有点不太一样了,王思聪遭到了网友的怒怼。

人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 13


人机大战 柯洁怎么就输了?几分钟看懂围棋规则 - 14


近期文章精选:

仅3.9万元!微软五大硬件国行版发布

人机大战首盘结果出炉,AlphaGo果然还是赢了

国产世界最大两栖飞机低速滑跑,首飞在即


商务合作  [email protected]


转载声明:本文为转载发布,仅代表原作者或原平台态度,不代表我方观点。今日澳洲仅提供信息发布平台,文章或有适当删改。对转载有异议和删稿要求的原著方,可联络[email protected]
今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(0)
暂无评论


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

电话: (02) 8999 8797

联系邮箱: [email protected] 商业合作: [email protected]网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:[email protected]

友情链接: 华人找房 到家 今日支付Umall今日优选