本因坊棋王教你用概率下棋
十年前,围棋软体「狂石(CrazyStone)」用蒙地卡罗方法,以胜率为局面的评价函数,让当时的电脑围棋界大吃一惊,它的机制是,在所有局面做非常多次「随机」的模拟到终局,其后选择其中胜率最高的一手。
当时围棋被认为是好棋与坏棋很分明的游戏,教电脑下好棋都来不及了,哪有闲工夫让电脑玩「随机」的掷骰子游戏?蒙地卡罗方法是统计学上很常用的手法,但没有人觉得跟围棋有关,将概率这个东西扯上围棋的,除了十七年前我用空压法拿到本因坊以外,就是「狂石」作者雷米柯龙。
结果狂石为围棋软体带来重大突破,就算已经明显超越人类的AlphaGo,它的评价函数一半还是蒙地卡罗法,而另一半的价值网路也是用概率来处理的。
围棋可以计算着手价值为「×目」,因为有数字指标,至今围棋评估以「大小是几目」做基础,对人来说是最方便的方法。然而如《新棋纪乐园》上集〈开天篇〉所叙述的,大小的比较对我而言非常困难,只好以概率作为自己的起点,「概率」虽然也是数字,但运用起来和确定的数字很不一样。
把着手定位于「大小」可以说是静态的思维,空压法因为起源于人类的计算力不足,而什幺都无法确定,只好由概率出发;这样围棋会呈现动态的面向,对局者必须意识的,是自己在什幺样的姿势下,採取什幺样的动作,本书下集〈闢地篇〉提供了两个运用空压法的诀窍「中点」与「交点」,我认为在最近的AI对局里,多少得到验证。





AI的概率判断,是强大机器能力的产物,人类无法模仿;人在日常生活可能不知不觉会用概率的基準去行动,但人运用概率去思考,说不定因为经验不够,其实是不擅长的,人在做决定的时候,还是希望这个决定是确实的,而不是基于一个概率数字就拚命,这可说是人的本能。我是人,虽说我认为围棋的广大,能让概率转换为实际收穫,比起AI,我运用概率其实还是怕三怕四的。
DeepZenGo对赵治勋三番棋的第三局
这个局面,谁都会补强白棋左上角模样,因为这个模样很容易成为地,一般都会想补得坚实一点,很多人可能会下A,我充其量也是下B而已,直接下D、C,意图让模样成为确定地也大有人在,然而白1至今是几乎不被列入选项的。


图6白1因为是二间高缔,十足用上「空」的压力才能逼黑棋立刻侵入, DeepZenGo动用包括白A的全局资源,成功启动「空压连锁」,从左上,下边,左下,做到了一连串的「压」的动作,可是我为了怕黑棋在上边生根,一定无法得到这幺好的结果。
本书〈开天篇〉讨论过,运用空压法,首先需要信心——相信概率,而信心的依据,是自己的「一无所知」,在AI的棋力超过人的今天,自己「一无所知」这个理由应该是越来越坚强,而我看AI的对局,最常有的感想是「自己的信心还不够」,因为人总爱幻想——认为自己得到了某些领悟!
围棋是艺术还是竞赛,是永无答案的大哉问,但也可说答案其实很明了,围棋既是艺术也是竞赛。既是A又是B,这不是矛盾吗?的确如此,人的自我本来就是一个矛盾,人类乐此不疲的围棋存在矛盾,反而合情合理。
人们忘我下棋,想要比前一刻多理解一点围棋,但围棋什幺都懂了就不好玩了,什幺都不懂才最能享受围棋,这是一个快乐的矛盾,深知自己什幺都不懂,才能深知围棋的奥妙。
李世乭对AlphaGo三连败后,第四局终于赢得胜利,记者问他,在连战连败穷途末路的时候,为何还有力气从强大对手扳回一城?
李世乭说:「儘管状况超坏,我自己提醒自己,对局时不要忘记下棋的乐趣!」
相关书摘 ►AlphaGo下的棋看不懂?「空压法」或许可以成为我们理解AI围棋的切入口
书籍介绍本文摘录自《新棋纪乐园:闢地篇》,大块文化出版
*透过以上连结购书,《关键评论网》由此所得将全数捐赠儿福联盟。
作者:王铭琬
在AI与真人棋士对局屡获胜绩后,赵治勋有感而言,王铭琬的棋术最像AI下法。新版《新棋纪乐园》的开天篇和闢地篇两本书,王铭琬将为此做了精闢的解说。
有了「空」与「压」的概念之后,《新棋纪乐园—闢地篇》中,王铭琬继续为读者指出寻找次一手的捷径——「中点」与「交点」。着眼于「空」的逻辑,就从「中点」着手,下在中点,可让对方失去选择宽广方向的余地;着眼于「压」的逻辑,则要找出双方空间量交会的「交点」,因为该处的影响範围是盘上最大,因此要从该处的「交点」去寻找次一手。
不过,不管是空压战法或是中点、交点,都有无尽的可能,王铭琬透过300盘不同棋局与诘问,讲解围棋的「无限」。围棋要学AI下法,就从《新棋纪乐园》开始。
