新加坡狮城论坛

返回列表 发帖 付费广告
查看: 1498|回复: 0

【狮城论坛0】世界第一围棋手柯洁也败了~到底AlphaGo是个什么鬼?

[复制链接]
发表于 28-5-2017 12:17:48|来自: | 显示全部楼层 |阅读模式
昨天上午,人机大战结束了第三盘的争夺,AlphaGo毫无悬念地再度胜出,从而以3∶0的大比分完胜。输掉第三盘后,柯洁抑制不住自己的情绪,现场落泪。谈到这次人机大战的感受,柯洁哽咽地说:“它太完美了,我看不到任何取胜的希望,我很痛苦……”

QQ截图20170528121520.jpg

三场棋局柯洁输得越来越惨
从第一局到收官只输1/4子,到第二局中盘投子认输,再到第三局才20手就被围剿,柯洁输得一局比一局惨。不知道是柯洁的状态越来越差,还是AlphaGo越来越不给人类面子了。

QQ截图20170528121526.jpg



  第三局,按照双方的约定,柯洁选择执白后行。柯洁认为,把执黑先落子的机会交给AlphaGo,胜算会更大一点,毕竟到贴目的时候,黑子不如白子划算。理论上,只要柯洁能够保持局面均势,就有可能像第一局一样,白子小胜一点点。
当然,这是个十分乐观的估计,第一局白子能赢1/4子,是因为AlphaGo执白。第二局,在柯洁执白时,AlphaGo到中盘就杀死棋局了。第三局,执白的柯洁同样是中盘告负,而且对柯洁来说,这局棋比第二局糟糕得多。

QQ截图20170528121532.jpg

  执黑先行的AlphaGo在序盘阶段就给柯洁多次制造困难,被迫陷入长时思考的柯洁不仅眉头紧锁,还喃喃自语。20手过后,柯洁就彻底落入了AlphaGo的控制。作为解说嘉宾的“棋圣”聂卫平至此便断言黑棋必赢无疑,“白棋接下来不过就是‘安乐死’。”
从20手就判定白棋“安乐死”,可见AlphaGo的优势有多么巨大,无论柯洁此后怎样试图突围,都无法挣扎出AlphaGo的控制。历时3小时30分钟后,柯洁再度认输,此时为209手。看起来,对弈回合要比第二局多,实际上,能够行至中盘真的只是“死缓”而已。比赛中,柯洁在局面不利时长时间离开,回来后又泪洒现场。总结人机大战的感受,柯洁表示非常绝望,“它太完美了,我看不到任何取胜的希望,我很痛苦……AlphaGo没有任何失误,它太冷静,我本以为它会给我面子,结果把我全吃了。”

QQ截图20170528121539.jpg

去年3月,在李世石与AlphaGo的“人机大战1.0版”时,柯洁曾作为解说嘉宾讲棋。当时的柯洁一度十分“鄙夷”AlphaGo,并高调宣称,“AlphaGo能击败李世石,但无法击败我。”遗憾的是,当终于接受AlphaGo的挑战并悲壮地表示“抱着必胜心态与必死信念去击败AlphaGo”后,柯洁最终要接受被完虐的结果。
终极一战的赛后发布会上,柯洁显得十分痛苦,他哽咽着表达了对AlphaGo心服口服的敬佩,“我看到了自己和AlphaGo的差距有多大,这是我永远都追不上的距离,我会继续改变自己,而AlphaGo将会改变世界。”这番话仿佛是壮士断腕后打算“隐退江湖”的诀别辞。必须得承认,AlphaGo真的超越了人类,棋坛五大顶尖高手组成的天团都被AlphaGo“杀”得一败涂地,在围棋这块领域,人类已经失守。
到底AlphaGo是什么?

QQ截图20170528121545.jpg

阿尔法围棋(AlphaGo)是一款围棋人工智能程序,由谷歌(Google)旗下DeepMind公司的戴密斯·哈萨比斯、大卫·席尔瓦、黄士杰与他们的团队开发。其主要工作原理是“深度学习”。
“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
阿尔法围棋用到了很多新技术,如神经网络、深度学习、蒙特卡洛树搜索法等,使其实力有了实质性飞跃。美国脸书公司“黑暗森林”围棋软件的开发者田渊栋在网上发表分析文章说:“‘阿尔法围棋’这个系统主要由几个部分组成:
一、走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋;
二、快速走子(Fast rollout),目标和走棋网络一样,但在适当牺牲走棋质量的条件下,速度要比走棋网络快1000倍;
三、估值网络(Value Network),给定当前局面,估计是白胜还是黑胜;
四、蒙特卡洛树搜索(Monte Carlo TreeSearch),把以上这三个部分连起来,形成一个完整的系统。”
AlphaGo的两个大脑

QQ截图20170528121550.jpg

阿尔法围棋(AlphaGo)是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。
这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。
第一大脑:落子选择器 (Move Picker)
阿尔法围棋(AlphaGo)的第一个神经网络大脑是“监督学习的策略网络(Policy Network)”,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。
第二大脑:棋局评估器 (PositionEvaluator)
阿尔法围棋(AlphaGo)的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,再给定棋子位置情况下。这“局面评估器”就是“价值网络(Value Network)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么AI就跳过阅读。

z.jpg

发表回复

您需要登录后才可以回帖 登录 | 注册会员 新浪微博登陆

本版积分规则

联系客服 关注微信 下载APP 小程序 返回顶部 返回列表