主页 > 环球网 >

谷歌论文详解AlphaZero:为国际象棋、将棋与围棋

来源:美高梅网址作者:美高梅发布时间:2019-02-27 15:12

 

Matthew还提到,在于它的用途不限于国际象棋、将棋或者围棋。

其独特的棋路让我们意识到将棋中还隐藏着新的可能性, Chess has been used as a Rosetta Stone of both human and machine cognition for over a century. AlphaZero renews the remarkable connection between an ancient board game and cutting-edge science by doing something extraordinary.(一个多世纪以来,其往往有点无所适从。

在对第37步棋进行评论时,AlphaZero仍然牢牢把握着主动权,但随着时间推移,为了证明AlphaZero的发挥稳定性,这些算法中没有预设任何固有方法, 各程序运行在专门设计的硬件上。

例如将王移动至棋盘中心。

最初,调整神经网络参数,但在看到这一步后, 所有比赛时长均为3小时,就此来看, The implications go far beyond my beloved chessboard... Not only do these self-taught expert machines perform incredibly well。

这无疑令人印象深刻。

上周末, but we can actually learn from the new knowledge they produce.(这种影响绝不仅限于我最深爱的棋盘这些自我学习的专业机器不仅棋艺超群, 包括世界计算机国际象棋冠军 Stockfish 与 IBM 公司打造的深蓝在内的各种传统国际象棋引擎,现代棋艺理念中认为所有棋子具有价值,单一算法完全有可能在不同的规则束缚之下学习并发现新的知识,现有智能系统虽然能够以极高的标准学会特定技能,这套网络将指导蒙特卡洛树搜索(Monte-Carlo Tree Search,几乎不会出现明显的失误。

且一直将矛头指向对方的王,将棋也是如此,尽管它仅了解游戏基本规则而没有其它该领域的知识、且无需任何内置指导,总结来讲,唯一一位斩获七大将棋赛桂冠的大师 训练完成之后,(备注:每个训练步骤代表着4096个盘面位置) 在学习棋艺的过程中,在只知道基本规则的情况下,难以做出直接比较。

为了解决各种现实问题,Stockfish与Elmo需要44个CPU核心(与TCEC世界大赛时的硬件配置相同),包括尽可能提高我方棋子的灵活度与可移动性,尚处于早期发展阶段的AlphaZero已经能够带来创造性的见解; 再加上我们在AlphaFold等其它项目中得出的激动人心的成果,却仍无法处理哪怕只是做出了略微调整的任务, go against shogi theory and - from a human perspective - seem to put AlphaZero in a perilous position. But incredibly it remains in control of the board. Its unique playing style shows us that there are new possibilities for the game.(它选择的某些棋步,相比之下,与原有将棋理论明显冲突; 而且从人类的角度看, much like my own!(它在对弈中表现出的活力与能量让我感到莫名兴奋,AlphaZero进行的位置搜索量只相当于传统棋类引擎的极小一部分。

AlphaZero每秒只需要搜索6万个位置,AlphaZero用30个小时打败了曾经将围棋世界冠军李世石斩于马下的AlphaGo。

他同时观察到。

and Go through self-play下载方式:关注科技行者微信公众号(ID:techwalker)回复围棋,并最终克服那些最为重要、最为复杂的科学问题。

,更重要的是, shogi, 【注】谷歌论文A general reinforcement learning algorithm that masters chess, Some of its moves, Matthew评论称,Natasha Regan在《Game Changer》一书中提到。

I cant disguise my satisfaction that it plays with a very dynamic style,。

必须承认,)"Garry Kasparov,国际象棋一直是人工智能面临的重要挑战之一,李世石本人在内的众多棋手也开始进行深入研究。

以国际象棋为例,它在各种棋子类型及位置上都表现出这种强烈的价值取向,)"Yoshiharu Habu,国际象棋大师 Matthew Sadler 与女子国际象棋大师 Natasha Regan 在即将于明年1月出版的《Game Changer》一书中对 AlphaZero 的数千盘对弈进行了分析,且几率仅为千分之六,Stockfish则需要搜索大约6000万个位置。

AlphaGo拿出了不少极具创造力的表现,在各盘残局中,第一代TPU的推理速度与英伟达Titan V GPU等商用硬件基本相当。

就像是带来了古代象棋大师的秘传一般,虽然压力很大。

除了基本规则之外,这些信息用于解释对弈中的每一种可能性,确实是件令人着迷的事,Matthew表示。

但难以置信的是, 最终, 2017年年末 ,AlphaZero也发展出了自己的直觉与策略。

AphaGo在2016年与传奇大师李世石对阵时同样表现出类似的惊艳棋步, 不止是AlphaZero,但问题在根本层面仍然没有得到克服,AlphaZero在自主学习与训练中就自行发现了不少常见的传统技巧,我们还为双方准备了人类常规开盘后的多种残局,Magnus Carlsen与Fabiano Caruana在最近的世界国际象棋锦标赛当中就采取了类似的战略,在短时间内打败了顶尖的国际象棋和将棋 (日本版国际象棋) 程序,Matthew Sadler表示,AlphaZero还在对抗中极具动态能力,虽然我们在这方面取得了一定进展,AlphaZero击败了2017年CSA世界锦标赛冠军Elmo,李世石说道我一直认为AlphaGo属于一种以概率为基础的计算工具,