2016年3月25日 15:08
世界最強の囲碁棋士にも勝ち越し - 半年足らずで劇的に強くなったAlphaGo
AlphaGoは、1つの手を評価するには、高速のポリシーネットワークを使って勝敗が決するまでプレイを進めて(Rollout)勝敗を求める。そして、最初の手から広がったツリーの末端での勝ちが多い手に高い評価を与える。
AlphaGoは、このRolloutの結果、バリューネットワークの結果、高精度のポリシーネットワークの結果を総合して、次の手を決めている。
画像認識などの場合は、入力画像をニューラルネットに入力すれば認識結果が出てくるので、非常に短時間で認識ができるが、MCTSの場合は、広がった探索の各ステップごとにニューラルネットを使う必要があり、長い処理時間がかかる。2016年3月に行われた世界最高クラスの棋士であるLee Sedol氏(プロ九段)との対戦のWeb中継を見ていたが、AlphaGoは一手ごとに10~20秒くらい考え込んでいた。
ということは、コンピュータの能力が高くなれば、その分、探索の範囲を広げたり、ニューラルネットをより精緻にして精度を上げるということが可能になると考えられる。
2016年3月24日時点の全世界1719人(+AlphaGo)の囲碁棋士のランキングを掲載しているWebサイト「Go Ranking」