【特別企画】

将棋AIはまだまだ強くなる! その誕生、そして未来の見通しとは【CEDEC2024】

ワンアイデアで最強の将棋AIが生まれる可能性も

【CEDEC 2024】

会期:8月21日〜8月23日まで

会場:パシフィコ横浜ノース

 2012年から2014年にかけて開催された電王戦をはじめとし、将棋AIとプロ棋士との対局は以前より大きな注目を集めてきた。2013年に「ponanza」がプロ棋士に勝利した衝撃的な出来事から、さらにディープラーニングや強化学習の導入により、将棋AIは飛躍的な成長を続けている。

 CEDEC2024のセッションでは、将棋AI「水匠」の開発者である杉村達也氏(たややん氏)と、将棋AI「やねうら王」開発者のやねうらお氏が登壇した。「水匠」は世界コンピュータ将棋選手権や、世界将棋AI電竜戦で何度も優勝しており、「やねうら王」はオープンソース将棋AIのデファクトスタンダードである将棋AIだ。

 将棋AIの概要や仕組みから、現在の状況、そして将棋AIの今後について語られた。本稿ではその要点をまとめていく。

将棋AIの概要と誕生の歴史

将棋AI「水匠」の開発者である杉村達也氏(左)と、将棋AI「やねうら王」開発者のやねうらお氏(右)

 将棋AIの誕生と発展の歴史は、コンピューター科学と人工知能の進歩を反映している。

 その起源は1974年にさかのぼる。当時大学院生だった瀧澤武信氏によって世界最古の将棋AIが作成された。初期の将棋AIは、簡素な評価関数とミニマックス法という探索アルゴリズムを組み合わせたものだった。

 評価関数とは、将棋の局面の有利不利を数値化する関数。具体的には、駒の配置や王の安全性、攻めの可能性などを考慮し、その局面がどちらにとって有利かを示す値(評価値)を返すものだ。

 そして、ミニマックス法は、ゲーム木探索のアルゴリズムの1つだ。自分の手番では評価値が最大となる手を選び、相手の手番では評価値が最小となる手を選ぶという方法で最善手を探索する。将棋AIはこの方法を用いて、数手先までの局面を評価し、最適な一手を選択している。

 そこから、ミニマックス法を最適化し、とても少ない局面を調べるだけでミニマックス法と同じ結果が得られるアルゴリズムのαβ探索が使われるようになり、より効率的かつ効果的な探索が可能となったのだ。

 ただ、初期は人間の手で評価関数の調整を行っていたものの、次第に評価関数は複雑になり、人間の手で調整できるものではなくなった。そこで「Bonanza」という将棋AIの開発者である保木邦仁氏は最適制御理論を用いて、人間の棋譜から自動的に調整する方法を論文の形で発表した。

 その後、確率的勾配降下法(SGD)でもパラメーターの調整ができることが判明し、さらにSGD以外のoptimizerも使えることが判明し、現代の機械学習の標準的な枠組みでパラメーターの調整ができるようになった。

 そこから将棋AIは進化を続け、2013年、将棋AIの歴史に大きな転換点が訪れる。αβ探索と機械学習を用いた評価関数パラメーターの自動調整を行った「ponanza」という将棋AIがプロ棋士である佐藤慎一四段に勝利したのだ。

 これらの歴史的展開を経て、将棋AIは人間のトッププレーヤーを凌駕する強さを持つまでに進化を遂げているのである。

将棋AIの現在の状況と活用法

 将棋AIは現在、2つの主要な種類が存在する。従来型のαβ探索法で「NNUE評価関数」という評価関数を使用するAI、もう1つはAlphaZeroといった囲碁AIで成功を収めたモンテカルロ木探索とDeep Learningを組み合わせたAIだ。

 「NNUE評価関数」は、CPUのみで高速に差分計算のできる評価関数だ。3層程度の規模の小さなニューラルネットワークを用いており、2018年頃に「やねうら王」に実装された。それ以降、従来型の将棋AIの主流となった。それまでの評価関数は「Bonanza」で使われていた三駒関係という評価関数がベースになっていたが、「NNUE評価関数」の登場により、より効率的で高精度な局面評価が可能となった。

 一方のモンテカルロ木探索とDeep Learningを組み合わせたAIは、「dlshogi」や「AobaZero」、「ふかうら王」といった将棋AIが存在しており、2024年現在は、「NNUE評価関数」を使用するAIも、Deep Learningを組み合わせたAIもどちらもが活躍しているという。

 現在の最強AIは人間のトップ棋士を大きく上回る強さを持つ。具体的には、ノートPCレベルのスペックで5秒考慮するだけで、人間のトップを超える強さを示しているほどだ。

 こうして高い強さを持った将棋AIはプロ棋士やアマチュアが自身の棋譜を解析し復習すること、対局前の予習、作戦研究に利用されている。

 将棋AIは単なる対戦相手としての活用だけではなく、棋士の学習や研究を支援する強力なツールとしても機能しているのだ。

ワンアイデアで最強の将棋AIが生まれる可能性も

 将棋AIの未来は、さらなる技術革新と性能向上が期待されている。現在の課題と今後の展望として、以下の点が挙げられている。

 まず、評価関数の更なる改良だ。「NNUE評価関数」はCPUで計算するため、ニューラルネットワークの深さや幅を増やした場合、評価精度は少し上がるものの、1秒当たりに探索できる局面数がかなり減るため、トータルでは強くなりにくい。トレードオフの関係にあるため調整はかなり困難だ。「NNUE評価関数」では、CPUで行えて局面評価の精度が上がり、それほど計算時間を要しないような改良が望まれている。

 一方、モンテカルロ木探索とDeep Learningを組み合わせたAIは、ChatGPTなどの言語モデルで使われている、transformerのattentionの仕組みを導入すると強くなるということがわかってきた。このように、機械学習分野での知見を導入することで評価関数の精度が上がると考えられている。

 αβ探索法を用いる従来型の将棋AIとしては「やねうら王」、Deep Learningを用いる新しい将棋AIとしては「dlshogi」という将棋AIがそれぞれソースコードは公開されているので、何か一つでも改良できるだけで世界最強の将棋AIが誕生する可能性も秘めている。

 また、教師データの調整も重要な課題である。特に、序盤や終盤のデータの適切な取捨選択が必要とされている。例えば、終盤の局面から学習させることをある程度諦め、序盤の局面の学習に集中することで強くなる可能性が指摘されている。

 ほかにも、定跡の自動生成の改善も期待されている。現状では手作業での編集に限界があり、より多くの局面を効率的に生成する方法の開発が求められている。

 そして、探索部の改良も重要な課題である。特に、αβ探索の改良や、モンテカルロ木探索を使う他の分野のAIからアイデアを持ってくると強くなる可能性があるという。さらにこの2つが融合できれば強くなると考えている将棋AIの開発者もおり、探索アルゴリズムに関する新しいアイデアによっては最強の将棋AIが作れる可能性もある。

 一方で、計算資源を確保し、大量の教師データが生成できれば、それらを使うだけで世界最強の将棋AIが作れる可能性もあるという。

 これら全てで既存の将棋AIを上回る必要はなく、どれか1つワンアイデアで最強の将棋AIが作れる可能性もあると強調した。

 杉村氏とやねうらお氏は、この講演を通じて「自分も最強の将棋AIが作れそう」、「今作っているゲームAIに使える可能性がある」などを感じ取ってもらえればと締めくくった。

 さらに講演では、「キラームーブ」という探索効率化技術の詳細説明や、AIの自己対局によって生成した棋譜を学習データとして使用する方向への転換の詳細、そして将棋の必勝法についての議論なども行われた。

 将棋AIに興味がある方は必聴のセッションになった。ぜひタイムシフトでチェックしてほしい。