アルファ碁ゼロの登場/考

 更新日/2020(平成31、5.1栄和改元/栄和2).7.11日  

 (囲碁吉のショートメッセージ) 
 ここで、「アルファ碁ゼロの登場考」をものしておく。

 2017(平成29).10.22日 囲碁吉拝


【日本系囲碁AI/DeepZenGoプロジェクト始動/考】
 「ドワンゴ、日本発の囲碁AIの開発へ向けて「DeepZenGoプロジェクト」を発足」。
 最強コンピュータ囲碁ソフト誕生に向けて『DeepZenGoプロジェクト』始動世界に対抗できる日本発の囲碁AIの開発へ 株式会社ドワンゴ(本社:東京都中央区、代表取締役社長:荒木隆司)は、公益財団法人日本棋院(東京都千代田区、理事長:和田紀夫)の協力のもと、日本最強のコンピュータ囲碁ソフト『Zen』の開発者である尾島陽児氏・加藤英樹氏を中心としたプロジェクト『DeepZenGo(ディープゼンゴ)プロ
 最強コンピュータ囲碁ソフト誕生に向けて 『DeepZenGoプロジェクト』始動 世界に対抗できる日本発の囲碁AIの開発へ 株式会社ドワンゴ 2016年3月1日

 株式会社ドワンゴ(本社:東京都中央区、代表取締役社長:荒木隆司)は、公益財団法人日本棋院(東京都千代田区、理事長:和田紀夫)の協力のもと、日本最強のコンピュータ囲碁ソフト『Zen』の開発者である尾島陽児氏・加藤英樹氏を中心としたプロジェクト『DeepZenGo(ディープゼンゴ)プロジェクト』を発足し、世界トップレベルの囲碁ソフトを開発していくことを決定しました。

 開発者、人工知能研究者、企業らがタッグを組み、日本発の開発チーム結成

 本プロジェクトでは、新生囲碁ソフトのベースとなる『Zen』の開発者に加え、最強将棋ソフト『PONANZA』の開発者である山本一成氏と、人工知能の研究者で東京大学准教授の松尾豊氏を迎え、開発体制を強化します。ドワンゴは、ハードウェアや開発スペースなどの開発環境を全面的に提供するほか、同社の人工知能研究所(所長:山川宏)が開発を支援します。なお、新たな囲碁ソフトの完成時期は、半年~1年後を予定しています。ドワンゴは、本プロジェクトを通じて、人工知能技術の向上、そして囲碁そのものへの関心が高まり、囲碁界の発展に貢献できればと考えています。

 『DeepZenGoプロジェクト』メンバー

 <開 発>

 尾島陽児氏、加藤英樹氏(囲碁ソフト『ZEN』開発者)

 松尾 豊氏(東京大学大学院工学系研究科 技術経営戦略学専攻 特任准教授)
※同大学の学生も開発支援
 山本一成氏(将棋ソフト『PONANZA』開発者)

 <開発環境の提供・開発支援>株式会社ドワンゴ
 <協 力>公益財団法人日本棋院

 ※今後、本プロジェクトに賛同いただき、参加を希望される開発者や企業については、随時検討し拡充していく方針です。

 【日本棋院理事長 和田紀夫氏からのコメント】

 今回のプロジェクトの目的が単にAlphaGoの囲碁AI開発に対抗するためだけでなく、AI(人工知能)能力向上と同時に囲碁の持つ効用を高め、成長させる場としてのプロジェクトということで日本棋院としても賛同したい。さらにAIの発達と人間の能力向上が豊かな経済社会、人間生活の豊かさを実現することに貢献することを期待しています。また、この機会に囲碁の存在が高まり、囲碁の継承発展により人工知能と人間の知能の両方が成長し、コラボレーションできることを期待しています。


アルファ碁ゼロの登場/考
“引退”したかと思われていた、世界最強の囲碁棋士が帰ってきた。囲碁の人工知能(AI)である「AlphaGO」が、人間いらずで自己学習する「AlphaGO Zero」に進化したのだ。強さで旧ヴァージョンを圧倒的に上回る技術には、AIをさまざまな分野で役立てていこうというグーグルの親会社アルファベットの狙いが見え隠れする。

 囲碁の世界チャンピオンとして知られていたイ・セドルは、囲碁の人工知能(AI)ソフトである「AlphaGo」に負けるという2016年の歴史的な試合の最中に、そこから立ち去った。そのコンピューターは、すでに確立された理論とは違った動きで彼を惑わせたのだ。これこそが、AlphaGoの神秘性とレヴェルの高さを象徴している。

 そして新しいヴァージョンになり、よりパワフルになった「AlphaGo Zero」が、2017年10月18日(米国時間)に発表された。AlphaGo Zeroは、これまで以上に人々を驚かせることだろう。テストでは、イ・セドルに勝ったヴァージョンを100回も完膚なきまでに打ち負かし、2000回を超える対局のなかで独自のアイデアを生成し始めている。

 AlphaGo Zeroでは機械に囲碁の手を教え込むうえで、人間に依存しない新しいアプローチを提示した。これはAlphaGOの生みの親であるDeepMindが収益を得ていくうえで役に立つ。なぜなら、昨年のDeepMindは9600万ポンド(約143億円)の損失を出したからだ。同社はグーグルの親会社、アルファベットの傘下にある。

 この月曜の記者会見で、DeepMindのCEOであるデミス・ハサビスは、次のように語った。「AlphaGoの心臓部は、新薬発見やタンパク質の立体構造の理解といった科学的な問題にも応用可能です。なぜなら、こうした問題も囲碁と同様に、基本的な要素の組み合わせでできた膨大な数の選択肢を使って、数学の大海を航海する必要があるからです」。

 自己対局だけで進化するAI

 昨年、AlphaGOは機械にとって歴史的な勝利を収めたが、そのオリジナルヴァージョンは多くの無名の人々の経験値のうえに成り立っている。なぜなら、インターネット上の囲碁コミュニティから得られた16万人分ものデータを精査することで、AlphaGoは囲碁について学んだからだ。勝利を収めたあとも、AlphaGoは100万回を超える自身との対局を行い、超人的な自己研鑽を続けている。

 AlphaGo Zeroという名称は、囲碁をするにあたって人間の知識を一切必要とせず、自己対局のメカニズムだけでつくられていることから付けられた。ソフトウェアは最初にランダムな動きを複数回行う。これはどんなときに試合に勝ち、どんなときに負けるかを知るため、そして勝ちやすい手を打てるように調整するためにプログラミングされたものである。発売されたばかりの『Nature』誌の記事では、AlphaGo Zeroが2900万回もの自己対局を通じて、いかに地球上で最も手強い囲碁プレーヤーになったかが描かれている。

 このプロジェクトでリーダーを務める研究員のデヴィッド・シルヴァーは「私たちは人間の知識という制約を取り除きました」と語る。この発言は、人間が提供するデータなしに学べるAIへの関心が高まっていることを意識したものだ。

 DeepMindを含む複数の優秀な研究グループは、試行錯誤から学んで競争や戦いを指示するソフトウェアの開発に取り組んでいる。こうしたソフトウェアは、ロボットの制御など、人間がデータをあまりもたない、もしくはデータが存在しないような分野の難しい問題解決に役立つとみられている。

 「美しい」と評されたシンプルな設計

 AlphaGo Zeroは前のヴァージョンよりもスマートであると同時に、シンプルでもある。元々は2つの学習モジュールをもち、人工ニューラルネットワークとして知られる技術によって設計されていた。1つは試合中の碁石の配置などを評価し、もう1つは次の手を考えることに特化している。そして3つ目の検索型モジュールで、別の手を選んだ場合どうなるかをシミュレーションしていた。

 DeepMindによると、AlphaGo Zeroはより強力なニュートラルネットワークを駆使して、たった1つのモジュールで状況の評価と次の手の決定ができる。そしてシンプルな検索モジュールによって、次の手を選ぶという。

 アルバータ大学の教授であるマーティン・ミュラーは、AlphaGo Zeroの新しくシンプルな設計を「美しい」と評価した。しかし彼が言うには、複数の起こりうる結果を検索して最善を選び続けることは、現存するAI技術の限界を示しているという。「わたしには、ここに複雑な問題の本質があるように思えます」と、ミュラーは語る。「わたしたちは、すべての答えを知っている機能を実装することはできません。論理的思考をもち、未来のことを視野に入れて考える必要があります」。

 コンピューターにとって、固定されたルールで構成されるボードゲームの先読みをすることは比較的簡単だ。だがエンジニアは、日常のありふれた乱雑な工程をコンピューターに理解させるようなことは、ほとんどできていない。例えば、イケアのソファを組み立てたり、休暇の計画を立てたりと多面的な課題に取り組むとき、人間は論理的思考と抽象化を使ってゴールまでの道筋を立てる。いまのところAIは、こうした作業を認知・実行できないのだ。

 応用の可能性が見えてきた

 だからといって、DeepMindの技術が役に立たないということではない。グーグルは、すでにそのアルゴリズムを用いてデータセンターの冷房コストを削減している。最近の決算では同社の最初の収益として4000万ポンド(約59億円)を計上していたが、それらはアルファベット傘下のさまざまなサーヴィスに対するものだった。ハサビスによると、AlphaGo Zeroに使われている概念は、天候の予測や体内のタンパク質の理解などにも応用できる。グーグルを含む多くの企業が機械学習に力を入れているが、これによってさらに多くの広告収入を得られる可能性を示している。AlphaGo Zeroは、これまで貢献してもらっていた囲碁のコミュニティにも“恩返し”をしてもいる。対局でイ・セドルを驚かせた手のように、前のヴァージョンから得られた新しいアイデアが囲碁の試合を活気づけているのだ。

 初めてAlphaGoに負けたプロ棋士であるファン・フイは、現在はDeepMindで働いている。彼はAlphaGo Zeroが、世界で最も古いボードゲームのひとつである囲碁に、さらなるクリエイティヴィティを与えてくれるだろうと述べている。「AlphaGo Zeroの対局はとても人間らしいですが、一方で人間よりも自由にプレイしているように感じます。これは、わたしたち人間の知識という制約がないからだと思います」。彼はAlphaGo Zeroの序盤での強さを特に印象的であると感じ、その戦法に「zero move」という名前をつけている。「わたしたちはAlphaGoと試合をしていたときでさえ、こんな動きは見たことがないのです」。

 東洋経済オンラインの「独学で世界最強、アルファ碁ゼロの超絶進化 囲碁のルールを教えただけ、AI間の対局のみ」。
 囲碁の世界最強棋士を次々と打ち負かしてきた人工知能「アルファ碁」の改良版が開発された。人間の打ち方をいっさい学習することなく、独学で世界最強となったという。イギリスの科学雑誌「ネイチャー」に発表された論文によると、グーグルの子会社が開発した従来の「アルファ碁」は、プロ棋士による膨大な過去の対局データを読み込ませて最も勝率の高い手を学ばせていた。しかし、最新の「アルファ碁ゼロ」は人間の定石をいっさい入れず、囲碁のルールだけを教えてAI同士の対局を繰り返すことで能力を高め、実験開始から3日後には、去年、世界トップクラスの韓国人棋士に圧勝した元の「アルファ碁」に100戦全勝したという。人間の知識や経験にとらわれず能力を高める人工知能は今後、様々な分野への応用が期待される。
 2017/10/22日付朝鮮日報/朝鮮日報日本語版  産業第2部=パク・コンヒョンパク論説委員・記者 【萬物相】アルファ碁の進化に鳥肌」を参照する。
 「グーグル・ディープマインド社の人工知能(AI)『アルファ碁』が昨年初め、李世ドル(イ・セドル)九段を破り、今年は柯潔九段を下すと、『囲碁の神が現れた』と言われた。きのう、ディープマインド社の研究チームが、国際学術誌ネイチャーに新しいアルファ碁『アルファ碁ゼロ』を発表した。この人工知能は、『アルファ碁』を更に進化させており、囲碁の学習を始めてから三日目にして『アルファ碁』を破っている。『アルファ碁ゼロ』は史上の棋譜を全く見ずに囲碁を習得している。それは人間行動心理学を適用している。ディープマインド社は、『アルファ碁ゼロ』を、進化学者スティーブン・ピンカー氏が「生まれたばかりの子どもは白紙の状態だ」と言った時に使った言葉「タブラ・ラーサ」(tabula rasa=白紙の状態)の状態から囲碁を始めさせ、子どもが上手にできたことを褒めてやるとやる気を出すように勝つと褒められ、その勝ち味を進化させるようプログラミングされている。(中略)あまりにも恐ろしい速度で能力を進化させる人工知能を見ていると鳥肌が立つ」。












(私論.私見)