English

第93回コラム
深層強化学習の発展過程から見えてくる今後のAIの課題と方向性

創造技術専攻 林 久志 准教授

 現在は人工知能(AI)の第3次ブームと言われています。このブームの中心的な技術は間違いなく深層学習というニューラルネットワークの技術です。本稿では、これまでの3つの深層学習の技術の流れから、今後のAIの課題と方向性を考察したいと思います。
 第3次AIブームの火付け役になったのは、畳み込みニューラルネットワーク(CNN)と呼ばれる深層学習の技術です。このCNNを使ったトロント大学のHinton先生のチームは、2012年の画像認識の競技会であるILSVRCで優勝しました。以降、深層学習が注目され、2015年のILSVRCでは、マイクロソフト率いるチームのAIが人間の画像認識能力を越しました。しかしながら、あくまでもこの技術は画像認識の技術であり、一般の人がイメージするAIとは異なります。一般の人がイメージするAIは、ドラえもんのように感情を持ち、何をどうやって行動したらよいか自律的に思考し、人間と自然なコミュニケーションをし、仲間と協調して集団行動をするための知能です。私自身もそのようなAIらしいAIに興味があります。
 次に注目された深層学習関連の技術としては、2013年に発表された深層学習と強化学習を組み合わせた深層Qネットワーク(DQN)と呼ばれる深層強化学習があります。(2015年にはNatureにも論文が掲載されています。)強化学習では現在の状況からどのようなアクションを取ると将来に高い報酬が得られるか判断するためのルールを学習します。この組み合わせ技術により、ブロック崩しのようなATARI2600の反射的なコンピュータゲーム群において、既存アルゴリズムより多く得点でき、また、人間のプロのプレーヤと比較できるほど得点できるようになりました。実はニューラルネットワークと強化学習の組み合わせは昔から存在したのですが、このニューラルネットワークの部分に画像認識用のCNNを使うことにより、ゲームの画面のピクセル情報と得点を入力として、次にとるべきアクション(=ブロック崩しの場合は、ラケットを右に移動させるか左に移動させるかそのままか)を学習できるようになりました。
 DQNは先ほどの純粋なCNNとは異なり、画像認識のみならず状況に応じた判断・行動が加わり、より一般の人がイメージするAIに近づきました。しかしながら、ある限界を感じ、違和感を覚えます。前者の限界は、本手法では次の1手だけを直感的に判断し、反射的に行動するだけで、遠い将来の目標に向かって計画的に行動するわけではない点です。後者の違和感は、入力が「画像」になっていて、情報を抽象化・記号化せずに次のアクションを出力している点です。DQNをそのまま素直に応用するのであれば、例えば、株価のグラフの「画像」をDQNの入力として株売買の判断をしたり、交通シミュレータの「画面」をそのままDQNの入力として交差点で交通渋滞が発生しないように信号を切り替えたりする応用が考えられますが、やはり、無理やり画像化した情報を入力とした直感的判断のみに頼っている点に違和感が残ります。
 最後に注目したい深層学習関連のAI技術は、2015年に人間の囲碁の王者に勝ったAlpha Goです。そのアルゴリズムは2016年のNatureにも掲載されています。Alpha Goの特徴は、従来のゲーム木探索に深層強化学習の技術を加えた点にあります。つまり、ゲーム木探索において、どの枝を探索したらよいか判断するところに深層強化学習の結果を使っています。そのため、次の一手だけではなく、将来に打つ手のことも探索しています。
 Alpha Goが用いている深層学習においても、画像認識で用いたCNNを使っていますが、この点に関しては、あまり違和感を覚えません。なぜならば、画像認識⇒直感的判断⇒計画的思考(ゲーム木探索)⇒行動という、人間らしい一連の思考の流れになっているからです。先ほどのDQNで私が違和感を覚えたのは、思考の部分が直感的判断に過ぎず計画的思考になっていないのに加え、画像認識と直感的判断がDQNというニューラルネットワークで一体化されて分離されていないからだと思います。一方、Alpha Goにおいても画像認識と直感的判断のニューラルネットワーク部分は分離されていませんが、計画的思考(ゲーム木探索)の部分はニューラルネットワークと分離されています。
 Alpha Goはさらに進化を続け、2017年10月にNatureで発表された論文によると、Alpha Go Zeroは、人間の棋譜データを使わないAI同士の自己対局による強化学習のみにより、学習時に棋譜データも用いるAlpha Goに100対0で勝利することができるようになりました。また、2017年12月5日にarXivで公開された最新の論文によると、Alpha Go Zeroのアルゴリズムをやや一般化したアルゴリズムを搭載したAlpha Zeroは、わずか数時間の自己対局の強化学習のみで、将棋やチェスの世界最強ソフトとの対戦にも勝てるようになりました。
 CNN⇒DQN⇒Alpha Goという深層強化学習の研究の流れを見ると、画像認識という実世界のセンシング技術から始まり、次に反射的行動のためのルールの深層強化学習が生まれ、最後に深層強化学習の結果をゲーム木探索のヒューリスティックスとして活用したAlpha Goが生まれました。これは、実世界のセンシング情報から徐々に抽象化・記号化して知能を高度化していくボトムアップアプローチといえます。また、共通していえる最大の特徴は、ニューラルネットワークの部分を深層学習化した点にあります。そして、その深層学習のニューラルネットワークは「画像認識」や「直感的判断」までしかしていません。ニューラルネットワーク、強化学習、ゲーム木探索、あるいは、それらの組み合わせは改良されてはいますが、基本的なアイデアは深層学習以前から研究されていたものです。
 昔ながらのAIは抽象的な記号化された世界での推論が中心でトップダウンアプローチでした。これは、言語という記号を使って思考している人間の推論に近いです。しかしながら、記号世界と実世界のギャップは大きく、AIが役に立たないと批判されることもしばしばありました。それに対し、今の深層学習を用いたAIはボトムアップアプローチのため、ニューラルネットワークにより実世界に接地はしていますが、抽象化・記号化された世界での高度な推論はこれからといえます。今後は今のボトムアップアプローチのAI技術と昔ながらのトップダウンアプローチのAI技術をうまく融合していくことが最大の課題になると思われます。さらに、ドラえもんのようなロボット単体の知能を実現していくことは究極の夢ではありますが、現代のネットワーク社会では、無数に誕生すると考えられる高度なAI同士を協調させることも重要なテーマになることでしょう。

PAGE TOP