ニュース

Microsoft、強化学習AIで「ミズ・パックマン」を“カンスト”

大きな問題を小さく分けてエージェントに振り分ける“分割統治メソッド”が功を奏す

「Maluuba」がAIエージェントにさまざまなタスクを割り当てて共同作業させるシステムを構築

 米Microsoft Corporationは14日(現地時間)、人工知能(AI)ベースのシステムで「ミズ・パックマン」の最高得点999,990を達成したことを明らかにした。

 「ミズ・パックマン」は、1980年代に開発された中毒性の高いビデオゲームだ。プレイヤーは4方向レバーで“パックマン”を操作し、4色のモンスターによる追跡をかわしながら、迷路に配置されたドットを回収する。4つだけある“パワーエサ”を食べると、一定時間逆にモンスターが逃げ出し始め、攻撃して点数を得ることができるので、これをうまく活用するのがゲームのポイントだ。すべてのドットを回収すればゲームはそのラウンドはクリアだが、ラウンドを重ねるにつれて難易度は上昇していく。

 今回「ミズ・パックマン」を“カンスト”させたのは、今年初めに同社が買収したカナダのディープラーニングスタートアップ「Maluuba」のチーム。“Atari 2600”バージョンの「ミズ・パックマン」で、獲得可能な得点の最大である999,990点を叩き出した。

Divide and conquer: How Microsoft researchers used AI to master Ms. Pac-Man

 「ミズ・パックマン」のようなゲームを人工知能でマスターするには、“強化学習(RL)”という手法が用いられる。これは人間がやり方を少しずつ変えながら何度も「パックマン」に挑戦し、より効率的なプレイ方法を学習してく方法に似ている。しかし、この方法だけでは、「パックマン」の得点で人間に遠く及ばなかった。

 強化学習が失敗する原因としては報酬と観察可能性の問題がよく挙げられるが、「パックマン」にはあまり当てはまりそうもない。また、固定場面からのスタートでもランダム画面からのスタートでも、人間の場合はそれほど得点に差がないにもかかわらず、AIはランダムスタート時に大きく点数を落としてしまうという問題もあった。

 そこで同チームは、“分割統治メソッド(divide-and-conquer method)”と呼ばれる手法を採用した。まず、「パックマン」をマスターするという大きな問題を小さな問題に分割し、それをAIエージェントに配布する。たとえば、モンスターから逃げる、パワーエサを食べる、ドットを回収するなどだ。モンスターから逃げることを重視して“左”へ進みたがるAIの数と、ドットやパワーエサを食べることを優先して“右”へ行きたがるAIの数を考慮し、より高位のAIが数による重み付けをしながら最終的に進む方向を決定する。これは人間が脳で行っている“計算”にも少し似ている。

 「Maluuba」チームは、このようなアイデアをベースに“ハイブリッド報酬アーキテクチャー(HRA)”と呼ばれる仕組みを開発。150以上のAIエージェントを用い、それぞれが並行して「パックマン」の学習を行いながら、それを協同させるシステムを構築した。その結果、従来の手法が苦手としていたランダムスタートでの得点が改善されたばかりか、人間の得点を凌駕することができたという。

 こうした手法は、AIエージェントに複雑な作業を教えるのに広く活用できる可能性がある。今後の研究に期待したい。