教師信号なしで成長した「アルファ・ゼロ」と法
コンピュータの深層学習では、例題とその正解についてのデータを教師信号と言います。教師信号が多いほど、学習が進んでAIはより賢くなります。
例えば、よく知られる「アルファ碁」は、プロ棋士の大量の棋譜を教師信号として自動学習することで強いAI棋士へと成長しました。
ところが、2016年から17年にかけて、インターネット上の囲碁対戦で、世界のトップ棋士と見られる相手を次々と破るマスターと名乗る棋士が現れたのです。その正体は、「アルファ碁」の進化版である「アルファ・ゼロ」でした。
実は、「アルファ・ゼロ」には、「アルファ碁」のような教師信号は与えられていません。囲碁のルールだけが教えられ、あとは、仮想空間に作った相手と対戦をし続けることで学習したのです。
その結果、囲碁の勝負に勝つという正解に対して、最適なニューラル・ネットを短時間で自ら構築したというのです。囲碁のルールによって勝敗が明確に決定するので、いわば教師信号を自分で創り出し、そこから学習したのです。いわば自学自習する独学システムです。
世界のトップ棋士と思われる人たちが「アルファ・ゼロ」に歯が立たなかったことは衝撃的でしたが、これをもってAIが人類を超えたというのは短絡的です。
囲碁のようなルールが明確なゲームの中では、勝つという正解に対して、AIは自動学習によって、あっという間に人を超える方法を確立することができるということです。計算量と計算速度が人間を超えたと言うだけです(何十年も前から超えていました)。
つまり、AIの自動学習においてはふたつの方法があります。ひとつは教師信号を与えることです。この場合は、この教師信号のデータを大量に与えるほどAIの学習は進み、性能が向上します。つまり、より賢いAIになって行きます。
もうひとつは、問題の正解を判定するルールだけを教える方法です。この場合、ルールが明確ですから判定結果も明確です。途中のプロセス、たとえば囲碁なら正しい手の指し方、は分かりません。問題から正解に至る様々なプロセス(手の指し方)をAI自らが創作して試行錯誤し、結果(勝敗)がより良くなるプロセスを学習するのです。このようにルールが明確なら、教師信号を与えなくてもAIは成長するのです。
しかも、人が経験した、あるいは、想定する教師信号を超えた学習が可能になり、AIの性能は人を超えることも可能になります。
しかし、現実社会はゲームのようにシンプルで明確なルールに則っているわけではありません。社会のルールである法律や判例は自然言語で書かれており、どうしてもある程度の曖昧さが残っています。しかも、裁判所の判断が常に正しいわけではないことは、上訴で覆ったり、裁判所ごとに判断が分かれたり、後に判例変更がなされたりすることから明らかでしょう。現実社会の様々な場面で活用できるAIを作ろうとすれば、いまのところ、やはり、教師信号を大量に与えることがAIの自動学習に繋がることになります。
※記事の内容は、執筆者個人の考え、意見に基づくものであり、明治大学の公式見解を示すものではありません。