ディープラーニングが新時代を切り開く
2012年、人工知能研究の世界に衝撃が走った。世界的な画像認識のコンペティション「ILSVRC(Imagenet Large Scale Visual Recongition Challenge )」で東京大学、オックスフォード大学、独イェーナ大学、ゼロックスなど名だたる研究機関が開発した人工知能を抑えて、初参加のカナダのトロント大学が開発したSuperVisionが圧倒的な勝利を飾ったのだ。
このコンペでは、ある画像に写っているのがヨットなのか、花なのか、動物なのか、ネコなのかをコンピュータが自動で当てるタスクが課され、その正解率の高さ(実際はエラー率の低さ)を競い合う。1000万枚の画像データから機械学習で学習し、15万枚の画像を使ってテストして、正解率を測定する。
それまで画像認識というタスクで機械学習を用いることは常識であったが、機械学習の際用いる特徴量の設計は、人間の仕事であった。各大学・研究機関はコンマ何%の精度でエラー率を下げるためしのぎを削り、そのために、画像の中のこういう特徴に注目するとエラー率が下がるのではないかと試行錯誤を重ねてきた。
機械学習といっても、特徴量の設計は、長年の知識と経験がものをいう職人技である。職人技により、機械学習のアルゴリズムと特徴量の設計が少しずつ進み、1年かけてようやく1%エラー率が下がるという世界だ。その年もエラー率26%台の攻防のはずだった。
ちなみに、自然言語処理でも検索でも、人工知能技術を用いて最後にコンマ何%という性能の勝負の段階になると、必ずこの職人技のかたまりになってくる。研究としては面白くないところだ。実は、Siriのような「音声対話システム」もワトソンのような「質問応答システム」も、ほとんどこの段階に入っていて、研究者からすると、「やってもいいけど大変なわりにあまり未来がないように思える世界である。その世界で少しずつ性能を上げていくには、気の遠くなるような努力が要求される。
ところが2012年に初参加してきたトロント大学は、ほかの人工知能を10ポイント以上引き離して、いきなりエラー率をたたきだした。文字通り「桁違い」の勝利だ。これには長年、画像処理の研究を進めてきたほかの研究者も度肝を抜かれた。
何がトロント大学に勝利をもたらしたのか。その勝因は同大学教授ジェフリー・ヒントン氏が中心になって開発した新しい機械学習の方法「ディープラーニング(深層学習)」だった。
ディープラーニングの研究自体は2006年ごろから始まっているが、それまでそれまで画像認識の各研究者が培ってきたノウハウとはまったく別のところから参入して、いきなりトップに躍り出たのだから、その衝撃たるや、大変なものだった。画像認識の研究者の中には、「もう研究者としてやっていけないのではないか」と危機感を覚えた人も少なくないと聞いている。
ディープラーニングは、データをもとに、コンピュータが自ら特徴量を作り出す。人間が特徴量を設計するのではなく、コンピュータが自ら高次の特徴量を獲得し、それをもとに画像を分類できるようになる。ディープラーニングによって、これまで人間が介在しなければならなかった領域に、ついに人工知能が一歩踏み込んだのだ。
私は、ディープラーニングを「人工知能研究における50年来のブレイクスルー」といっている。