オンラインニュースは人工知能の言語学習にうってつけ

2015年06月28日
AI

f:id:Elongeek:20150628022129j:plain

イーロン・マスクが先日リツートした記事によると、Googleの子会社であるディープマインド社がCNNとデイリー・メールのオンラインニュース記事を用いて人工知能に自然言語を教えているそうです。

私たちのAIベイビーはCNNとデイリー・メールという食事で育つみたいだ。

Looks like our AI babies will be fed a diet of CNN and Daily Mail: DeepMind Teaches Machines to Read | MIT Tech Rev http://t.co/y1JeVUPlCo

— Pierre Omidyar (@pierre) 2015, 6月 22

イーロン・マスクは人工知能の脅威に警鐘を鳴らしつつ、人類へもっとも影響を与える分野の１つとして人工知能の発展を注意深く眺めています。そんな彼のリツートはCNNとデイリー・メールが人工知能の発展に貢献するというものでした。

Googleが人工知能研究をすすめる理由

ディープマインド社は２０１４年にGoogleに買収された人工知能を研究する会社です。２０１１年にロンドンで創業されました。

創業者はデミス・ハサビスというチェスの天才です。彼は１３歳のときにチェスのアンダー１４で世界第二位にランキングされる神童でした。

彼の興味はコンピューターゲームを経て次第に人工知能へ移り、ケンブリッジ大学の博士課程で脳神経科学の研究を開始するに至ります。その後、ディープマインド社を立ち上げたデミス・ハサビスは本格的に人工知能の基礎研究に乗り出します。

彼に率いられたディープマインド社はテレビゲームを人間のようにプレイするニューラルネットワークの開発や、人間の脳の短期記憶のメカニズムをコンピューター上で再現するなどの成果をあげました。ディープマインド社は人工知能の分野で非常に注目されていたベンチャー企業だったのです。GoogleはFacebookとの買収競争の末、ディープマインド社の買収に成功しました。

人工知能に関して、Googleはディープマインド社の買収以外にも様々な手を打ってきています。たとえば、人工知能研究の権威であるレイ・カーツワイルを雇い入れたり、カナダのDNNリサーチ社を買収したり。DNNリサーチ社を創設したジェフリー・ヒントン教授は、ディープマインド社が研究しているディープラーニングという機械学習のパイオニアでもあります。

このように、Googleは人工知能研究において積極的な行動をみせています。その理由はGoogleの検索能力を高めるためです。人々が検索したい内容をコンピューターが高い精度で理解する。そのためにはコンピューターの知能を発達させる必要があります。人工知能研究によってGoogleのコンピューターの知能が向上するというわけです。

人工知能が苦戦している分野

ディープラーニングという機械学習の手法の登場で、人工知能は様々な分野へ影響を与えはじめています。人間の顔や声を認識できるようになりましたし、その影響はファッションや経済にまで及びます。

しかし、いまだに人工知能の能力が限定されている分野があります。自然言語処理の分野です。自然言語処理とは、人間が普段使っている言葉をコンピューターで処理することです。

人工知能に文章を読ませて、内容について質問する。これにたいして人工知能がおこなえる回答はかなり限定的です。その理由は人工知能のデータベース作成が困難だからです。

ディープラーニングでは、コンピューターにたくさんのニューラルネットワークを形成させます。ニューラルネットワークとは人間の神経を真似したネットワーク構造のことです。そのようなネットワークが多層構造をとっている。そして、コンピューターはデータベースをもとにニューラルネットワークを形成していきます。そのためには、データベースの規模はできるだけ大きくしなければなりません。そして、ここが重要な点ですが、データベースの情報に適切な「注釈」をつける必要があります。これが難しいのです。どういうことか見ていきましょう。

人工知能のデータベース

データベースは大きくなければならない。そして、データベースに入力する情報には適切な注釈をつけなければならない。この２つの条件をクリアしてはじめて人工知能に有用なデータベースとなります。

じつは、最近になって人工知能のデータベース作成の難易度は下がってきました。Amazon Mechanical Turkのようなクラウドソーシングサービスのおかげです。人工知能を研究するチームはクラウドソーシングサービスを利用して人々にデータベース作成を依頼できるようになったのです。

ここで、具体的にどのようにデータベースを作成するのか、人間の顔を認識する人工知能を例にとってご説明しましょう。

データベースに入力する情報は人間の顔が写った写真です。そして、データベースを作成する人々がおこなうのが注釈をつける作業です。この場合、注釈をつけるとは写真に写っている人間の顔を囲むボックス線を引くことです。写真に写っている様々な構図やポーズの顔をボックス線を引いてコンピューターに教えてあげるわけですね。

人間の顔が写った写真と、人間の顔を囲ったボックス線。情報と注釈です。これらが大量に入力されることで、コンピューターが人間の顔を認識するために必要なデータベースができあがります。人工知能はデータベースをもとに判断基準を確立させていくのです。

言語処理のためのデータベース

さきほど、人間の顔を認識する人工知能のデータベースについてご説明しました。データベースの情報に注釈をつける作業はクラウドソーシングサービスを利用して人々に依頼できましたね。

しかし、写真ではなく記述された言語に注釈をつける作業となると難易度がはるかに高くなります。言語処理のためのデータベースでは大量の文章が情報として入力されて、文章の内容を適切にまとめたセンテンスが注釈となります。

もちろん文章のなかで重要な箇所を含んだセンテンスを抽出することは誰でもできます。しかし、そのように抽出したセンテンスは役に立ちません。コンピューターのアルゴリズムがすぐに同じセンテンスを文章のなかに発見してしまうからです。

言語処理のための注釈は、文章のなかには登場しないセンテンスによって、文章の内容を適切に記載しなければいけません。コンピューターのアルゴリズムは文章の内容を理解するために文法的な関連性や因果関係を認識する必要があるからです。単純に文章内に登場するワードやセンテンスを発見するだけでは不十分なのです。

言語処理のためのデータベースを作成するのが困難な理由は、一般的に人間は文章に適切な注釈をつける能力が乏しいからです。言語処理においては、データベースの情報に注釈をつける作業には編集者のようなスペシャリストの力が必要になります。

CNNとデイリー・メールのオンラインニュース記事はデータベースにうってつけ

CNNとデイリー・メールのオンラインニュース記事はデータベースにうってつけだそうですが、まずはこれまでの話をまとめてみましょう。

人工知能はデータベースをもとに判断をするので、人工知能の学習にはデータベースの作成が必要
人工知能が判断基準を確立させるために、データベースはできるかぎり大きな規模かつ適切な注釈がつけられなければならない
言語処理において、データベースの情報に注釈をつける作業は難易度が高く、編集者のようなスペシャリストでもないかぎりその作業は難しい

結論としては、人工知能による言語認識においてはデータベースの作成が非常に困難であるということですね。編集者のようなスペシャリストによる適切な注釈が必要なうえに、データベースの規模も大きくないといけない。これが人工知能が言語認識の分野で苦戦している理由です。

ここでようやく冒頭のイーロン・マスクのリツートに話が戻ります。彼がリツートした記事によると、CNNとデイリー・メールのオンラインニュース記事を用いて人工知能に言語認識を学習させるとのこと。GoogleのディープマインドチームはCNNとデイリー・メールのオンラインニュース記事が人工知能の言語認識のためのデータベースに理想的だと言います。

どういうことかというと、CNNとデイリー・メールのウェブサイトでは、記事の内容を簡単にまとめたものが箇条書きになってニュース記事につけられています。さきほど僕がこれまでの話を箇条書きにしてまとめましたが、ああいった感じです。ディープマインドのKarl Moritz Hermannは語ります。

CNNやデイリー・メールの箇条書きのまとめでもっとも重要なのは、それらが抽象的であり、ドキュメントから単純にコピーしたわけではないという点です。

Google DeepMind Teaches Artificial Intelligence Machines to Read | MIT Technology Review

記事の内容を箇条書きにまとめているのはプロの編集者です。これ以上ない適切な注釈ができているということですね。それに、CNNとデイリー・メールのウェブサイトに公開されてきたオンラインニュース記事は膨大な量にのぼるので、データベースの規模的にも問題ありません。まさに言語認識のためのデータベースとしてうってつけ。ディープマインドチームによる素晴らしい発見ですね。これから人工知能による言語認識の分野で飛躍的な発展が見込めるでしょう。

もちろん課題も残されています。オンラインニュース記事は当然ジャーナリスティックな文章です。つまり、かなり限定的な文章構造をとっているということ。一般的な自然言語認識とは文章構造が異なります。現在のところ、文章構造の違いがどういう影響を及ぼすのかわかってはいません。ただ、オンラインニュース記事を用いたデータベースの作成は、人工知能の言語認識の分野で大きな一歩となるのは間違いありません。

Googleのラリー・ペイジはイーロン・マスクの親しい友人です。それでも、いぜんイーロン・マスクはラリー・ペイジが意図せず人類を滅ぼす人工知能を作ってしまう可能性があると述べています。今回ご紹介したように、Googleの人工知能研究はますます盛んになっています。イーロン・マスクが恐れる事態を回避できるといいですね。これからもGoogleの人工知能研究から目が離せません。

参考

&amp;lt;a href=”http://www.technologyreview.com/view/538616/google-deepmind-teaches-artificial-intelligence-machines-to-read/” data-mce-href=”http://www.technologyreview.com/view/538616/google-deepmind-teaches-artificial-intelligence-machines-to-read/”&amp;gt;Google DeepMind Teaches Artificial Intelligence Machines to Read | MIT Technology Review&amp;lt;/a&amp;gt;www.technologyreview.com

ELON最強の英語学習法