AIに関する研修・セミナーやEラーニングのカリキュラム作成といったお仕事を最近はずっとさせていただいていますが、結構影響を受ける話がありました。
Twitterが7月24日に発表した、API使用条件の変更などに関する話です。
こちらの記事によれば、9月10日以降は、
- ツイートとリツイート(合算値):3時間で300件
- いいね:24時間で1000件
- フォロー:24時間で1000件
- ダイレクトメッセージ:24時間で1万5000件
がAPIによる取得の上限となり、さらに新規のディベロッパーポータルへの登録と「登録に当たっては、APIの使用意図など詳細な情報を、英語(300文字以上)で説明することが必須」とのことだそうです。
いままでも開発者アカウントの登録(apps.twitter.com)が必要ではあったものの、それほど詳細な情報の入力は求められなかったため、取得上限の制限とともに、(特に英語の使えない日本人にとっては)自由に使いづらくなったといえるでしょう。
Twitter APIの使用条件が厳格化したからといって、その影響を受けるのはTwitterのサードパーティアプリくらいでは?と思う方もいるかもしれません。しかし、意外と影響を受けるのは機械学習の分野だと思います。
機械学習では大量のデータが基本的には必要となりますが、自然言語の分野においてはTwitterからツイートを取ってきて、それを機械学習の訓練データとしてしようすることは一般的に行われていると思います。特に、機械学習を学んでいる技術者などは、簡単に手に入る自然言語データとして価値があります。
そういえばIBM Cloudでも、Bluemixと言われていた頃にはTwitterからツイートを取ってきてくれるサービスが提供されていましたが、ずいぶん昔になくなりました。WatsonやPepperのハッカソンでも、Twitterのツイートを取得して云々・・・というネタはいくつか見かけました。
自然言語のデータは、画像とは異なり英語・日本語といった言語の種類によって使えるデータの制約を受けるため、データが手軽に集めづらいのです。特に日本語は公開されているデータがあまりなく(公開されていても学術目的で面倒な書類のやり取りをしないとダメといったケースが多い)、簡単なチュートリアルでも作るのは大変です。その中で、数少ない福音といって良かったのがTwitterだったんですがね・・・。
身近に使えるデータがなくなれば、それだけ機械学習の裾野の広まりは制限を受けざるを得ません。もちろん、いままでTwitterが寛大であっただけで、企業のポリシー変更をとやかくいえる立場にはないわけです。
ただ、今後、何を使っていけば良いのか、考える必要がでてきたことだけは間違いないでしょう。