近日リリース予定のDeep Learningによる画像認識を可能にする最も簡単なWebプラットフォーム「Labellio」のお知らせ

皆様、こんにちは。

本日はAlpacaで開発している近日リリース予定のDeep Learningによる画像認識を可能にする最も簡単なWebプラットフォーム「Labellio」（ラベリオ）についてのリリース予告をさせて頂きたいと思います。

f:id:alpacablog:20150626064523p:plain

Labellioは、Alpacaが提案する人口知能とヒトの新しいワークフローを体感できる最初のプロダクトです。Webサービスとなっており、最近話題になっている人工知能技術の一つである画像認識において、エンジニアではない方でも簡単に画像認識モデルを作成可能です。また、作成した画像認識モデルはご自分のプロダクトですぐにご利用いただけます。

なんとなく画像認識というと、大きなサーバを複数台利用して大量の計算を行い、時間をかけて学習を行って、やっと完成するのが従来のイメージでしたが、近年の機械学習の技術的ブレイクスルーの一つであるDeep LearningのFine Tuningという手法を利用することで、非常に高速かつ気軽に画像認識を実現することができるようになりました。この処理部分をクラウドのGPUを搭載したサーバで計算することで、Labellioは高速に処理を行っています。

今、認識させてみたいことがあれば、それをLabellioで「ラベルをつける」という動作を行うだけで簡単に画像認識ができるようになります。このラベルを付けるワークフローもサービスのポイントで、ぜひ体感いただきたい部分です。

今、人工知能分野でホットな部分は、急速に発達しつつある機能をどのようなに活用できそうかを考えることではないかと思います。例えば、以下のエントリーで紹介された画像の拡大ツールwaifu2xなどこれまでみたことのなかった面白いアプローチが生まれています。

<a href="http://ultraist.hatenablog.com/entry/2015/05/17/183436">二次元画像を拡大したいと思ったことはありませんか？ - デー</a>ultraist.hatenablog.com

Labellioを使えば手元の画像から画像認識の学習・テストを行うことができ、さらに作成したモデルはCaffe Modelとしてエクスポート可能で、画像認識の現状画像認識の代表的なツールであるCaffeで読み込むことが可能です。うまく活用すれば自分のWebサービスやアプリに画像認識機能を、これまでの何倍も手軽に実装できます。

このあたりのどのように自分のWebサービスやアプリでLabellioの結果を用いて画像認識を実装すればよいかも、弊社開発チームと調査し、ノウハウを皆様と共有していきたいと思います。

さて、せっかくですので、弊社で画像認識の得意な林にLabellioについて、何が得意そうで、何が不得意そうかをきいてきました。以下、林のコメントです。

正直やってみないとなんとも言えないというところはあるので、とにかくまずなんでも、手元に画像がたくさんあって、これ認識できるのかなーと思ったら、Labellioに突っ込んで試して欲しいです。「ラベルを付ける」作業自体をAIがサポートしてくれますので、２〜３０枚ラベル付けしたところで大体の感触はつかめると思います。

一番得意なところでは、犬や猫や机や椅子のような非常に一般的な物体、或いはその組み合わせで表現されるようなシーンの認識等ですかね。逆に不得意なところでは、画像から得られる視覚情報に加えて別の前提知識やロジックが必要になるようなことです。例えば、「１＋１＝２」「１＋１＝０」というような計算式が書かれた画像を入力して「正解」「不正解」のラベルをつけるようなケースは現在提供しているモデルでは上手く動きません。

コツとしては、まず視覚的に違いを判別するための特徴がちゃんと画像の中に含まれていることが大切です。それでまず数十枚試してみていい感じに学び始めればしめたもので、もし上手くいかなくても枚数を１００枚、１０００枚と増やしていくことで徐々に精度が向上していくこともあります。ただ１０００枚やっても未だダメだというときは、一度問題設定まで立ち返ったほうが良いかもしれません。また、基準を途中で変えてしまうと機械が混乱することがありますので、そういう場合も最初からやり直したほうが早く学習することがあります。もう一つ、画像のサイズについては、200x200px程度に縮小されても判別に必要な特徴が潰れてしまわないように、ターゲットとなる被写体や概念が画像中に十分大きく表示されていることも大切です。

ふむふむ、難しいことをいっていますが、なかなか参考になりますね。せっかくですので、CTOの原田にも聞いてみました。

当初のリリースでは一般物体認識モデルをベースとしているので、写真で物体が大きめに写っているものが一番得意になると思います。シーン認識や被写体がメインで写っているものが最も得意です。ただベースモデルは非常に柔軟なので、トレーニング次第で手書き画像やアイコン系のものにも対応させることができます。人物認識も弊社内では少なくとも十数人の認識に利用できることを確認しています。不特定多数の人間から特定の人を探すようなケースでは少し別のモデルも必要になってきますが、弊社内ではそちらも開発済ですので、そのうち皆さんに提供できるといいなと思っています。

とのことです。

来週のできるだけ早めにリリースしたいとスタッフ一同最終調整作業をしておりますので楽しみにお待ちください。Twitter/Facebookなども開始しておりますので、よろしければフォローください！