Public に公開されているデータセットの紹介
AIを使って便利なものを作ってみたい、業務を効率化したい。そう考えていても、何から手をつけていいかわからない。そもそも、機械に学習させるべきデータが手元にない。そういった声はたくさん耳にします。AnnotationOne では、機械学習向けデータセット作成サービスとして、データのスクレイピングや、学習用データ自体をCGで作成してしまうといったサービスも展開しています。ですが、世の中には既にパブリックなデータセットとして公開されているものも存在しています。ここでは、公開されている既存データセットについて紹介していきます。
1: 文字データ
手書き文字のデータセット。一文字一文字が切り出されたデータセット。CC0ライセンスということで商用利用可能です。
科学論文のデータセット。商用利用は不可のようです。

崩した手書き数字、漢字のデータセット。商用利用可能です。

2: 一般物体認識
1400万枚のデータセット。クラス数(物体の種類)もかなり多い。各画像には鳥など特定の物体のみが写るように切り出された画像です。商用利用不可です。

CIFAR-10は10クラス(air plane, automobile, bird, cat, deer, dog, frog, horse, ship, truck)の物体識別用のデータセットで、各クラス6000枚の画像で構成されています。CIFAR-100は100クラス、各クラス600枚の画像からなります。ライセンスについての記述が見当たらないため商用利用は避けたほうが良いかもしれません。

3: 生物
ペットの画像のデータセット。37クラス、1クラスあたり200枚です(下図参照)。商用利用も可能です。

8000種以上の生物を撮影した画像からなるデータセット。画像数は45万枚におよびます。CC BY-NCという記載もあるため、商用利用は避けたほうが良いかもしれません。
4: ファッション
60,000サンプルの訓練セットと 10,000サンプルのテストセットで構成されています。クラス数は10、画像サイズは縦横それぞれ28画素のグレースケールと小さいな画像となってます。商用利用可能です。

・iMaterialist Challenge on fashion
100万枚を超えるカラー画像からなります。

・Large-scale Fashion (DeepFashion) Database
80万枚以上の画像に対して、50クラス(カテゴリー)、1000種類の属性を付与したものです。商用利用不可です。


商用利用の可否についても簡単に記載していますが、ライセンスについてはご使用になる際に改めて調査をお願いします。他にもいろいろデータセットがあります。次回も公開されているデータセットについて引き続き紹介する予定です。
紹介しているデータセットも有用なものばかりですが、実用化に向けた開発では独自でデータセットを構築したほうが良いでしょう。また、公開されたデータセットには含まれないような認識対象の場合は、独自で教師データを作ることが必須もちろん必須です。プロジェクトにあったデータセットを準備するようにしてください。