はじめに
前回は”アノテーション”の基礎についてご紹介しました。
今回は前回少しだけ触れた”アノテーションの種類”について、より詳しくご紹介します。
なぜアノテーションには様々な種類が存在するのか?
対象となるデータの種類(画像、音声、テキスト等)と学習内容に応じてアノテーションには様々な種類が存在します。
たとえば画像は視覚的に領域で分けられますが、音声は視覚的に分けられません。
この様に、対象となるデータ(画像、音声、テキスト等)に応じて
アノテーションの種類が異なるのは想像しやすいと思います。
では学習内容に応じてとはどういうことでしょうか?
たとえば、人物の写真の学習内容について考えてみます。
人物と背景を判別するモデルを開発する場合、
人間と背景を塗り分け、形と境界を厳密に学習させる必要があります。
一方で表情を判別するモデルを開発したい場合、眉毛の端と真ん中に点を打ち、
点を結んだ形を学習させる事で表情の認識は可能です。
この様に、学習内容や求める精度に応じて必要な情報(メタデータ)も異なるため、
それに応じてアノテーション方法、得られる教師データにも様々な種類が存在するというわけです。
上記の顔認識の例では、背景認識の例のように
眉毛とそれ以外の領域を厳密に塗り分けるといった手法でも勿論可能です。
しかし、点を結ぶだけのアノテーションに対して、領域の厳密な塗り分けは
アノテーションに掛かる時間、コストが圧倒的に増えてしまいます。
無駄なデータ作成コストを省くためにも、
開発するAIモデルの目的や必要な精度に応じて、適切なアノテーションを選択する必要があります。
アノテーションの種類
実際にどのようなアノテーションが存在するのか、抜粋してご紹介します。
画像分類
画像分類とはある画像がどのカテゴリーに属しているか分類するアノテーション手法です。
この画像は人物カテゴリー、この画像は動物カテゴリー・・・といったように画像ファイルをカテゴリー毎に振り分けることで、
ある画像がどのカテゴリーなのかを判別するモデルの作成が可能です。
特別なツールも必要とせずにただ画像をみてフォルダを振り分けるだけで作業は達成しますので、
アノテーション作業のコストとしては非常に低く済みます。
一方で注意しなければならないのは、1つの画像に対して1つのカテゴリーにしか振り分けられない点です。
つまり、人物と動物が同時に写っているような画像の正確な分類は難しく、
画像内の対象種類や位置が求められるケースでは、後述する矩形付与が適しています。
矩形付与
矩形付与とは画像内の対象となる物体を矩形(長方形)で囲うアノテーション手法です。
対象のカテゴリー毎に矩形のラベルを使い分けてアノテーションを行います。
この教師データを利用すると、画像内のどの位置に何があるのかを判別するモデルが作成可能です。
画像分類と比較すると、人物と動物か同時に写っていても問題なく分類する事が可能になっています。
しかし、矩形の内部にはどうしても対象以外の領域が含まれてしまいます。
対象以外の領域を含まない様な厳密な場所やカテゴリーが必要な場合は、後述するセマンティック・セグメンテーションが必要です。

セマンティック・セグメンテーション
“Semantic Segmentation”(セマンティックセグメンテーション = 意味的な分割)とは画像の1ピクセル毎にタグを付与するアノテーション手法です。
カテゴリー毎に色を塗り分ける(タグ付け)ケースがほとんどで、
元の画像に対して車は赤で人物は緑で背景は青で・・・といった具合に上塗りしてアノテーション作業を行います。
1ピクセル単位で領域を区別するので、場所やカテゴリーの判別が高精度で可能です。
自動運転など精度が要求されるシステムに採用される傾向にあります。
一方で、1ピクセル単位で塗り分けるという時間の掛かるアノテーション作業を要求される関係上、
アノテーション作業コストが非常に高くなるといったデメリットもあります。

キーポイント
キーポイントとは画像の対象に点を打つアノテーションです。
対象のカテゴリー毎にキーポイントを使い分けます。
例えば眉毛や目の形、全身の関節に点を打っていくような作業です。
物体を面として捉えるのではなく、線として認識する学習モデルとなるため、
主に姿勢制御や表情の認識などのシステムに使用される傾向があります。

文字起こし
文字起こしとは音声を聞いてテキストに書き起こす作業です。
裁判所などで速記をする仕事のデジタル版を想像していただけると解りやすいかと思います。
用途は主に音声認識モデルの学習です。
作業に特別なツールは必要無いですが、アノテーション作業コストは比較的高くなる傾向にあります。
理由としては、言語の関係上オフショア出来ないため、人件費の高い日本国内で作業を行う必要があるケースが多いためです。
まとめ
以下にご紹介したアノテーションをまとめます。
# | 名前 | 対象データ | 用途 | 専用ツール有無 | コスト |
![]() |
画像分類 | 画像 | カテゴライズ | 無し | 小 |
![]() |
バウンディングボックス | 画像 | 物体検知 | 有り | 中 |
![]() |
セグメンテーション | 画像 | 物体認識 | 有り | 大 |
![]() |
キーポイント | 画像 | 姿勢制御 | 有り | 中 |
![]() |
文字起こし | 音声 | 音声認識 | 無し | 中 |
(コストに関しては、画像の大きさや分類する種類数等に応じて増減します。あくまで参考程度にご認識下さい。)
今回の内容は以上です。
ご覧いただきありがとうございました。