はじめに
昨今”AI”や”機械学習”という単語を聞いたことある方は多いと思いますが、“アノテーション”という単語はご存知でしょうか。
実は機械学習を行う上で1、2位を争う重要な作業になりますので、今回はそんな“アノテーション”についてお話ししたいと思います。
機械学習とは?
“Annotation”を語る前に機械学習とは何かをご説明します。
機械学習とは以下のように定義されています。
(リンク先には”AI”と”機械学習”と”ディープラーニング”との違いも分かりやすく書いてあるので、違いが不明瞭な方は是非ご参考下さい。)
データから規則性や判断基準を学習し、それに基づき未知のものを予測、判断する技術
総務省 ICTスキル総合習得プログラム 3-5 人工知能と機械学習 より抜粋
例えばコンピューターに大量の猫の画像を学習させると、コンピューターが猫の特徴を認識し、
未知の画像に対しても猫か否かを判断してくれるようになるのです。
2012年と古い記事になるのですが、実際にGoogleがコンピューターにYoutube動画を1週間機械学習させ、
猫の特徴を学習させる事に成功しています。
学習した猫の特徴を可視化した画像
Using large-scale brain simulations for machine learning and A.I.より抜粋
我々人間が見ても猫と認識出来るほど、特徴を良く捉えていますね。
しかもこの学習の凄いところは”教師データ”なしで実施された点です。
機械学習を行うためには入力(データ)が必要です。
そして入力の状況により、学習方法が大きく3つに分かれています。
教師あり学習
画像データ(※)と共に画像データの情報をセットにして学習させる方式です。
例えば猫が写っている画像と共に”これは猫の画像”という情報をセットで学習させます。
ここで使われる”画像データの情報”が”教師データ”と呼ばれるものになります。
※実際は画像データに限りませんが、分かりやすさを考慮して画像データとしています。

教師なし学習
教師あり学習と異なり、画像データ以外に入力するデータはありません。
従ってコンピューターは画像の特徴を学習していき、画像をグルーピングしていきます。
ただし、あくまでグルーピングをするだけで、コンピューターはそれが何なのかは分かっていません。
つまり前述のGoogleの猫も、正確に言うならコンピューターは猫と認識しておらず、あるグループに仕分けしたに過ぎません。

強化学習
こちらは試行錯誤を通じて報酬(評価)が得られる行動を学習する方式です。
オセロの強化学習であれば、各盤面でたくさん石が取れた=報酬(評価)が高い手、
負けた=報酬(評価)が低い手といった学習を延々と試行錯誤していきます。
“アノテーション”とは?
ではやっと本題の”Annotation”です。直訳すると”注釈”、IT分野においては主に”情報付与”といった意味になります。
そして殊AI分野では”データへのタグ付け”を意味します。
“データへのタグ付け”とは”そのデータが持つ情報を付与する作業”です。
と言われてもピンと来ない方が多いと思いますので、例をあげて考えてみましょう。
人物が写った写真を思い浮かべて下さい。
その人物の頭や腕といった領域に対して「人」や「腕」といったタグを付ける、
はたまた写真全体に対して「これは○○さんの写真」といったタグを付ける、
このようなタグ付け作業の事を”データへのタグ付け”や”アノテーション作業”と言います。
つまるところ、教師あり学習で使用した教師データを作成する作業の事を”アノテーション作業”と呼ぶのです。
アノテーションの”種類”とは?
一口にアノテーションといっても対象となるデータも手法も様々です。
詳細はまたの機会に説明しますので、ここでは代表的な手法について軽くご紹介しておきます。
# | 名前 | 対象 | 内容 |
![]() |
ファイル分類 | 全般 | ファイルを種類ごとに分類する |
![]() |
バウンディングボックス | 画像 | 対象を四角で囲い、領域分割する |
![]() |
セグメンテーション | 画像 | 対象ピクセル単位で領域分割する |
![]() |
キーポイント | 画像 | 関節などの点を付与する |
![]() |
文字起こし | 音声 | 音声から文字を書き起こす |
![]() |
感情のタグ付け | 音声、テキスト | 喜怒哀楽などの感情情報を付与する |
必要な教師データの”件数”とは?
さて機械学習では、どの程度の教師データが必要になるでしょうか。
学習内容によるので一概には言えませんが、一般的な学習内容であれば数千件〜数十万件の教師データが必要になります。
膨大な量のデータに対してアノテーション作業を行い教師データを作成する訳ですから、
必然的にアノテーション作業に時間が掛かってしまいます。
仮に1枚に付き30分のアノテーション作業で教師データが作成出来るとし、
それを1万件用意するとなると単純計算で5,000時間もの作業時間が必要です。
そのためAIの開発を行う企業では、教師データ作成を専門業者に依頼し、自社はモデル開発に専念するといったケースが多いです。
少し横道に逸れますが、”Data Augmentation”(データ拡張)と呼ばれる教師データを水増しする技術などを用いて必要数を減らす事は可能です。
ただしこの技術は既存のデータを加工して水増しデータを作成するため、
過学習(学習したデータに特化してしまい、未知のデータに対して誤回答してしまう問題)のリスクがあります。
データ拡張を利用する場合は教師データ数、水増し数、学習数のバランスをとりながら実施することをお勧めします。
教師データの”質”とは?
機会学習をする上で、教師データの件数も重要ですが併せて”質”も重要なファクターになります。
人が写っている写真なのに動物に分類されている、人の頭に四角を付けるはずなのに肩まで四角が付いてしまっているなどの
不正確なデータが存在すると効率の悪い学習となってしまいます。
不正確なデータが少ない場合はノイズとして処理され、学習効率が下がるだけで済みますが、
最悪の場合はノイズとして補正仕切れずに誤った結果を出すAIが生まれてしまうことになります。
そのような悲劇を起こさずに、また効率の良い学習をする上でも教師データの質には気を配る必要があります。

まとめ
機械学習には”教師データ”が必要不可欠です。
故に”教師データ”を作成するための”アノテーション”作業は非常に重要だと言う事がお分かり頂けたと思います。
今回はざっくりアノテーション作業の触りだけご説明しましたが、次回は各アノテーション作業をより掘り下げたご説明をしたいと思います。
ここまでお読み頂きありがとうございました。また次回も宜しくお願いします。