目次
この記事でわかること
この記事では、機械学習における 学習データとテストデータの役割の違いを、 初学者でもイメージできるように解説します。 AI-900試験で頻出の「評価の考え方」を理解することが目的です。
なぜデータを分ける必要があるのか
機械学習では、 AIがどれだけ賢くなったかを正しく判断する必要があります。
もし「覚えた問題」だけでテストしたら、 本当に理解しているのか、 ただ暗記しているだけなのかが分かりません。
そのため、 学習用のデータと 評価用のデータを分けます。
学習データとは何か
学習データ(Training Data)とは、 モデルに知識を覚えさせるためのデータです。
教師あり学習の場合、 次のような形になっています。
- 入力データ(特徴量)
- 正解データ(ラベル)
例:迷惑メール判定
- メール本文 → 入力データ
- 迷惑/通常 → 正解ラベル
モデルは、 このデータを使って 「どういう特徴が迷惑メールか」 を学びます。
テストデータとは何か
テストデータ(Test Data)とは、 学習が終わったモデルを評価するためのデータです。
重要なのは、 学習では一切使っていないデータ であることです。
これにより、 「初めて見るデータに対しても正しく判断できるか」 を確認できます。
学習データとテストデータの役割の違い
| 項目 | 学習データ | テストデータ |
|---|---|---|
| 目的 | モデルを賢くする | モデルを評価する |
| 使用タイミング | 学習時 | 学習後 |
| 正解ラベル | 使う | 評価のために使う |
| AI-900重要度 | 高 | 非常に高 |
分けないと何が問題なのか
学習データだけで評価すると、 次のような問題が起きます。
- 精度が異常に高く見える
- 実際の業務で使えない
- 試験では誤りとして扱われる
これは 過学習(オーバーフィッティング) と呼ばれる状態です。
AI-900での出題ポイント
AI-900では、 次のような形で問われます。
- モデル評価に使うのはどのデータか
- 精度測定に学習データを使うのは正しいか
- 新しいデータへの汎化性能とは何か
答えとして重要なのは、 「テストデータで評価する」 という点です。
イメージで理解する(試験向け)
学校のテストに例えると分かりやすいです。
- 教科書・問題集 → 学習データ
- 本番試験 → テストデータ
問題集の答えを覚えても、 本番で解けなければ意味がありません。
まとめ
- 学習データはモデルを作るためのデータ
- テストデータはモデルを評価するためのデータ
- 評価には必ず学習に使っていないデータを使う
- AI-900では頻出の超重要概念
この違いを正しく説明できれば、 AI-900の機械学習分野でつまずくことはありません。
