学習データとテストデータの違い|Azure AI-900対策

  • URLをコピーしました!
目次

この記事でわかること

この記事では、機械学習における 学習データとテストデータの役割の違いを、 初学者でもイメージできるように解説します。 AI-900試験で頻出の「評価の考え方」を理解することが目的です。

なぜデータを分ける必要があるのか

機械学習では、 AIがどれだけ賢くなったかを正しく判断する必要があります。

もし「覚えた問題」だけでテストしたら、 本当に理解しているのか、 ただ暗記しているだけなのかが分かりません。

そのため、 学習用のデータ評価用のデータを分けます。

学習データとは何か

学習データ(Training Data)とは、 モデルに知識を覚えさせるためのデータです。

教師あり学習の場合、 次のような形になっています。

  • 入力データ(特徴量)
  • 正解データ(ラベル)

例:迷惑メール判定

  • メール本文 → 入力データ
  • 迷惑/通常 → 正解ラベル

モデルは、 このデータを使って 「どういう特徴が迷惑メールか」 を学びます。

テストデータとは何か

テストデータ(Test Data)とは、 学習が終わったモデルを評価するためのデータです。

重要なのは、 学習では一切使っていないデータ であることです。

これにより、 「初めて見るデータに対しても正しく判断できるか」 を確認できます。

学習データとテストデータの役割の違い

項目学習データテストデータ
目的モデルを賢くするモデルを評価する
使用タイミング学習時学習後
正解ラベル使う評価のために使う
AI-900重要度非常に高

分けないと何が問題なのか

学習データだけで評価すると、 次のような問題が起きます。

  • 精度が異常に高く見える
  • 実際の業務で使えない
  • 試験では誤りとして扱われる

これは 過学習(オーバーフィッティング) と呼ばれる状態です。

AI-900での出題ポイント

AI-900では、 次のような形で問われます。

  • モデル評価に使うのはどのデータか
  • 精度測定に学習データを使うのは正しいか
  • 新しいデータへの汎化性能とは何か

答えとして重要なのは、 「テストデータで評価する」 という点です。

イメージで理解する(試験向け)

学校のテストに例えると分かりやすいです。

  • 教科書・問題集 → 学習データ
  • 本番試験 → テストデータ

問題集の答えを覚えても、 本番で解けなければ意味がありません。

まとめ

  • 学習データはモデルを作るためのデータ
  • テストデータはモデルを評価するためのデータ
  • 評価には必ず学習に使っていないデータを使う
  • AI-900では頻出の超重要概念

この違いを正しく説明できれば、 AI-900の機械学習分野でつまずくことはありません。

目次