この記事でわかること
この記事では、機械学習で頻繁に問題になる 過学習(オーバーフィッティング)について、 「なぜ起きるのか」「なぜ失敗につながるのか」 を初学者向けに丁寧に解説します。
AI-900試験で問われる モデル評価・汎化性能の理解を、 例えと構造で確実に身につけることが目的です。
過学習とは何か
過学習(Overfitting)とは、 学習データに対しては非常に高い精度を出すが、未知のデータでは性能が急激に落ちる状態 を指します。
簡単に言えば、 「覚えすぎてしまったAI」です。
なぜ「精度が高い」のに失敗なのか
多くの初心者が混乱するポイントは、 次の点です。
- 学習データでは正答率95%
- なのに実運用では全然当たらない
これはAIが パターンを理解したのではなく、答えを暗記しただけ だからです。
人間に例えると一瞬でわかる
過学習は、人間の学習に例えると非常に分かりやすくなります。
- 問題集の答えを丸暗記
- 本番のテストで少し問題が変わると解けない
この状態が、AIにおける過学習です。
過学習が起きる主な原因
① 学習データが少なすぎる
データ量が少ないと、 モデルは偶然の特徴まで学習してしまいます。
結果として、 「たまたま当たったルール」を 本質だと勘違いします。
② モデルが複雑すぎる
モデルの構造が複雑すぎると、 データの細部まで無理やり合わせにいきます。
これは 必要以上に細かいルールを作ってしまう 状態です。
③ 学習データに偏りがある
特定の条件に偏ったデータで学習すると、 その条件以外に弱いモデルになります。
過学習と「汎化性能」の関係
AI-900で重要なキーワードが 汎化性能(Generalization)です。
汎化性能とは、 未知のデータに対しても正しく予測できる能力 のことです。
- 過学習している → 汎化性能が低い
- 適切に学習している → 汎化性能が高い
AI-900では、 「良いモデル=汎化性能が高いモデル」 と理解しておきましょう。
過学習しているかを見抜く方法
最も基本的な見抜き方は、 学習データとテストデータの精度を比較する ことです。
| 状態 | 学習データ精度 | テストデータ精度 |
|---|---|---|
| 良好 | 高い | 高い |
| 過学習 | 非常に高い | 低い |
過学習を防ぐ代表的な考え方(AI-900レベル)
AI-900では 具体的なアルゴリズム までは問われません。
重要なのは 考え方です。
- 学習データを増やす
- 偏りのないデータを集める
- 複雑すぎるモデルを避ける
- テストデータで必ず評価する
AI-900試験での典型的な出題パターン
以下のような設問が頻出です。
- 学習データでは高精度だが本番で失敗 → 原因は?
- 未知データで性能が落ちる理由は?
- モデル評価に使うべきデータは?
答えの軸は常に 過学習/汎化性能 です。
まとめ
- 過学習とは「覚えすぎたAI」の状態
- 学習データでは良くても実務では失敗する
- 原因はデータ不足・偏り・モデル過剰
- 重要なのは未知データへの対応力(汎化性能)
- AI-900では超重要キーワード
過学習を理解すると、 なぜAIは失敗するのか が論理的に説明できるようになります。
