この記事でわかること
この記事では、自然言語処理(NLP)の重要機能である エンティティ認識(Entity Recognition / NER)について、 AI-900(Azure AI Fundamentals)の試験範囲に沿って解説します。
感情分析やキーフレーズ抽出との違いを整理しながら、
AIが文章中の固有名詞や意味のある情報を どのように識別しているのかを理解できる構成になっています。
エンティティ認識(NER)とは何か
エンティティ認識とは、 文章の中から「意味を持つ固有表現」を抽出し、種類ごとに分類する技術 です。
ここでいうエンティティ(Entity)とは、例えば以下のような情報です。
- 人名(Person)
- 地名(Location)
- 組織名(Organization)
- 日付・時刻
- 金額・数量
AIは単に単語を抜き出すだけでなく、 「これは人の名前」「これは場所」という 意味づけまで行います。
エンティティ認識の具体例
次の文章を例に考えてみましょう。
「2024年4月に、田中太郎さんが東京でMicrosoftのイベントに参加した」
AIはこの文章から、次のようなエンティティを抽出します。
- 2024年4月 → 日付
- 田中太郎 → 人名
- 東京 → 地名
- Microsoft → 組織名
このように、 文章の意味構造を整理する役割 を担っているのがエンティティ認識です。
キーフレーズ抽出との違い
エンティティ認識とキーフレーズ抽出は混同されやすいため、 違いを明確にしておくことが重要です。
| 項目 | エンティティ認識 | キーフレーズ抽出 |
|---|---|---|
| 目的 | 固有表現の識別と分類 | 重要語句の抽出 |
| 出力 | 人名・地名・組織名など | 話題の中心となる語句 |
| 意味付け | あり(種類を判定) | なし(重要度のみ) |
AI-900では、 「意味を分類するかどうか」 が大きな判断ポイントになります。
エンティティ認識の活用例
- 問い合わせ内容から人名・製品名を抽出
- 契約書から日付や金額を自動取得
- ニュース記事の情報整理
- チャットボットでの情報理解
特に業務文書や問い合わせ対応では、 構造化データへの変換に大きく貢献します。
エンティティ認識が得意なケース・苦手なケース
得意なケース
- 明確な固有名詞が含まれる文章
- 一般的な人名・地名・組織名
- 定型的な文書
苦手なケース
- 略語やスラング
- 文脈依存の表現
- 造語や非常に専門的な名称
AIは万能ではなく、 学習データに依存する という点を理解しておくことが重要です。
Azure AI(AI-900)における位置づけ
AI-900では、 エンティティ認識は Azure AI Language の標準機能 として扱われます。
重要なポイントは、
モデルを自分で学習させなくても、APIとして簡単に利用できる
という点です。
「固有名詞を抽出したい」という要件があれば、 エンティティ認識を選ぶ、という判断ができることが 試験・実務ともに重要です。
試験で問われやすいポイント
- エンティティ=意味を持つ固有表現
- キーフレーズ抽出との違い
- 分類・要約との混同に注意
特に、 「人名・地名・日付を識別したい場合はどの機能か」 という問題は頻出です。
まとめ
- エンティティ認識は固有名詞を識別・分類する技術
- 文章の意味構造を理解するための重要なNLP機能
- Azure AI LanguageでAPIとして利用可能
- AI-900では用途の使い分け理解が重要
ここまで理解できていれば、 自然言語処理分野はかなり盤石です。
