人間の誤報率を越えたLLM─ハルシネーションのランキング徹底解読

AI活用ブログ
AI活用ブログ

もう“AIのデタラメ”で笑えない──トップモデルが示す事実忠実度の現在地

生成AIがビジネスの中枢に浸透する今日、「AIは平気でウソをつく」という懸念は多くの実務者を悩ませてきました。しかし、最新のハルシネーション(虚偽生成)調査が示す数字は驚くべきものです──上位モデルの誤答率はわずか1%未満に到達し始めています。

本稿では、Vectara社の「Hallucination Leaderboard」を通じて、最新AIモデルの”正直さ”を数値で検証します。どのモデルがどれほど事実に忠実なのか、そして依然として残る課題と実践的対策を、最新データに基づいて解説します。

この記事の内容は上記のGPTマスター放送室でわかりやすく音声で解説しています。


最近「社外に出せないデータで生成AIを使いたい」という相談をよく聞きます。ChatGPTの利用は社内で禁止されているそうです。セキュリティやコスト面が気になる企業には、社内のローカル環境で動かせる仕組みがあることはご存知ですか?

LLMの「知能」は平均IQ100を超えた—では“正直さ”は?

OpenAIのGPT‑4oやGoogle Gemini‑2.0は、言語理解と推論で人間平均を凌駕したと喧伝されます。しかし、現場で問題になるのは「どれだけ賢いか」よりも「どれだけ事実に忠実か」です。

実際、ChatGPTが自信満々に架空の法律条文を作り上げる例は後を絶ちません。背景には、LLMが単語列の尤度を最適化する仕組みがあり、「もっともらしい文章」が「真実」と一致しないケースが必ず生まれるという構造的問題があります。

したがって“平均IQ超え”という定量指標だけで安全性を語るのは早計であり、別軸—ハルシネーション率—での評価が欠かせません。

ハルシネーションとは何か、なぜ起こるのか

ハルシネーションとは「入力で与えられた事実を裏切る生成」を指します。要因は大きく二つあります。

第一に学習データの曖昧さです。訓練コーパスに矛盾情報が混在すると、モデルはどちらも“正答”として学習します。

第二に確率モデルの性質です。温度設定を0(完全決定論)にしても、トークン予測は確率分布に従うため、低確率ながら誤情報を選ぶ可能性が消えません。加えて、長文生成時には誤トークンが次の誤トークンを呼び込む“雪崩”が起きやすくなります。

つまり、ハルシネーションはバグではなく確率的必然であり、検出と抑制を外部で補う設計思想が前提になります。

最新ハルシネーションランキング(2025年4月29日時点)

以下が、ハルシネーションの発生が低い順のランキングです。

ランキングモデル名ハルシネーション率
1Google Gemini-2.0-Flash-0010.7%
2Google Gemini-2.0-Pro-Exp0.8%
3OpenAI o3-mini-high0.8%
4Vectara Mockingbird-2-Echo0.9%
5Google Gemini-2.5-Pro-Exp-03251.1%
6Google Gemini-2.0-Flash-Lite-Preview1.2%
7OpenAI GPT-4.5-Preview1.2%
8Zhipu AI GLM-4-9B-Chat1.3%
9Google Gemini-2.0-Flash-Exp1.3%
10Google Gemini-2.5-Flash-Preview1.3%
11OpenAI o1-mini1.4%
12OpenAI GPT-4o1.5%
13Amazon Nova-Micro-V11.6%
14OpenAI GPT-4o-mini1.7%
15OpenAI GPT-4-Turbo1.7%
16Amazon Nova-Pro-V11.8%
17OpenAI GPT-41.8%
18Google Gemini-2.0-Flash-Thinking-Exp1.8%
19Amazon Nova-Lite-V11.8%
20OpenAI GPT-3.5-Turbo1.9%
21XAI Grok-21.9%
22OpenAI GPT-4.1-nano2.0%
23OpenAI GPT-4.12.0%
24XAI Grok-3-Beta2.1%
25Qwen3-14B2.2%
25OpenAI GPT-4.1-mini2.2%

Vectaraは独自のHHEM‑2.1(Hughes Hallucination Evaluation Model)を用い、各LLMに1000件のニュース記事を温度0で要約させ、元記事との整合性を自動判定しています。回答拒否などで全モデルが処理できたのは831件です。

その831サンプルについて「事実一致率」と「ハルシネーション率(100−一致率)」を算出し、低い順に並べたものがランキングです。

生成文の長さや回答率も併せて公開され、RAG用途で重要な“拒否しないか”も確認できます。つまり「与えた情報を要約させたときにどれだけ嘘を混ぜるか」を横並びで比較できるデータベースであり、チャットQAの忠実度を占う優秀なリトマス試験紙と言えます。

トップ20モデルは“誤答率2%未満”の現実

2025年4月29日時点のランキングが示す驚異的な事実——上位20モデルすべてがハルシネーション率2.0%以下を達成したのです。首位のGemini‑2.0‑Flash‑001はわずか0.7%、Gemini‑2.0‑Pro‑ExpとOpenAI o3‑mini‑highも0.8%と僅差で続きます。注目すべきは、業界標準のOpenAI GPT‑4oが1.5%、かつて”嘘つき”と揶揄されたGPT‑3.5‑Turboですら1.9%に抑え込んでいる点でしょう。

人間がニュース要約で犯す事実誤りが数%〜10%と報告されることを踏まえると、数字上は「人間より正確」が現実味を帯びてきました。もっとも、この評価は「元記事が手元にある」要約タスクでの話です。汎用QAや未来予測といった外的基準のない質問では依然として誤情報が紛れ込みます。したがって「2%以下=無害」という誤解は禁物です。

FaithJudge登場――評価指標そのものの“進化競争”

実はハルシネーション検出も進化中です。2025年5月発表の論文「FaithJudge」は、HHEMに替わるLLM-as-a-Judge方式で判定精度を向上させたと報告しています。人手でラベル付けした少量データを用い、GPT‑4oやClaude‑3.5を“審査員”に仕立てることで、人間評価との一致率を大幅に引き上げたというのです。

Vectaraは同方式を組み込んだ「FaithJudge Leaderboard」も併設予定で、今後ランキングが入れ替わる可能性が高まります。つまり、モデルの忠実度が競争する一方で、評価メトリクスも競争しているという二重のレースが進んでいるのです。

実務で活用できる5つのハルシネーション対策

  1. RAG+引用表示 — 参照文書のURLや抜粋を併記し、ユーザーによる事実確認を可能にする
  2. ドメイン制御プロンプト — 回答範囲を組織ドキュメントや最新DBに限定し、不確かな外部知識を排除
  3. 二段階検証 — 別モデルまたは同モデルの低温度設定でクロスチェックし、不一致は人手審査へ
  4. 確率メタデータの活用 — 生成トークンの確率値やHHEMスコアを監視し、閾値超過時に警告
  5. 継続的モニタリング— モデル更新時に社内データで再評価し、性能劣化時は自動ロールバック

これらはコストに見合うだけの信頼性向上をもたらし、「AIが勝手に嘘をついた」事故を未然に防ぎます。

ガバナンス時代のモデル選定指針

最後に、企業がモデルを選ぶ際のチェックリストを整理します。

  1. ハルシネーション率:Leaderboard上位か、社内ベンチで2%以下であること。
  2. 回答拒否率:顧客応答や自動化タスクでは“沈黙”が最大のコストになるため、低いこと。
  3. デプロイ形態:Gemini Flash系の低レイテンシか、o3‑miniのオンプレ提供かを確認すること。
  4. 追跡可能性:出力にソースIDや内部リンクを埋め込めるかどうか。
  5. ライセンス・料金:低コストモデルでも忠実度が十分ならTCOが下がること。

もはや「最先端だからGPT‑4」といった単純比較の時代は終わりました。**事実忠実度という新たな“性能の物差し”**でAIガバナンスを語るステージに入りました。ハルシネーションを測定し、制御し、ビジネス価値へ転換できる企業が次の勝者になります。

ハルシネーションランキング:まとめ

ハルシネーション率が2%を切ったとはいえ、AIの“完全無謬”はまだ遠い現実です。しかし、数字は確実に縮まり、信頼コストは劇的に低下しつつあります。

嘘を完全に排除するのではなく、「嘘を見つけ、扱うフレーム」を組織に実装できるかどうか——今後のAI戦略の成否はその一点に集約されます。AIはすでに“賢さ”で驚く段階を越え、「どれだけ正直か、正直でないときにどう補うか」を問われるプロダクトになりました。本稿が、その設計図を描く一助となれば幸いです。

↑↑↑
この記事が参考になりましたら、上の「参考になった」ボタンをお願いします。

会社ではChatGPTは使えない?情報漏洩が心配?

ある日本企業に対する調査では、72%が業務でのChatGPT利用を禁止していると報告されています。社内の機密情報がChatGPTのモデルに学習されて、情報漏洩の可能性を懸念しているためです。

そのため、インターネットに接続されていないオンプレミス環境で自社独自の生成AIを導入する動きが注目されています。ランニングコストを抑えながら、医療、金融、製造業など機密データを扱う企業の課題を解決し、自社独自の生成AIを導入可能です。サービスの詳細は以下をご覧ください。

いますぐサービス概要を見る▶▶▶
この記事をシェアする
監修者:服部 一馬

フィクスドスター㈱ 代表取締役 / ITコンサルタント / AIビジネス活用アドバイザー

非エンジニアながら、最新のAI技術トレンドに精通し、企業のDX推進やIT活用戦略の策定をサポート。特に経営層や非技術職に向けた「AIのビジネス活用」に関する解説力には定評がある。
「AIはエンジニアだけのものではない。ビジネスにどう活かすかがカギだ」という理念のもと、企業のデジタル変革と競争力強化を支援するプロフェッショナルとして活動中。ビジネスとテクノロジーをつなぐ存在として、最新AI動向の普及と活用支援に力を入れている。

Chat Icon
タイトルとURLをコピーしました