「正解至上主義」が招くAIの嘘―ハルシネーションを減らす評価設計とは
生成AIは年々賢くなっていますが、「自信満々の間違い=ハルシネーション」という厄介な問題は残り続けています。本稿は、その原因がモデルの“能力不足”だけではなく、私たちの評価の仕方――とりわけ精度(正答率)だけを重視するスコアボード――に潜むインセンティブ設計の歪みにある、という視点を紹介します。
読むメリットは明快です。AI調達・内製化・活用の現場で、事故を減らし信頼を高めるための評価指標と運用設計の要点を具体的に持ち帰っていただけます。「正確さ」と同じくらい「謙虚さ」を測ることが、なぜビジネス価値に直結するのかを解説します。
ハルシネーションとは何か――“もっともらしい嘘”の正体

ハルシネーションは、言語モデルがあたかも事実のように見える誤情報を自信たっぷりに生成してしまう現象を指します。著者のひとりの学位論文タイトルや誕生日のような、検索すれば答えがあるはずの問いでも、モデルは一貫しない回答を返すことがあります。
ここで重要なのは、モデルが「知らない」と認める代わりに「推測」してしまう点です。企業利用の現場では、そうした推測が報告書、FAQ、自動応答などを通じて誤情報の連鎖を生み、クレームや法的リスクに発展します。つまり、ハルシネーションは単なる学術的課題ではなく、直接的に事業の信頼とコストに跳ね返る経営課題なのです。
なぜ精度だけの評価が“当てずっぽう”を促すのか
多くのベンチマークは正答率だけでモデルを並べます。しかし、この設計は人間の択一試験と同じく「わからなくても選べば当たるかもしれない」という行動を誘発します。AIにとって「空欄(=保留)」はゼロ点ですが、ランダムに答えれば僥倖で点が入る可能性がある。結果として、慎重に「わからない」と言えるモデルより、無謀に推測するモデルがスコアボード上で有利になります。
現場感覚に引き寄せれば、確信のない提案でも“とりあえず出す”方が評価される文化と同じです。この評価文化が続く限り、モデルは「誠実さ」より「当たりの多さ」を学び、ハルシネーションは構造的に温存されます。
数字が語るもの――“正答率が高い=安全”ではない
ある簡易QA評価の例では、Aモデルは正答率が24%、誤答率が75%、保留は1%。一方、Bモデルは正答率こそ22%とわずかに低いものの、誤答率は26%、保留は52%でした。一般的なリーダーボードではAが上位に来がちですが、企業利用で重要なのは「誤答の少なさ」です。Bは知らないときに半分以上“沈黙”できており、結果として致命的ミスを大幅に減らしています。
問い合わせ対応、医療・法務・金融のドラフト生成、社内検索のサマリなどでは、誤答が一件でも重大事故に転じるリスクがあります。評価は「当たった数」だけでなく「危険な外し方をどれだけ避けたか」を主指標にすべきです。
スコアボードの再設計――不確実性に“部分点”を
解決の方向性はシンプルです。確信を伴う誤答には強いペナルティを与え、適切な不確実性の表明には部分点を与える評価設計に切り替えます。
具体策として、
- 不確実性の自己申告(“I don’t know”や信頼度スコア)を評価対象に含める
- ネガティブマーク(誤答減点)で推測を抑制する
- キャリブレーション(自信と正答の整合)を主要KPIに据える
などが挙げられます。これは新しい発想ではなく、標準化試験の世界では古くからの手法です。重要なのは、精度偏重のメイン指標を置き換えること。周辺に「不確実性テスト」を添えるだけでは、開発者の最適化対象は依然として“当てずっぽうが得”な古いスコアのままです。
次単語予測という宿命――なぜ“低頻度事実”でつまずくのか
言語モデルは巨大なコーパスで次に来る語を当てる訓練を受けます。ここで学べるのは文法や綴り、括弧の対応といった反復性の高いパターンで、スケールを大きくすれば劇的にミスが減ります。
しかし、個別人物の誕生日や最新の固有名詞といった低頻度・非構造な事実は、分布からの推定だけでは本質的に当たりにくい。画像認識で“犬か猫か”は学べても、“そのペットの誕生日は?”には永遠に苦戦するのと同じです。事後の微調整(RL、指示追従)で改善はしますが、評価が推測を奨励する限り、モデルは「知らない」と言うより「最尤のそれっぽい答え」を返す行動に偏ってしまいます。
よくある誤解を正す――“大きければ安全”ではない
「精度が100%ならハルシネーションは消える」という主張は理屈では正しいものの、現実には回答不能な問いが一定割合存在し、100%には達しません。「ハルシネーションは不可避」という諦観も誤りです。モデルが不確実なときに保留できれば避けられます。
さらに「回避には巨大モデルの知能が必要」という思い込みも要注意です。むしろ“小さく賢明な無知”――例えば全く知らない言語の問いに「わからない」と言える――の方が、半端な知識で誤った自信を持つより安全です。
要は、精度(当てる力)とキャリブレーション(自信の整合)は別物であり、後者ははるかに軽い計算資源でも鍛えられるという点です。
企業導入への実務提言――“謙虚さを測るKPI”へ
現場に落とし込むなら、まず評価基準を刷新します。
①主要KPIに「誤答率」「保留率」「キャリブレーション誤差(予測確信度と実際の正答のズレ)」を追加し、正答率と等重みで扱う。
②ガードレールとして、未確認情報には根拠の提示か質問での差し戻しを義務化するプロンプト方針とUX(追質問ボタン、信頼度表示)を設計する。
③調達・内製のRFPでは、精度単独のスコアではなく“不確実性指標の合格ライン”を明記する。
④運用後は、誤答の重大度に応じたSLA/SLO(例:高リスク領域は誤答ゼロ、低リスクは保留増を許容)で運用チューニングする。
こうした「謙虚さ指標」を組み込むことで、ハルシネーションは“例外”から“検知・抑制可能な運用対象”へと変わります。
まとめ――正確さと同じだけ、誠実さを最適化する
ハルシネーションは神秘的なバグではなく、次単語予測と精度偏重の評価文化が招く必然です。だからこそ対策は明快で、評価の主役を「当てた数」から「安全に外せた数」へと移すことにあります。不確実性の表明に部分点を、確信的誤答に厳罰を――このシンプルな再設計が、モデル改良の方向性を変え、現場の事故率を下げ、AIの社会的信頼を底上げします。精度一本足から卒業し、「正確さ×誠実さ」を同時に最適化する。これが、生成AIをビジネスの基盤技術として使いこなすための次の一手です。
参考)https://openai.com/index/why-language-models-hallucinate/