AIモデルは情報を捏造する可能性が最も低く、最も高い

最新のランキングによると、OpenAIの最新AIモデルは、Google、Anthropic、xAI、Metaといった競合モデルを凌駕し、事実を正確に捉えていることが明らかになった。このランキングでは、「幻覚率」、つまりこれらのAIモデルがどの程度の頻度で詳細を捏造しているかという点において、大きな違いが見られた。

この結果は、Vectara社のHughes Hallucination Evaluation Model (HHEM) Leaderboardによるもので、主要な大規模言語モデルにおける「幻覚的な要約の割合」を測定するものです。ChatGPTモデルは、Gemini、Claude、Grok、Meta AIを凌駕し、精度競争で上位にランクインしました。

事実が重要になるときのトップAIツールの優位性

Vectara社のHHEMリーダーボードは、AIモデルが実際のニュース記事を要約する際に事実に忠実に従うことができるかどうかを判定するために設計された大規模テストに基づいています。各AIモデルには同一の短い文書セットが与えられ、要約に元のテキストには含まれていない情報がどの程度含まれているかに基づいてスコアが付けられました。

AIモデルが回答を拒否した頻度を示す拒否率も追跡しました。条件は全面的に同一に保たれており、結果は、同じプレッシャーの下でどのAIツールが真実を最もうまく処理できるかを明らかにしています。以下に、それらのパフォーマンスをご紹介します。

オープンAI

OpenAI は、リーダーボード上で幻覚率が最も低い 5 つのうちの 1 つを保持しており、ChatGPT-o3 mini が 0.795% で、続いて ChatGPT-4.5、ChatGPT-5、ChatGPT-o1 mini、ChatGPT-4o が 1.2% から 1.49% の範囲に集まっています。

事実に基づいたChatGPT-5のデフォルトモデルとしてのデビューは、AI大手にとって大きな前進となりましたが、ユーザーから反発が起こり、ChatGPT-4oの復活が求められました。CEOのサム・アルトマン氏は折れ、Plus加入者がモデルを選択できるようにしました。

しかし、トレードオフがあります。無料ユーザーはGPT-5の上限に達すると、ChatGPT-5 miniに切り替わります。これにより精度が急激に低下し、幻覚率は4.9%とOpenAIのラインナップの中でも最高レベルに達します。つまり、得られる回答の信頼性が急激に低下する可能性があるのです。

グーグル

GoogleのGemini 2.5 Pro PreviewとGemini 2.5 Flash Liteのスコアはそれぞれ2.6%と2.9%でした。OpenAIのリーダーほど低くはありませんが、それでも最もリスクの高いモデルとはかなり差があります。Pro Previewは、かつて1.1%という最低スコアを記録していたGemini 2.5 Pro Experimentalの後継であり、現在は廃止されています。

人類学的

Anthropicの最新モデルであるClaude Opus 4.1とClaude Sonnet 4は、幻覚発生率がそれぞれ4.2%と4.5%です。これらのスコアは、ChatGPTやGeminiといった上位モデルを大きく下回り、エラーが発生しやすいモデルに分類されます。

メタ

Meta の LLaMA 4 Maverick と LLaMA 4 Scout の幻覚率はそれぞれ 4.6% と 4.7% で、Claude の最新モデルと同程度であり、このボード上で最も正確なパフォーマンスを示すグループの外にあります。

xAI

Grok 4は幻覚率が4.8%と高く、ランキングで最も精度の低いモデルの一つとなっています。イーロン・マスク氏は、この新しくリリースされたモデルが「人類最後の試験」で26.9%というスコアを記録したことを挙げ、「あらゆる分野のほぼすべての大学院生よりも賢い」と宣伝しています。

このチャットボットは、有害で不適切な出力結果についても批判にさらされています。高いエラー率と継続的なコンテンツ問題が相まって、Grokは事実に基づいた回答を提供するにはリスクの高い選択肢となる可能性があります。

AI時代の真実を追跡する

AIが間違った判断を下しても、正しく聞こえることがあります。そして、こうした作り話が気づかれずに事実を歪曲し、誤情報を拡散すると、医療、法律、金融、政治といった分野において深刻なリスクにつながる可能性があります。だからこそ、継続的で透明性のあるテストがこれまで以上に重要になっているのです。

VectaraのHHEMリーダーボードは、モデルの変更ごとに更新され、どのAIが進歩し、どのAIが遅れをとっているかをリアルタイムで追跡します。これらのシステムが検索、メッセージング、そして日常的なツールに深く浸透するにつれ、どのAIモデルが真実に最も近いかを知ることが、何を信頼すべきかを知ることにつながります。

OpenAI の GPT-5 を詳しく調べる際には、AI モデルの健康関連のベンチマークとガイドラインに焦点を当てます。