AIの「幻覚」はかつてないほど悪化している。幻覚率ランキング1位のAIモデルは?(生成AIクローズアップ)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、チャットボットAIの精度が日進月歩で向上している一方で悪化している「幻覚」(ハルシネーション)の現状についてを取り上げたいと思います。

チャットボットAIの出力に事実とは異なる内容が書かれているのが幻覚と呼ばれる現象です。AIの推論能力が向上したはずの最新モデルで、むしろこの誤りが増加していることが複数の調査で示されています。

OpenAIの最新の技術報告書では、具体的な数値が示されています。2025年4月にリリースされたo3モデルは33%、o4-miniモデルは48%という高い幻覚率を記録しました。これに対し、2024年後半にリリースされたo1モデルは16%でした。つまり、最新モデルでは約2~3倍もハルシネーションが増えているのです。

Vectaraの調査結果によると、DeepSeek-R1はDeepSeek-V3よりも多くの幻覚を起こすことが判明しました。DeepSeek-R1の幻覚率は14.3%で、前モデルのDeepSeek-V3の3.9%と比較して約4倍高いことがわかりました。

同社が開発した「幻覚リーダーボード」(Hallucination Leaderboard)によると、2025年4月29日時点での幻覚率ランキングは次の通りです。これは、LLMが文書を要約する際に幻覚がどの程度発生するかを評価するものです。

▲幻覚率が少ないトップランキング

▲幻覚率が多いワースト部分だけを切り取った表(左から2番目が幻覚率)

なぜ幻覚が悪化するのかを同社が調べた結果、R1の幻覚の多くは「良性の幻覚」であることがわかりました。これは元のテキストには含まれていないものの、一般的な知識や常識、論理的推論によって支持される情報を追加するケースです。

検証のため、50のサンプルペアを人間の注釈者によって評価した結果、R1の出力の46件が幻覚として分類され、そのうち33件(71.7%)が良性の幻覚でした。一方、V3は19件のみが幻覚として分類され、良性の幻覚の割合も36.8%と低くなっています。

このことから、R1は「過剰に親切」な傾向があり、原文に厳密に従うよう指示されていても、関連性があると判断した情報を追加していると考えられます。

このような状況の中で同社は、幻覚問題に対処する幻覚補正ツール「Vectara’s Hallucination Corrector」(VHC)を発表しました。VHCはAIが生成した要約と元のソーステキストを比較し、事実と一致しない記述を特定します。単に問題を検出するだけでなく、修正案も提供します。

《山下裕毅(Seamless)》

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。