医療AI、ベンチマークは優秀なのになぜ現場で使えないのか？　スタンフォード大学が医療AIの不都合を暴く（生成AIクローズアップ）

テクノロジー AI

2025 Sep 2 10:52

山下裕毅（Seamless）

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。

特集

医療AI、ベンチマークは優秀なのになぜ現場で使えないのか？　スタンフォード大学が医療AIの不都合を暴く（生成AIクローズアップ）

1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。

今回は、医学ベンチマークテストで高い正答率を誇る大規模言語モデル（LLM）が、実際には医学的推論を行っているのではなく、訓練データのパターンを認識しているだけかもしれないという問題提起をした論文「Fidelity of Medical Reasoning in Large Language Models」を取り上げます。スタンフォード大学に所属する研究者らによる研究発表です。

研究チームは、標準的な医学多肢選択問題集であるMedQAから100問を抽出し、元の正答を「他の答えのいずれでもない」（None of the other answers: NOTA）という選択肢に置き換える実験を行いました。

▲医学問題の正答を「他の答えのいずれでもない」に置き換え評価する実験の例

臨床医が検証した68問について、DeepSeek-R1、o3-mini、Claude-3.5 Sonnet、Gemini-2.0-Flash、GPT-4o、Llama-3.3-70Bという6つのAIモデルをテストした結果、すべてのモデルで正答率が統計的に有意に低下しました。最も影響が小さかったDeepSeek-R1でも8.82％、最も影響が大きかったLlama-3.3-70Bでは38.24％も正答率が下がりました。

▲6つの医療AIモデルにおいて、今回の実験正答率を比較した表

この結果が示唆するのは、LLMが医学的な問題を論理的に推論しているのではなく、訓練データに含まれる典型的な回答パターンを学習し、それを再現しているという可能性です。真の推論能力があれば、選択肢の表現が変わっても基本的な臨床判断は変わらないはずですが、実際にはNOTAという見慣れないパターンに直面すると、モデルの性能が大幅に低下しました。

この発見は医療現場でのAI活用に重要な示唆を与えています。臨床の現場では、教科書的なパターンから外れた症例や新しい病態に遭遇することが日常的にあります。パターン認識に依存するシステムが、こうした新規性のある状況で信頼性を維持できるかは疑問だといいます。

《山下裕毅（Seamless）》

山下裕毅（Seamless）

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。

ショート動画

特集

BECOME A MEMBER

『テクノエッジアルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジアルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。

医療AI、ベンチマークは優秀なのになぜ現場で使えないのか？　スタンフォード大学が医療AIの不都合を暴く（生成AIクローズアップ）

山下裕毅（Seamless）

特集

山下裕毅（Seamless）

ショート動画

特集

『テクノエッジアルファ』会員募集中

グラビアカメラマンが教える「生成AIグラビア実践ワークショップ」【アーカイブ配信あります】

どこにもないディープな会話が楽しめる「ハカセとアックンのスマホ沼」

自作PCのノウハウをわかりやすく解説するオンラインワークショップ「AI時代の自作PCワークショップ」【アーカイブ配信あります】

さまざまなテーマでオフラインのイベントを開催。ディスコードでコミュニケーションもできます

PS5 Proクラス性能目指す『OS代込みで12万円のゲーミング自作PC』はどの程度まで行けるか。【AI時代の自作PCワークショップ】

生成AIグラビアギャラリー

「AIを使う人材が欲しい」企業と「AIを使いこなせない」現場——ギャップを埋める方法とは

テクノエッジアルファ会員登録はこちら。コミュニティ参加ガイド

【LINE公式アカウントはじめました】最新ガジェットとテック情報をお届けします。友だち募集中。

ガジェット愛好家が知りたい最新情報を発信。テクノエッジYouTubeチャンネルはこちら

テクノエッジへのご寄付のお願い

西川善司のバビンチョなテクノコラム（西川善司）

生成AIグラビアをグラビアカメラマンが作るとどうなる？（西川和久）

人知れず消えていったマイナーCPUを語ろう（大原雄介）

Google Tales（佐藤由紀子）

てくのじ何でも実験室（宮里圭介）

山下裕毅（Seamless）

特集

SHARE THE STORY この記事をみんなにシェア

山下裕毅（Seamless）

ショート動画

特集

『テクノエッジ アルファ』会員募集中

『テクノエッジアルファ』会員募集中