articleニュース

Claude Mythos PreviewがGPQA Diamondで94.6%を記録——最難関科学推論ベンチマークで首位

Previewが、最難関とされる科学「GPQA Diamond」で94.6%のスコアを達成し首位に立った。がAIME 2026数学ベンチマークで満点を記録するなど、主要フロンティアは各領域で従来の上限を突破するスコアを記録している。

概要

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

2026年5月時点で、 Previewが科学的を評価する「GPQA Diamond」で94.6%を達成し、現時点で公開されているフロンティアの中で首位となっている。はAIME 2026(数学オリンピック水準問題)で満点を記録するなど、2026年前半の主要AIモデルはベンチマークの従来上限を突破するパフォーマンスを示している。

事実のポイント

  • Claude Mythos Preview の GPQA Diamond スコア: 94.6%(LM Council ベンチマーク調査、2026年5月)
  • GPQA Diamondの難度: 博士課程レベルの生物・化学・物理の専門知識が必要とされる設問群で構成。人間の専門家(PhD保有者)の正答率は65〜70%程度とされる
  • GPT-5 のAIME 2026スコア: 数学オリンピック水準の問題セットで満点を記録
  • 2026年フロンティアの概況: Claude Mythos Preview・ 3.1 Pro・GPT-5ファミリー・ 4が主要フロンティアモデルとして競合。 V3/R1などの中国系モデルもコーディング・推論領域で競争力を持つ
  • ベンチマーク飽和の状況: 従来のHumanEval・MMLU等のベンチマークは主要モデルが高スコアに達して差が付きにくい状態に。GPQA Diamond・SWE-Bench Verified・Humanity's Last Examが新たな差別化指標として機能

用語・背景の補足

GPQA Diamond(Graduate-Level -Proof Q&A): 博士課程レベルの科学知識を問う難関ベンチマーク。問題はWeb検索で回答が見つかりにくく、深い理解を要する問題が多い。「Diamond」は最難度サブセットを指す。

ベンチマーク飽和(Benchmark Saturation): AIモデルのスコアがある評価指標で天井に近づき、モデル間の差が測りにくくなった状態。より難しい指標に移行することでモデル能力の差を測定する動きが続いている。

フロンティアモデル(Frontier Model): 現時点で最先端の能力を持つAIモデル。Anthropic()・)・Google(Gemini)・(Grok)などのトップラボが開発。

注意点

  • ベンチマークスコアは特定のテスト設問・評価条件での測定結果であり、実際の業務への適用効果を直接示すものではない
  • 「首位」は2026年5月時点のスナップショットであり、モデルの更新・新モデルのリリースにより変動する
  • GPQA Diamondのスコアは測定機関・バージョン・方式により異なる値が報告される場合がある

編集部見解

(追記予定)

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。