Claude Mythos PreviewがGPQA Diamondで94.6%を記録——最難関科学推論ベンチマークで首位

AnthropicのClaude Mythos Previewが、最難関とされる科学推論ベンチマーク「GPQA Diamond」で94.6%のスコアを達成し首位に立った。GPT-5がAIME 2026数学ベンチマークで満点を記録するなど、主要フロンティアモデルは各領域で従来の上限を突破するスコアを記録している。

概要

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

2026年5月時点で、AnthropicのClaude Mythos Previewが科学的推論を評価する「GPQA Diamond」ベンチマークで94.6%を達成し、現時点で公開されているフロンティアモデルの中で首位となっている。GPT-5はAIME 2026（数学オリンピック水準問題）で満点を記録するなど、2026年前半の主要AIモデルはベンチマークの従来上限を突破するパフォーマンスを示している。

事実のポイント

Claude Mythos Preview の GPQA Diamond スコア: 94.6%（LM Council ベンチマーク調査、2026年5月）
GPQA Diamondの難度: 博士課程レベルの生物・化学・物理の専門知識が必要とされる設問群で構成。人間の専門家（PhD保有者）の正答率は65〜70%程度とされる
GPT-5 のAIME 2026スコア: 数学オリンピック水準の問題セットで満点を記録
2026年フロンティアの概況: Claude Mythos Preview・Gemini 3.1 Pro・GPT-5ファミリー・Grok 4が主要フロンティアモデルとして競合。DeepSeek V3/R1などの中国系モデルもコーディング・推論領域で競争力を持つ
ベンチマーク飽和の状況: 従来のHumanEval・MMLU等のベンチマークは主要モデルが高スコアに達して差が付きにくい状態に。GPQA Diamond・SWE-Bench Verified・Humanity's Last Examが新たな差別化指標として機能

用語・背景の補足

GPQA Diamond（Graduate-Level Google-Proof Q&A）: 博士課程レベルの科学知識を問う難関ベンチマーク。問題はWeb検索で回答が見つかりにくく、深い理解を要する問題が多い。「Diamond」は最難度サブセットを指す。

ベンチマーク飽和（Benchmark Saturation）: AIモデルのスコアがある評価指標で天井に近づき、モデル間の差が測りにくくなった状態。より難しい指標に移行することでモデル能力の差を測定する動きが続いている。

フロンティアモデル（Frontier Model）: 現時点で最先端の能力を持つAIモデル。Anthropic（Claude）・OpenAI（GPT）・Google（Gemini）・xAI（Grok）などのトップラボが開発。

注意点

ベンチマークスコアは特定のテスト設問・評価条件での測定結果であり、実際の業務への適用効果を直接示すものではない
「首位」は2026年5月時点のスナップショットであり、モデルの更新・新モデルのリリースにより変動する
GPQA Diamondのスコアは測定機関・バージョン・プロンプト方式により異なる値が報告される場合がある

編集部見解

（追記予定）

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

概要

事実のポイント

用語・背景の補足

注意点

編集部見解

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

Claude Mythos PreviewがGPQA Diamondで94.6%を記録——最難関科学推論ベンチマークで首位

概要

事実のポイント

用語・背景の補足

注意点

編集部見解

出典

Microsoft、自社 AI モデル群「MAI」を公開――画像・音声・文字起こし分野で OpenAI 依存を削減へ

Microsoft 365 Copilot が大規模リデザイン――タスク認識型ワークスペースを導入・読み込み時間 50% 削減

Microsoft Build 2026――Project Polaris・Windows Agent Framework 公開でコーディング AI の内製化加速

税理士事務所 AI 導入ロードマップ — 6 ヶ月で 5 業務を変える

弁護士事務所 AI 導入ロードマップ — リーガルテック × 中小事務所で守秘義務と両立する

AI 導入の最初の一手｜統合プラットフォームを基盤に AI とシステムを使い分けて小さく始める

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査