articleニュース

Microsoft、推論特化小型モデル「Phi-4-reasoning-plus」を公開——14B パラメータで大型モデルに匹敵する推論性能

Research がに特化した小型言語「Phi-4-reasoning-plus」を公開。約 14B ながら 強化学習により数学・コーディング・論理推論分野で o クラスの性能を発揮し、エッジ・展開でも高品質な推論が可能となる。

概要

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

Research は 2026 年 4 月、処理に特化した小型言語「Phi-4-reasoning-plus」を Hugging Face 上でオープンウェイト公開した。数は約 140 億(14B)と大型モデルより大幅に小さいながら、(思考連鎖)強化学習と合成データによる学習で、数学・コーディング・論理推論タスクにおいて o・ クラスの性能を達成したと発表している。

事実のポイント

  • モデル名: Phi-4-reasoning-plus(Phi-4-reasoning の強化版)
  • パラメータ数: 約 14B(140 億)
  • ライセンス: MIT ライセンス(商用利用可・オープンウェイト)
  • 主なベンチマーク結果(公表値):
    • MATH-500: 97.3%(GPT-4o は 94.5%)
    • AIME 2025: 78.2%(難関数学競技問題)
    • HumanEval(コーディング): 91.4%
  • 学習手法: 大型モデルからの知識蒸留(Distillation)+推論プロセス特化の強化学習(Process Reward Model)
  • 主な用途想定: 数理計算・・法的文書分析など推論精度が要求される・エッジ展開
  • AI Studio および 経由での 利用にも対応

用語・背景の補足

Chain-of-Thought(CoT)強化学習: AI モデルが答えを直接出力するのではなく、「考えるプロセス(思考連鎖)」を段階的に生成してから最終回答を出す手法を強化するトレーニング方式。推論問題での正確性が大幅に向上することが知られており、 の o1/o3 シリーズや Thinking でも採用されている。

Process Reward Model(PRM): 最終的な答えの正しさだけでなく、推論の各ステップが正しいかどうかを評価してモデルを訓練する手法。数学・論理推論での「途中の計算ミス」を減らす効果がある。

オープンウェイト: モデルの重みパラメータが公開されており、ローカル環境でもモデルを実行できる状態を指す。クローズドな API 経由のみのモデルと異なり、カスタマイズ・・オフライン利用が可能。

注意点

  • ベンチマーク値は Microsoft 公表のものであり、独立した第三者評価との差異が生じる場合がある
  • 推論時に生成する思考連鎖(Thinking tokens)が消費を増加させるため、API 利用コストに注意が必要
  • 日本語の推論タスクにおける性能は英語・数学タスクに比べて相対的に低い可能性がある

編集部見解

(追記予定)

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。