articleニュース

OpenAI、GPT-5級推論の音声AI「GPT-Realtime-2」など3モデルをリアルタイムAPIで一斉公開

は2026年5月7日、Realtime に向けて-Realtime-2・GPT-Realtime-Translate・GPT-Realtime-Whisperの3を同時発表。GPT-Realtime-2は相当の能力を持ち、128Kコンテキストに対応する音声対話モデル。

概要

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

は2026年5月7日、Realtime を通じた音声AI基盤を大幅に刷新し、新たに3種類のを一斉に公開した。中心となる「-Realtime-2」は相当の能力を音声対話に実装したモデルで、128,000に対応する。あわせて、リアルタイム翻訳に特化した「GPT-Realtime-Translate」と、音声の「GPT-Realtime-Whisper」も公開されており、3モデルを業務用途に応じて組み合わせることが可能になった。

事実のポイント

  • GPT-Realtime-2の主な仕様: コンテキストウィンドウ128Kトークン(前世代の32Kから4倍に拡張)。Big Bench Audioで96.6%の精度を達成し、前世代比15.2ポイント向上
  • GPT-Realtime-Translate: リアルタイム多言語翻訳に特化したモデル。料金は1分あたり約0.034ドルと、従来の通訳コストに比べ大幅に低廉
  • GPT-Realtime-Whisper: ストリーミング対応の音声文字起こしモデル。リアルタイムおよびの両エンドポイント、多言語対応、話者分離(ダイアライゼーション)、タイムスタンプ付与に対応
  • 料金体系: GPT-Realtime-2は入力トークン100万件あたり32ドル・出力100万件あたり64ドル
  • 対象ユーザー: Realtime API経由での利用。企業・開発者向けに即時提供開始

用語・背景の補足

  • Realtime API: OpenAIが提供する、テキストと音声をリアルタイムで処理するためのAPI。カスタマーサポートbotや音声などの構築に活用される
  • コンテキストウィンドウ(Context Window): モデルが一度に処理できるトークン(文字・単語の単位)の最大量。128Kとは日本語で数十万文字相当を指し、長い会話や複雑な業務フローにも対応できる
  • 話者分離(ダイアライゼーション): 複数人が話す音声データから、誰がどこで発話したかを分離・識別する技術。会議の議事録作成などに有用

注意点

  • 料金は2026年5月時点のものであり、変更される可能性がある
  • Big Bench Audioのスコアは特定の評価環境での数値であり、実務利用での精度は用途・言語・音声品質によって異なる
  • 多言語対応の具体的な言語・精度はOpenAI公式ドキュメントを参照のこと

編集部見解

(追記予定)

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。