articleニュース
OpenAI、70 言語からのリアルタイム音声翻訳モデル「GPT-Realtime-Translate」を API 提供開始
OpenAI が音声リアルタイム翻訳モデル「GPT-Realtime-Translate」を API で提供開始した。70 言語の入力音声を話者のペースに合わせて 13 言語にリアルタイム翻訳するもので、通訳・グローバル会議・多言語カスタマーサポートへの応用が期待されている。
概要
OpenAI は 2026年5月、Realtime API に新しい音声インテリジェンスモデル群を追加し、その中でも「GPT-Realtime-Translate」が特に注目されている。70 言語以上の入力音声を話者のペースに追いつきながら 13 言語にリアルタイム翻訳する能力を持ち、国際会議・多言語カスタマーサポート・通訳補助ツールへの実装が開発者の間で活発になっている。
事実のポイント
- 対応言語:
- 入力(話し言葉の認識): 70 言語以上
- 出力(翻訳後の音声生成): 13 言語(英語・日本語・スペイン語・フランス語・ドイツ語・中国語等を含む主要言語)
- リアルタイム性: 話者が話しながら翻訳が生成されるストリーミング方式で、会話の自然なフローを壊さない
- 同時発表の音声モデル:
- GPT-Realtime-2: GPT-5 クラスの推論能力を持つ音声対話モデル(より難しい質問への対応)
- GPT-Realtime-Whisper: 話し中にリアルタイムで文字起こし(書き起こし)を生成するモデル
- API 提供: Realtime API として開発者向けに公開。自社アプリ・サービスへの統合が可能
用語・背景の補足
Realtime API: OpenAI が提供する音声対話向けの低レイテンシ API。通常の Chat Completions API と異なり、音声入出力のストリーミングに特化しており、リアルタイムの音声会話アプリ開発に使われる。
ストリーミング翻訳: 発言が完了してから翻訳するのではなく、話している途中から翻訳テキスト・音声を順次生成する技術。会話の流れを妨げずにリアルタイムコミュニケーションを可能にするが、前後の文脈が確定しない段階での翻訳精度が課題となる。
同時通訳との違い: 人間の同時通訳者は、発言の意味が概ね把握できた段階で翻訳を始める「先読み戦略」を取るが、AI の場合は統計的なパターンマッチングで逐次翻訳する。ニュアンス・専門用語・文化的背景の解釈は依然として人間の通訳者が優れている。
注意点
- 13 言語への出力制限があり、マイナー言語への翻訳は現時点では対応していない
- リアルタイム翻訳の精度は言語ペア・話題・話者の速度・発音によって大きく異なる可能性がある
- 医療・法務・外交などの高精度が求められる場面での単独利用は推奨されていない(専門家による確認が必要)
- Realtime API の利用はトークンベースの課金であり、長時間の多言語会議では相応のコストが発生する
編集部見解
(追記予定)
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。