articleニュース
xAI「Grok」に音声認識(Speech-to-Text)と音声合成(Text-to-Speech)APIを追加——音声AI市場に本格参入
イーロン・マスク創業のxAIが、GrokモデルにSpeech-to-Text(音声認識)とText-to-Speech(音声合成)のAPIを追加したと発表。OpenAI WhisperやElevenLabsが先行する音声AI分野にxAIが本格参入する形となる。
概要
※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。
イーロン・マスク氏率いるxAIは、同社のAIモデル「Grok」のAPIに音声認識(Speech-to-Text)と音声合成(Text-to-Speech)機能を追加したと発表した。Speech-to-Textは音声入力をテキストに変換するAPIで、OpenAIの「Whisper」やGoogleの「Speech-to-Text」が先行する市場への参入となる。Text-to-SpeechはテキストをGrokの音声で読み上げるAPIで、ElevenLabsやOpenAI TTS等の競合がある。xAIのGrokはX(旧Twitter)との連携による文脈理解を強みとして売り出しており、音声AIの追加によりマルチモーダル対応が進んだ形。
事実のポイント
- Speech-to-Text(STT)API: 音声ファイルまたはリアルタイム音声ストリームをテキストに変換。多言語対応・話者識別・タイムスタンプ付き文字起こしをサポート
- Text-to-Speech(TTS)API: テキスト入力をGrokの音声(複数音声スタイル選択可)で読み上げ。感情・ペース・ポーズの調整パラメータを提供
- API料金体系: 他社比較で競争力のある価格設定(STTは音声1分あたり数セント台、TTSはテキスト1文字あたりの従量制)
- X(旧Twitter)プラットフォームとの統合: X上の音声ツイート・スペース(音声配信)機能とGrokの統合が想定され、SNSプラットフォームと音声AIの融合が進む
- Grok APIのマルチモーダル拡張: テキスト・画像に続き音声が加わり、テキスト/画像/音声を統合したマルチモーダルアプリケーション開発が可能に
用語・背景の補足
Speech-to-Text(STT)の主要競合: OpenAI Whisper(オープンソース・APIあり)、Google Cloud Speech-to-Text、Amazon Transcribe、Microsoft Azure Speech Services。Grokの差別化はX連携データによる口語表現・スラング・略語への対応精度に期待が集まる。
Text-to-Speech(TTS)の主要競合: ElevenLabs(感情表現豊かな音声)、OpenAI TTS(ChatGPT音声機能と同基盤)、Google Cloud TTS、Microsoft Azure TTS。自然な音声品質と多言語対応が競争軸。
注意点
- APIの提供開始時期・料金の詳細はxAIの公式API Docsを参照
- 日本語対応(認識精度・音声品質)については公式のベンチマーク情報を確認することを推奨
- xAIはまだ成長段階の企業であり、APIの安定性・SLA・サポート体制は大手クラウドと比較して評価が必要
編集部見解
(追記予定)
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。