Elon Musk率いるxAIが開発したGrokのボイスモードが話題を呼んでいます。単なる音声対話を超え、歌ったり笑ったりする機能を搭載した次世代AIの実力とは?
2025年3月より無料プランでもiOSアプリなどでボイスモードが使えるようになりました。この記事では、Grokボイスモードの機能、利用方法、そして他のAIとの違いを徹底解説します。
🎧この記事についてポッドキャスト風の音声解説はこちら↓
AI同士の会話をお聞きください
まずはSesame社のAIとGrok3のボイスモードを、AI同士で会話させてみましたので、こちらの 音声をお聞きください。音声が明瞭な方がSesame社です。
Grokボイスモードとは

Grokは、xAIが開発したAIチャットボットで、2023年の初導入以来、ユーモアのセンスやリアルタイムデータアクセスを強みとして進化を続けています。2025年2月19日に公開テストが始まった「ボイスモード」は、音声を介した自然なコミュニケーションを可能にし、単なる文章のやり取りをするだけのチャットボットとは一線を画す存在として注目を集めています。
2025年3月6日からは無料プランでも、Grokのスマホアプリでボイスモードが利用できるようになりました。ただし、当初は日本語に非対応でしたが、2025年4月23日より日本語を含む多言語音声入出力に対応し、日本語での音声対話が可能となりました。
以下はChatGPTのボイスモードと、Grokのボイスモードの会話です。
多彩な会話スタイル
Grokのボイスモードには、以下のような多様な会話スタイルが用意されています。
- Default:標準的な応答スタイル
- Storyteller:物語を語るようなスタイル
- Romantic:ロマンチックなトーン
- Unhinged:感情的で自由な表現
- Sexy:セクシーな雰囲気(18歳以上向け)
- Meditation:落ち着いた瞑想的なトーン
- Conspiracy:陰謀論的なスタイル
- Unlicensed Therapist:非公式なセラピスト風
- Grok “Doc”:医師風の応答
これらのスタイルは、ユーザーの好みに応じて選択でき、よりパーソナライズされた対話体験を提供します。

ボイスモードでできること
- リアルタイムのインターネットアクセス:設定や操作を音声で行えるだけでなく、最新のオンライン情報にもリアルタイムでアクセス可能。ニュースのアップデートや天気など、瞬時に回答を得られます。
- カスタム音声指示:特定のフレーズや声のトーンで指示するなど、カスタマイズが柔軟。自分だけのボイスコマンドを設定することで、よりスムーズな操作を実現します。
- 音声トランスクリプト:会話内容がテキストとして自動的に書き起こされるので、後から見返すのも簡単。メモ代わりに活用できるのが大きなメリットです。
- オーディオ共有:音声でやり取りした内容を家族や友人とシェアする機能も搭載予定。仕事仲間との打ち合わせを音声だけでまとめて共有するといった使い方が考えられます。
- バックグラウンドでの動作:スマホを操作して他のアプリを使いながらでも、Grokの音声対話を継続できます。作業効率やながら作業に役立つ機能です。
- 歌・笑いなどのエンタメ機能:AIが歌う・笑うことで、まるで友達やパフォーマーがそばにいるかのような臨場感を味わえます。ちょっとした息抜きにも最適です。

GrokのボイスモードはAndroidでも利用可能です。ただし、利用にはいくつかの条件があります。
Android版Grokアプリでのボイスモード対応状況(2025年4月30日現在)
- アプリの入手:GrokのAndroidアプリはGoogle Playストアからダウンロードできます。
- ボイスモードの利用条件:ボイスモードを利用するには、xAIの有料プラン「SuperGrok(月額30ドル)」への加入が必要です。
- 日本語対応:ボイスモードは日本語を含む多言語に対応しており、日本語での音声入力と出力が可能です。
- 機能の制限:iOS版と比較して、Android版では一部の機能が制限されている場合があります。たとえば、Grok Vision(カメラを使った視覚認識機能)はiOS版で先行して提供されています。
技術背景
ボイスモードは、主にElevenLabsの音声技術とxAI独自の技術を統合して実現されています。
今後は4種類以上の音声オプションが計画されており、ユーザーの好みに合わせた多彩なボイスが選べる見込みです。また、GrokはGrok-1から始まり、Grok-2、Grok-3と継続的にモデルをアップデートしながら性能を高めており、今後の拡張や改良にも期待が寄せられています。
競合との違い
このボイスモードは、ChatGPTやGoogle Geminiなどの他社AIの音声機能と競合するとみられています。しかし、GrokはX(旧Twitter)との連携によるリアルタイム情報アクセスに強みがあり、単なるテキスト応答に留まらない点が魅力です。
さらに歌や笑いなど、エンターテインメント性に富んだ機能が他サービスとの差別化を図っています。
Grokのボイスモード:まとめ

Grokのボイスモードは、AIとの対話に新しい可能性を切り拓く画期的な機能です。
歌や笑いといった遊び心のあるやり取りは、これまでのAIサービスとはひと味違うワクワク感をもたらします。今後さらに多くの音声オプションが追加されれば、ビジネスだけでなくエンタメ方面でも大きな盛り上がりが期待できます。