Grokのボイスモードという機能。単に喋るだけでなく、歌ったり笑ったりもできるってご存じでしたか?
この記事を読めば、AI活用の最前線を効率よく学べます。また、どのようにこのボイスモードが私たちの日常やビジネスシーンを変えていくのか、その可能性を探る絶好の機会にもなるでしょう。ぜひ最後までお付き合いください。
速報(2025年3月6日)
無料プランでもiOSアプリなどでボイスモードが使えるようになりました。ただし、日本語は非対応です。
Sesame社のAIとGrok3のボイスモードを、AI同士で会話させてみました。音声が明瞭な方がSesame社です。
Grokボイスモードとは

GrokはElon MuskのスタートアップxAIが開発したAIチャットボットです。
2023年の初導入以来、ユーモアのセンスやリアルタイムデータアクセスを強みとして進化を続けています。そして2025年2月19日に公開テストが始まった「ボイスモード」は、音声を介した自然なコミュニケーションを可能にし、単に文章のやり取りをするだけのチャットボットとは一線を画す存在として注目を集めています。
なお、2025年3月6日からは無料プランでも、Grokのスマホアプリでボイスモードが利用できるようになりました。ただし、2025年3月6日現在では日本語は非対応です。
以下はChatGPTのボイスモードと、Grokのボイスモードの会話です。
歌ったり笑ったりできる不思議な“声”対話
ボイスモードの最大の特徴は、音声コマンドでGrokに指示し、音声で応答を得られるだけでなく、なんと歌ったり笑ったりといったユニークなパフォーマンスにも対応している点です。
普通に考えればAIは情報を正確に返すだけの存在というイメージですが、この機能によってより親しみやすく、エンターテインメント性の高い体験が得られます。
いつ、どのように使えるのか?日本語は使える?

2025年2月19日にボイスモードの最初の公開テストが開始され、iOSアプリで先行して利用可能になりました。現時点では「Sal」という男性音声がデフォルトですが、将来的にはさらに多くの音声オプションが追加される予定です。※2025年3月1日時点で日本語非対応
アクセス可能なのは、X(旧Twitter)のPremium+サブスクリプション(月額40ドル)を契約しているユーザーが先行して利用できる仕組みになっています。
なお、Grok-3自体は2025年2月20日から無料ユーザー向けにもリリースされ、3月6日からは無料プランも含めて幅広いユーザーがボイスモードを使えるようになりました。
ボイスモードでできること
- リアルタイムのインターネットアクセス:設定や操作を音声で行えるだけでなく、最新のオンライン情報にもリアルタイムでアクセス可能。ニュースのアップデートや天気など、瞬時に回答を得られます。
- カスタム音声指示:特定のフレーズや声のトーンで指示するなど、カスタマイズが柔軟。自分だけのボイスコマンドを設定することで、よりスムーズな操作を実現します。
- 音声トランスクリプト:会話内容がテキストとして自動的に書き起こされるので、後から見返すのも簡単。メモ代わりに活用できるのが大きなメリットです。
- オーディオ共有:音声でやり取りした内容を家族や友人とシェアする機能も搭載予定。仕事仲間との打ち合わせを音声だけでまとめて共有するといった使い方が考えられます。
- バックグラウンドでの動作:スマホを操作して他のアプリを使いながらでも、Grokの音声対話を継続できます。作業効率やながら作業に役立つ機能です。
- 歌・笑いなどのエンタメ機能:AIが歌う・笑うことで、まるで友達やパフォーマーがそばにいるかのような臨場感を味わえます。ちょっとした息抜きにも最適です。

技術背景
ボイスモードは、主にElevenLabsの音声技術とxAI独自の技術を統合して実現されています。
今後は4種類以上の音声オプションが計画されており、ユーザーの好みに合わせた多彩なボイスが選べる見込みです。また、GrokはGrok-1から始まり、Grok-2、Grok-3と継続的にモデルをアップデートしながら性能を高めており、今後の拡張や改良にも期待が寄せられています。
競合との違い
このボイスモードは、ChatGPTやGoogle Geminiなどの他社AIの音声機能と競合するとみられています。しかし、GrokはX(旧Twitter)との連携によるリアルタイム情報アクセスに強みがあり、単なるテキスト応答に留まらない点が魅力です。
さらに歌や笑いなど、エンターテインメント性に富んだ機能が他サービスとの差別化を図っています。
Grokのボイスモード:まとめ

Grokのボイスモードは、AIとの対話に新しい可能性を切り拓く画期的な機能です。2025年2月19日に公開テストがスタートし、XのPremium+ユーザーから優先的に体験可能となっています。
歌や笑いといった遊び心のあるやり取りは、これまでのAIサービスとはひと味違うワクワク感をもたらします。今後さらに多くの音声オプションが追加されれば、ビジネスだけでなくエンタメ方面でも大きな盛り上がりが期待できます。