GrokのボイスモードがAIとの対話を激変!歌う・笑う“声”の新時代

AI活用ブログ
AI活用ブログ

Elon Musk率いるxAIが開発したGrokのボイスモードが話題を呼んでいます。単なる音声対話を超え、歌ったり笑ったりする機能を搭載した次世代AIの実力とは?

2025年3月より無料プランでもiOSアプリなどでボイスモードが使えるようになりました。この記事では、Grokボイスモードの機能、利用方法、そして他のAIとの違いを徹底解説します。

🎧この記事についてポッドキャスト風の音声解説はこちら↓


今なら助成金活用で最大75%OFFと大変お得にご利用いただける、AI・ChatGPT活用研修サービスがご好評をいただいています。ご興味のある方は以下のリンクから、助成金の活用方法やサービス内容が分かる資料をダウンロードいただけます。

AI・ChatGPT活用研修サービスの紹介資料ダウンロードはこちら(無料)

AI同士の会話をお聞きください

まずはSesame社のAIとGrok3のボイスモードを、AI同士で会話させてみましたので、こちらの 音声をお聞きください。音声が明瞭な方がSesame社です。

Grokボイスモードとは

Grokは、xAIが開発したAIチャットボットで、2023年の初導入以来、ユーモアのセンスやリアルタイムデータアクセスを強みとして進化を続けています。​2025年2月19日に公開テストが始まった「ボイスモード」は、音声を介した自然なコミュニケーションを可能にし、単なる文章のやり取りをするだけのチャットボットとは一線を画す存在として注目を集めています。​

2025年3月6日からは無料プランでも、Grokのスマホアプリでボイスモードが利用できるようになりました。​ただし、当初は日本語に非対応でしたが、2025年4月23日より日本語を含む多言語音声入出力に対応し、日本語での音声対話が可能となりました。

以下はChatGPTのボイスモードと、Grokのボイスモードの会話です。

多彩な会話スタイル

Grokのボイスモードには、以下のような多様な会話スタイルが用意されています。

  • Default:標準的な応答スタイル
  • Storyteller:物語を語るようなスタイル
  • Romantic:ロマンチックなトーン
  • Unhinged:感情的で自由な表現
  • Sexy:セクシーな雰囲気(18歳以上向け)
  • Meditation:落ち着いた瞑想的なトーン
  • Conspiracy:陰謀論的なスタイル
  • Unlicensed Therapist:非公式なセラピスト風
  • Grok “Doc”:医師風の応答​

これらのスタイルは、ユーザーの好みに応じて選択でき、よりパーソナライズされた対話体験を提供します。

iOSアプリの画面 まだボイスモードには対応していなかったが、3月6日から無料プランでも利用可能

ボイスモードでできること

  • リアルタイムのインターネットアクセス:設定や操作を音声で行えるだけでなく、最新のオンライン情報にもリアルタイムでアクセス可能。ニュースのアップデートや天気など、瞬時に回答を得られます。
  • カスタム音声指示:特定のフレーズや声のトーンで指示するなど、カスタマイズが柔軟。自分だけのボイスコマンドを設定することで、よりスムーズな操作を実現します。
  • 音声トランスクリプト:会話内容がテキストとして自動的に書き起こされるので、後から見返すのも簡単。メモ代わりに活用できるのが大きなメリットです。
  • オーディオ共有:音声でやり取りした内容を家族や友人とシェアする機能も搭載予定。仕事仲間との打ち合わせを音声だけでまとめて共有するといった使い方が考えられます。
  • バックグラウンドでの動作:スマホを操作して他のアプリを使いながらでも、Grokの音声対話を継続できます。作業効率やながら作業に役立つ機能です。
  • 歌・笑いなどのエンタメ機能:AIが歌う・笑うことで、まるで友達やパフォーマーがそばにいるかのような臨場感を味わえます。ちょっとした息抜きにも最適です。

GrokのボイスモードはAndroidでも利用可能です。​ただし、利用にはいくつかの条件があります。​

Android版Grokアプリでのボイスモード対応状況(2025年4月30日現在)

  • アプリの入手:​GrokのAndroidアプリはGoogle Playストアからダウンロードできます。 ​
  • ボイスモードの利用条件:​ボイスモードを利用するには、xAIの有料プラン「SuperGrok(月額30ドル)」への加入が必要です。 ​
  • 日本語対応:​ボイスモードは日本語を含む多言語に対応しており、日本語での音声入力と出力が可能です。 ​
  • 機能の制限:​iOS版と比較して、Android版では一部の機能が制限されている場合があります。​たとえば、Grok Vision(カメラを使った視覚認識機能)はiOS版で先行して提供されています。 ​

技術背景

ボイスモードは、主にElevenLabsの音声技術とxAI独自の技術を統合して実現されています。

今後は4種類以上の音声オプションが計画されており、ユーザーの好みに合わせた多彩なボイスが選べる見込みです。また、GrokはGrok-1から始まり、Grok-2、Grok-3と継続的にモデルをアップデートしながら性能を高めており、今後の拡張や改良にも期待が寄せられています。

競合との違い

このボイスモードは、ChatGPTやGoogle Geminiなどの他社AIの音声機能と競合するとみられています。しかし、GrokはX(旧Twitter)との連携によるリアルタイム情報アクセスに強みがあり、単なるテキスト応答に留まらない点が魅力です。

さらに歌や笑いなど、エンターテインメント性に富んだ機能が他サービスとの差別化を図っています。

Grokのボイスモード:まとめ

Grokのボイスモードは、AIとの対話に新しい可能性を切り拓く画期的な機能です。

歌や笑いといった遊び心のあるやり取りは、これまでのAIサービスとはひと味違うワクワク感をもたらします。今後さらに多くの音声オプションが追加されれば、ビジネスだけでなくエンタメ方面でも大きな盛り上がりが期待できます。

↑↑↑
この記事が参考になりましたら、上の「参考になった」ボタンをお願いします。

会社ではChatGPTは使えない?情報漏洩が心配?

ある日本企業に対する調査では、72%が業務でのChatGPT利用を禁止していると報告されています。社内の機密情報がChatGPTのモデルに学習されて、情報漏洩の可能性を懸念しているためです。

そのため、インターネットに接続されていないオンプレミス環境で自社独自の生成AIを導入する動きが注目されています。ランニングコストを抑えながら、医療、金融、製造業など機密データを扱う企業の課題を解決し、自社独自の生成AIを導入可能です。サービスの詳細は以下をご覧ください。

いますぐサービス概要を見る▶▶▶
この記事をシェアする
監修者:服部 一馬

フィクスドスター㈱ 代表取締役 / ITコンサルタント / AIビジネス活用アドバイザー

非エンジニアながら、最新のAI技術トレンドに精通し、企業のDX推進やIT活用戦略の策定をサポート。特に経営層や非技術職に向けた「AIのビジネス活用」に関する解説力には定評がある。
「AIはエンジニアだけのものではない。ビジネスにどう活かすかがカギだ」という理念のもと、企業のデジタル変革と競争力強化を支援するプロフェッショナルとして活動中。ビジネスとテクノロジーをつなぐ存在として、最新AI動向の普及と活用支援に力を入れている。

Chat Icon
タイトルとURLをコピーしました