スマホでAIがローカルで動く時代へ!Gemma 3nのプレビュー版をGoogle AI Edge Galleryで試す方法

AI活用ブログ
AI活用ブログ

AI技術は日進月々進化しており、その活用の場はクラウドから私たちの身近なデバイスへと広がりつつあります。Googleは、この「オンデバイスAI」の未来を推進するため、強力かつ効率的な新しいオープンモデル「Gemma 3n」の早期プレビュー版を発表しました。

Gemma 3nは、単一のクラウドまたはデスクトップアクセラレーターで実行可能なGemma 3やGemma 3 QATの発表に続くもので、AIをさらに身近なものにすることを目指しています。特に、スマートフォン、タブレット、ラップトップといった日常的に使用するデバイス上で、高性能なAIをリアルタイムに動作させることに焦点が当てられています。

この記事の内容は上記のGPTマスター放送室でわかりやすく音声で解説しています。


最近「社外に出せないデータで生成AIを使いたい」という相談をよく聞きます。ChatGPTの利用は社内で禁止されているそうです。セキュリティやコスト面が気になる企業には、社内のローカル環境で動かせる仕組みがあることはご存知ですか?

モバイルファースト設計と革新的な技術

次世代のオンデバイスAIを支えるため、Gemma 3nはQualcomm Technologies、MediaTek、SamsungのSystem LSIビジネスといったモバイルハードウェアリーダーとの緊密な連携のもと、新しい最先端アーキテクチャで設計されました。この基盤は、高速なマルチモーダルAIに最適化されており、デバイス上で真にパーソナルでプライベートな体験を可能にします。

Gemma 3nは、この画期的な共有アーキテクチャ上に構築された最初のオープンモデルであり、開発者は今日からこの技術を実験的に使い始めることができます。この同じ高度なアーキテクチャは、次世代のGemini Nanoにも採用され、Googleアプリやオンデバイスエコシステムの幅広い機能にこれらの機能をもたらし、2025年後半に利用可能になる予定です。Gemma 3nは、AndroidやChromeといった主要プラットフォームに搭載される基盤上で構築を開始できるようにします。

Gemma 3nの最も注目すべき革新の一つは、Google DeepMindが開発した「Per-Layer Embeddings (PLE)」という技術です。これにより、RAM使用量が大幅に削減されます。Gemma 3nのパラメータ数は5Bと8Bの2種類がありますが、この技術のおかげで、5Bモデルは一般的な2Bモデルと同等のメモリ使用量で、8Bモデルは一般的な4Bモデルと同等のメモリ使用量で動作します。具体的には、わずか2GBと3GBの動的メモリフットプリントで動作できることを意味します。

Gemma 3nの機能について

その他の主要な機能は以下の通りです:

  • オンデバイスパフォーマンスと効率の最適化:
    • モバイル上での応答開始速度がGemma 3 4Bと比較して約1.5倍高速化され、品質も大幅に向上しています。これはPer Layer Embeddings、KVC sharing、および高度な活性化量子化などの革新技術によって実現されました。
  • Many-in-1の柔軟性:
    • 4Bのアクティブメモリフットプリントを持つモデル内に、最先端の2Bアクティブメモリフットプリントを持つサブモデルがネイティブに含まれています。これにより、別々のモデルをホストすることなく、パフォーマンスと品質を動的にトレードオフする柔軟性が得られます。さらに、特定のユースケースに最適なサブモデルを4Bモデルから動的に作成するmix’n’match機能も導入されています。
  • プライバシーファースト&オフライン対応:
    • ローカルでの実行により、ユーザーのプライバシーを尊重し、インターネット接続がなくても信頼できる機能が可能になります。
  • 音声を含むマルチモーダル理解の拡張:
    • Gemma 3nは音声、テキスト、画像を理解・処理でき、ビデオ理解も大幅に強化されています。音声機能により、高品質な自動音声認識(書き起こし)や翻訳(音声から翻訳されたテキストへ)を実行できます。さらに、モダリティをまたいだインターリーブ入力を受け付けるため、複雑なマルチモーダルインタラクションの理解が可能です(公開実装は近日予定)。
  • 多言語機能の向上:
    • 特に日本語、ドイツ語、韓国語、スペイン語、フランス語で多言語パフォーマンスが向上しています。WMT24++ (ChrF)のような多言語ベンチマークでも50.1%という強いパフォーマンスを示しています。
  • 高いベンチマーク評価:
    • Chatbot Arena Eloスコアでは、Gemma 3nはGPT-4.1 nanoやLlama-4-Maverick-17B-128E-Instructといった他の人気モデルと比較して高くランク付けされています。

これらの機能により、Gemma 3nは、ユーザーの環境からのリアルタイムな視覚・聴覚情報に反応するライブでインタラクティブな体験、音声、画像、ビデオ、テキスト入力を組み合わせて使用するより深い理解と文脈に基づいたテキスト生成、リアルタイムの音声書き起こしや翻訳を含む高度な音声中心アプリケーションの開発を可能にし、新しいオンザゴー体験を強化します。

Google AI Edge GalleryでGemma 3nを今すぐ試す

Googleは、このGemma 3nを開発者やユーザーが簡単に体験できるように、「Google AI Edge Gallery」という実験的なAndroidアプリ(iOS版は近日公開予定)を提供しています。このアプリを使えば、最先端の生成AIモデルを、インターネット接続なしでデバイス上でローカルに実行するパワーを体験できます。モデルを一度ダウンロードすれば、完全にオフラインで動作します。

Google AI Edge Galleryアプリでは、以下のような機能を通じてGemma 3nの能力を試すことができます:

  • ローカル実行、完全オフライン: インターネット不要でGenAIを体験。
  • モデルの選択: Hugging Faceの異なるモデル間を簡単に切り替えて性能を比較可能。
  • Ask Image: 画像をアップロードして、それに関する質問をする(説明、問題解決、オブジェクト識別など)。
  • Prompt Lab: 要約、書き換え、コード生成、自由形式のプロンプトを使って単一ターンのLLMユースケースを探求。
  • AI Chat: マルチターンの会話が可能。
  • パフォーマンスインサイト: リアルタイムベンチマーク(TTFT、デコード速度、レイテンシ)を表示。
  • Bring Your Own Model: ローカルのLiteRT .taskモデルをテスト。

AndroidデバイスでGoogle AI Edge Galleryを使ってGemma 3nを試すステップ

  1. まず、Google AI Edge Galleryアプリの配布ページ(GitHubのリリースページ)を開きます。以下のリンクからアクセスできます。 Releases · google-ai-edge/gallery · GitHub https://github.com/google-ai-edge/gallery/releases
  2. 配布ページで最新版の「ai-edge-gallery.apk」ファイルをタップしてダウンロードします。ダウンロード時に警告が表示される場合がありますが、「ダウンロードを続行」を選択します。
  3. ダウンロードしたAPKファイルを開き、「インストール」をタップしてアプリをデバイスにインストールします。インストール完了後、「開く」をタップしてアプリを起動します。
  4. アプリのホーム画面が表示されたら、試したい機能を選択します。例えば、チャットを試したい場合は「AI Chat」をタップします。画像を認識させたい場合は「Ask Image」をタップします。
  5. モデル選択画面が表示されるので、「Gemma-3n-E2B-it-int4」などのGemma 3nモデルをタップします。
  6. 初めてモデルを使用する場合は、「Download&Try」をタップします。Hugging Faceへのログインまたは新規登録、そしてモデルへのアクセス許可とユーザー規約・ライセンスへの同意が必要です。指示に従ってログイン/登録、アクセス許可、規約同意の手順を進めます。
  7. 同意手続きが完了すると、モデルデータのダウンロードが開始されます。ダウンロードはネットワーク環境によりますが、数分で完了します。
  8. ダウンロードが完了すれば、その機能(AI ChatやAsk Image)をローカルで利用できます。例えばAI Chatなら、画面下部の入力欄にテキストを入力して送信すれば、Gemma 3nが返答してくれます。実際に「ネギとニンジンで作れる料理のレシピを教えて」と質問したところ、炒め物やみそ汁のレシピを教えてくれました。この返答は、Pixel 8 Proのようなデバイス上で完全にオフラインで生成されます
  9. Ask Image機能では、カメラで撮影した写真やギャラリーの画像について質問できます。例えばiPhone 13 Proの写真を撮影して「これは何」と質問した例では、「iPhone 13」と回答されました。カメラやロゴから判断しているようですが、「Proモデル」であることまでは認識できていないようでした。このように、実際のデバイス上での応答や認識能力を具体的に試すことができます。

今後の展望とフィードバック

Gemma 3nは、最先端で効率的なAIへのアクセスを民主化する次なる一歩です。今回リリースされたのは早期プレビュー版であり、この技術が順次利用可能になるにつれて、皆様がどのようなものを構築するのかを楽しみにしています。

開発者は、Google AI Studio(ブラウザでテキスト入力を試す場合)やGoogle AI Edge(ローカル統合の場合)を利用してGemma 3nのプレビューを試すことができます。Google AI Edge Galleryアプリは、手軽にオンデバイスAIの性能を体験するための素晴らしい入り口です。

これは実験的なアルファリリースです。バグを見つけたり、アイデアがあれば、ぜひフィードバックを寄せてください。皆様からの入力は非常に重要です。


関連情報:

Gemma 3nとGoogle AI Edge Galleryを通じて、手軽に最先端のオンデバイスAIの世界を体験してみてはいかがでしょうか。

↑↑↑
この記事が参考になりましたら、上の「参考になった」ボタンをお願いします。

会社ではChatGPTは使えない?情報漏洩が心配?

ある日本企業に対する調査では、72%が業務でのChatGPT利用を禁止していると報告されています。社内の機密情報がChatGPTのモデルに学習されて、情報漏洩の可能性を懸念しているためです。

そのため、インターネットに接続されていないオンプレミス環境で自社独自の生成AIを導入する動きが注目されています。ランニングコストを抑えながら、医療、金融、製造業など機密データを扱う企業の課題を解決し、自社独自の生成AIを導入可能です。サービスの詳細は以下をご覧ください。

いますぐサービス概要を見る▶▶▶
この記事をシェアする
監修者:服部 一馬

フィクスドスター㈱ 代表取締役 / ITコンサルタント / AIビジネス活用アドバイザー

非エンジニアながら、最新のAI技術トレンドに精通し、企業のDX推進やIT活用戦略の策定をサポート。特に経営層や非技術職に向けた「AIのビジネス活用」に関する解説力には定評がある。
「AIはエンジニアだけのものではない。ビジネスにどう活かすかがカギだ」という理念のもと、企業のデジタル変革と競争力強化を支援するプロフェッショナルとして活動中。ビジネスとテクノロジーをつなぐ存在として、最新AI動向の普及と活用支援に力を入れている。

Chat Icon
タイトルとURLをコピーしました