MiniMaxが発表したM3シリーズは、従来のLLMを凌駕する速度とスパースアテンション技術を実現し、業界に新たな波を起こしています。 企業が抱える「情報の膨大化」に対し、1億トークン規模でも15.6倍の高速応答を可能にすることで、意思決定のスピードと精度を同時に向上させることができると示唆しています。
その意味するところは、AIを単なるツールから「ビジネスの意思決定エンジン」へと昇華させる可能性があるということです。 では、MiniMax M3はどのようにしてこの革新を実現したのでしょうか?以下で詳細を解説します。
MiniMax M3とは何か:新世代LLMの概要

MiniMax M3は、前世代M2シリーズのMoE(Mixture-of-Experts)構造を継承しつつ、スパースアテンションを導入した次世代言語モデルです。
M2は全体で229.9億パラメータを持ちながら、1トークンあたり約9.8億パラメータのみを活性化することで計算効率を大幅に向上させました。MiniMax M3ではさらに、MiniMax Sparse Attention(MSA)を採用し、ブロック単位でキー・バリューを選択することで、従来の全結合注意機構(quadratic scaling)を突破しました。
MSAの導入により、MiniMax M3は1ミリオントークンの長文でも15.6倍の高速化を実現したのです。とくに、単に速度を上げるだけでなく、長文のコンテキストを保持しながら推論できる点に注目が集まっています。
MiniMax Sparse Attention(MSA)の仕組みと利点

1. MSAの基本構造
MSAは、従来のGQA(Grouped Query Attention)バックボーンをベースにしながら、ブロックレベルでの選択を行います。 具体的には入力シーケンスを固定長ブロックに分割し、各ブロック内でのみ注意操作を実施することで、キー・バリューの圧縮を行わずにスパース化を達成します。
2. 速度と精度の両立
MSAによるブロック選択は実数のキー・バリューをそのまま使用するため、圧縮による精度低下を回避します。さらに、注目していただきたいのが以下のポイントです。
- prefilling段階で9.7倍の遅延削減
- decoding段階で15.6倍の速度向上
- 1Mトークンでの処理が可能
MSAなら長期的な対話やドキュメント解析などで、リアルタイム性と高精度を両立させられるのです。
15.6倍高速化を実現した長文処理性能

MiniMax M3が高速化の理由は、「decoding phase」にあります。 従来のLLMは各トークンを生成する際に過去すべてのトークンを再評価していました。そのため、長文になるほど計算量が指数関数的に増大していたのです。
一方、MSAはブロック単位での注意を行うことで、必要な情報だけを効率的に参照します。その結果、再計算のコストを大幅に削減できるのです。
実際のベンチマーク
1Mトークンの長文の場合、M3はM2に比べて15.6倍の応答速度を達成しました。
具体的には、従来1分かかっていた長文要約が、MiniMax M3では約3.8秒で完了するというケースも報告されています。この高速化はエンタープライズ向けの大規模データ解析や、リアルタイムのレポート生成、金融取引の自動化など、さまざまなビジネスの場で役立つでしょう。
M2からM3へ:技術的進化と設計のポイント

M2は「全結合注意を全層で採用」し、MoEを活用して計算コストを抑えるという戦略を取っていました。 しかし、サブクアドラティック(sub-quadratic)手法を試みた結果、長距離の多段階推論が弱化することが判明したのです。そこでMiniMaxは、GQAベースのスパースアテンションに切り替えることで、計算量を削減しつつ推論性能を維持するという設計方針を採用しました。
MiniMax M3の主な設計ポイントは以下の通りです。
- ブロックレベル選択(MSA)でスパース化を実現
- 全結合注意の代わりにGQAを使用し、計算コストを削減
- MoEの専門家数を増やし、パラメータ効率を向上
- トレーニング時のロードバランシングをシグモイドゲーティングで最適化
これらの技術的進化により、「1Mトークンを高速に処理しつつ、長距離推論を維持する」という課題を解決しました。
まとめ:エージェント開発へのインパクトと今後の展望

MiniMaxはM3を単なる言語モデルではなく、AIエージェントのプラットフォームとして位置付けています。 M2で開発された「Forge」や「interleaved thinking」プロトコルは、エージェントが自己学習・自己修正を行うための基盤となっています。
MiniMax M3の高速化により、エージェントは以下のような新機能を実現可能です。
- 1秒以内のレスポンスで、複雑なドメイン知識を活用した意思決定
- 大規模データセットをリアルタイムで解析し、即座にレポート作成
- 長期的なタスク管理(数百ステップ)を低遅延で実行
将来的には、MiniMax M3をベースにした「MiniMax Agent Suite」が、金融、ヘルスケア、ロジスティクスなど多様な業界での自動化を推進すると期待されています。


