推論モデルはインフラを減らすのか、増やすのか?
近年、AIの進化速度は驚異的で、特に高性能な推論モデルの登場がその勢いを加速しています。しかし、「GPUの需要が減るのでは?」という予測とは裏腹に、実際にはGPUインフラがさらに重要視されている事実をご存じでしょうか。
本記事では先進的な推論モデル「DeepSeek-R1」のインパクトや、Together AIが取り組むエンタープライズ向けAIインフラソリューションを解説。AI活用を検討する企業にとって必見の内容で、コストや性能最適化のヒントを得られるでしょう。読み進めれば、あなたが直面している疑問に共感しつつ、具体的な解決策を見いだせるはずです。
Together AI、総額3億500万ドルの大型調達に成功
Together AIは、VC大手のGeneral CatalystおよびProsperity7の共同リードのもと、シリーズBラウンドで3億500万ドル(約305億円)の資金調達を行いました。
創業当初の2023年は主にオープンソースの大規模言語モデル(LLM)のエンタープライズ導入を簡素化するサービスを提供していましたが、2024年にはVPC(仮想プライベートクラウド)やオンプレミス環境へのAI展開をサポートする「Togetherエンタープライズプラットフォーム」を拡充。2025年には推論クラスタやエージェンティックAI機能など、さらに幅広いAIインフラを提供することで事業を拡大しています。
同社の顧客層にはエンタープライズ企業だけでなく、Krea AIやCaptions、Pika LabsといったAIスタートアップが含まれ、登録開発者数は45万人を超え、前年比6倍という高い成長率を誇っています。
DeepSeek-R1がGPU需要を逆に増やす理由

1 「より少ないインフラで高性能」という期待と実際のズレ
DeepSeek-R1はオープンソースの推論モデルとして登場時に「大がかりなインフラを必要としないかもしれない」という期待を集めました。しかし、Together AIのCEOであるVipul Prakash氏によれば、実際にはDeepSeek-R1の推論には大規模なリソースが必要となっており、結果としてGPU需要が増大しているといいます。
2 6,710億パラメータがもたらす膨大な負荷
DeepSeek-R1は6,710億ものパラメータを持つ巨大モデルであり、複数サーバーにまたがって分散させなければ十分な推論速度を実現できません。さらにモデルの品質が高いため利用者が増え、その分だけ推論リクエストも増加する好循環(あるいは悪循環)が生まれています。
また、一度の推論リクエスト自体が数分に及ぶケースもあるため、他のモデル以上に推論インフラが圧迫されるという特徴があります。
3 「推論クラスタ」で需要に応える
Together AIはこの需要を満たすために、128~2,000個ものGPUチップをまとめて提供する「推論クラスタ」サービスを展開しています。高品質な推論を実現するための専用リソースをスケールアウト/スケールアップすることで、企業が最適なパフォーマンスを得られるようサポートしているのです。
Reasoningモデル活用の主要ユースケース
DeepSeek-R1のような推論(Reasoning)モデルは、通常の大規模言語モデルにはない特性を活かし、さまざまな分野で活用されています。Together AIによれば、主に以下のような用途が注目を集めています。
- コーディングエージェント
大きな問題を複数のステップに分解し、段階的にコードを生成・修正していくタスクで大きな効果を発揮。 - 幻覚(Hallucination)の抑制
推論プロセスが明示的に経過を検証するため、誤った情報を生成しにくくなり、精度が求められるアプリケーションに向いている。 - 既存モデルの性能向上
Reasoningモデルを使った蒸留や補助プロセスによって、従来型のLLMでも精度と効率を高められる。 - 自己改善(Self-Improvement)
Reasoningモデル同士で強化学習を行い、大量の人手ラベルを使わずともモデルを自己改良できる可能性を秘めている。
エージェンティックAIとインフラ需要のさらなる拡大
エージェンティックAIがもたらす膨大なAPIコール
単一のユーザーリクエストから数千回ものAPIコールが発生するエージェンティックAIのワークフローは、GPUを含むAIインフラに大きな負荷をかけます。これにより、Together AIが運用するクラウド基盤でもさらなるリソース拡張が必要になっているのが現状です。
CodeSandboxの買収で高速なVMを実現
Together AIは軽量で高速起動可能なVM技術をもつCodeSandboxを買収しました。推論モデルが動作する環境内でセキュアかつ任意のコードを低レイテンシで実行できるようになり、エージェンティックAIの高頻度なAPIコールの処理効率を大きく向上させています。
Nvidia Blackwellによるパフォーマンス向上

最新GPUのBlackwellがもたらす恩恵
Nvidiaは常に新世代のGPUを投入しており、Together AIも最新のBlackwellチップをいち早く導入しています。Blackwellは前世代より25%程度高価であるものの、推論および学習性能が2倍とされており、特に複数のInfiniBand接続サーバーをまたぐMixture of Expert(MoE)モデルに対して優位性を持つといわれています。
大規模モデル推論への強力なサポート
小規模モデルよりも大規模モデルの推論においてBlackwellチップはさらに性能を発揮するとされ、DeepSeek-R1のような超大規模モデルとの相性が期待されています。
激化するAIインフラ競争の中での優位性
AIインフラ分野は、MicrosoftやAWS、Googleといったハイパースケーラーだけでなく、GroqやSamba NovaといったAI特化型スタートアップも参入しており、競争は激化の一途をたどっています。
その中でTogether AIは、GPUベースのハードウェアから推論・学習を最適化するソフトウェアまでをフルスタックで提供。オープンソースモデルの運用支援や独自モデル開発の両面を容易にしつつ、研究開発面でも高速推論技術や効率的な学習環境を追求しています。
Prakash氏によれば、Azure上でのDeepSeek-R1推論が毎秒7トークン程度なのに対し、Together AIでは85トークン程度を達成しているとのことで、性能とコスト両面で大きなアドバンテージがあるとアピールしています。
まとめ
DeepSeek-R1が象徴するように、推論モデルの高度化はインフラ需要を着実に押し上げています。Together AIはこの需要を「推論クラスタ」やエージェンティックAI対応の高速VMをはじめとする新サービスで支えつつ、Nvidiaの最新GPUを活用することで高性能なAIプラットフォームを提供しています。ITインフラやAIの導入を検討している企業にとって、GPU需要の高まりは一時的なブームではなく、これからの戦略を考える上で見逃せない潮流となるでしょう。