最新のオープンソースLLMの性能を徹底比較

AI活用ブログ
AI活用ブログ

2025年最新オープンソースLLMの性能・ライセンス徹底ガイド

近年、オープンソースの大規模言語モデル(LLM)が次々と公開され、研究者や開発者にとって注目を集めています。とくに2025年は、主要企業や研究機関から高性能なLLMが相次いでリリースされました。

本記事では、2025年に登場した代表的なオープンソースLLMの性能や特徴を比較し、それぞれのライセンス形態と商用利用の可否について解説します。


最近「社外に出せないデータで生成AIを使いたい」という相談をいただきます。ChatGPTの利用は社内で禁止されているそうです。セキュリティやコスト面が気になる企業には、社内のローカル環境で動かせる仕組みがあることはご存知ですか?
OpenAIのオープンなAIモデル「gpt-oss」も利用いただけます。

①Meta社 Llama 4

Meta社のLlama 4は2025年4月にリリースされた最新世代のLLMです。Llama 4シリーズではアーキテクチャにMixture-of-Experts(MoE)を採用し、テキストだけでなく画像入力にも対応するマルチモーダル機能を備えています。

Llama 4の主な特徴

Llama 4はMeta社が公開した最新世代のLLMで、アーキテクチャにMixture-of-Experts(MoE)を採用し、テキストと画像入力に対応するマルチモーダル機能を備えています。

モデルは2種類あり、総パラメータ1090億(アクティブ約170億)の「Scout」と、総パラメータ4000億(アクティブ約170億)の「Maverick」が存在します。Maverickは最大約100万トークン、Scoutはさらに長い1000万トークンものコンテキスト処理が可能とされ、大規模なドキュメントや複雑な対話履歴も一度に処理できます。

Llama 4の性能

Meta社は一部ベンチマークでLlama 4がOpenAIのGPT-4oを上回ったと発表しています。とくに「LMArena」評価ではGPT-4oを凌駕したとされますが、これは会話最適化された非公開版での結果であり、公開モデルとの差異が指摘されています。

とはいえ4000億パラメータ級モデルをオープン提供した点は画期的で、コード生成や数学問題など幅広い領域でGPT-4に迫る高い実力を発揮しています。

Llama 4のライセンスと商用利用

Llama 4はMeta独自の「Community License」で提供されます。月間アクティブユーザー7億人を超えるサービスでの商用利用は制限されているため、別途許諾が必要です。

また、出力を他モデルの学習に用いることは禁止されており、中小規模の開発者にとっては利用しやすい一方、大規模プラットフォーム企業には制約が課される仕組みになっています。

②Mistral AI社 Mistral Small 3.2

2025年6月に公開されたMistral Small 3.2はパラメータ数240億の比較的小型なモデルですが、独自の最適化により非常に高効率かつ高性能を実現しています。

Mistral Small 3.2の主な特徴

Mistral Small 3.2はフランスのMistral AI社が公開したパラメータ数240億の中型モデルです。前身のMistral 3.1はLlama 3.3(700億パラメータ)と同等の品質を示しつつ応答速度で勝る性能を持っていました。

3.2では指示追従性や安定性が改善され、関数呼び出しの信頼性も向上。HumanEvalベンチマークで正解率92.90%を達成し、プログラミング性能も強化されています。最大128kトークンの長文脈処理と画像入力対応も備え、RAGやマルチモーダルエージェント用途にも適しています。

Mistral Small 3.2の性能

3.1からの改良により、無限ループ的応答の緩和や指示従順度の向上が確認されています。さらに軽量ながらOpenAI GPT-4o miniと比べても品質と応答速度で優位性を持ち、効率性と性能の両立が特徴です。

Mistral Small 3シリーズのライセンスと商用利用

Apache 2.0ライセンスで公開され、商用・非商用問わず自由に利用可能です。改変や再配布も制限されないため、中小企業やスタートアップにとってコスト効率の高い選択肢となっています。

③Google DeepMind社 Gemma 3

Google DeepMindのGemma 3ファミリーは、2025年中頃に登場したオープンモデル群です(Gemma 3自体の発表は2025年春)。GemmaシリーズはGoogle社内の最先端モデル「Gemini」の技術を活用しつつ、軽量で効率的なモデルとして設計されています。

Gemma 3の主な特徴

Gemma 3はGoogle DeepMindが公開したオープンモデル群で、軽量かつ効率性を重視した設計です。テキストに加えて画像入力に対応するマルチモーダルモデルで、パラメータ規模は2.7億〜270億まで複数ラインナップ。最大モデルでも単一GPU/TPUでリアルタイム動作可能な効率性を実現しています。

コンテキスト長は最大128kトークン、多言語対応は約140言語と広範囲で、翻訳や国際的なQAシステムに適しています。モバイル向け「Gemma 3n」も提供され、エッジデバイスでも利用可能です。

Gemma 3の性能

270億モデルは14兆トークンで訓練され、同規模の他モデルを上回る効率性を発揮。テキスト生成、要約、推論に加え、画像分析や説明も可能です。Googleは効率と精度の両立を強調しており、開発者コミュニティから高い評価を受けています。

Gemma 3のライセンスと商用利用

「Gemma License」というGoogle独自のライセンスで提供され、商用利用は可能ですが、Googleが不正利用を検知した場合に利用を停止する権利を保持しています。中小規模の利用には大きな問題はありませんが、ミッションクリティカルな用途ではリスク管理が求められます。

④Alibaba社 Qwen 3

中国Alibaba Cloud(阿里云)が2025年4月に公開したQwen 3シリーズは、「ハイブリッド推論」能力を特徴とする最新世代のオープンソースLLMです。

Qwen(通義千問)シリーズは元々2023年に始まったファミリーですが、Qwen 3では0.6億から2350億パラメータまで合計8種類(Mixture-of-Expertsモデル2種+通常の密結合モデル6種)のモデルが一挙に公開されました。

Qwen 3の主な特徴

Alibaba Cloudが公開したQwen 3シリーズは、0.6億〜2350億パラメータまで8種類のモデルを一挙公開した大規模ファミリーです。MoEと密結合モデルが含まれ、フラッグシップのQwen3-235B-A22Bはコード生成や数学タスクで最先端モデルに匹敵。思考モードを切り替え可能な「ハイブリッド推論」が特徴で、迅速な応答と段階的な内省型推論を使い分けられます。

Qwen 3の性能

複雑な課題では思考モードを活用し精度を向上、簡単な質問には高速応答する柔軟性を持ちます。119言語で学習され、翻訳や多言語QAに強みを発揮。36兆トークン規模の学習データを背景に、中国国内では最強クラスのオープンモデルと評価されています。

Qwen 3のライセンスと商用利用

Apache 2.0ライセンスで提供され、商用利用・改変・再配布が自由です。Alibabaは公式に商用利用を認め、Hugging Faceなどで重みを配布しています。なお一部高度モデルは規制のためAPI限定ですが、全体として純粋なオープンソースとして世界的にも注目されています。

⑤DeepSeekチーム DeepSeek-R1

DeepSeek-R1DeepSeek-R1は、2025年初頭にDeepSeekと呼ばれる研究チーム(おそらく中国発のスタートアップ)から公開されたオープンソースLLMです。厳密にはリリース時期が2025年1月末と上記期間よりやや早いですが、性能・ライセンス面で特筆すべきモデルのため本比較に含めます。

DeepSeek-R1の主な特徴

DeepSeekチームが公開したオープンソースLLMで、論理的推論力を強化するため独自の強化学習「GRPO」を導入。ベースモデルはMoE構造のDeepSeek-V3で、自己検証型の学習を通じて高度な思考力を獲得しました。

DeepSeek-R1の性能

AIME 2024で79.8%の高スコアを記録し、GPT-4やClaudeを上回る結果を示しました。MATH-500やSWE-benchでもOpenAIの推論特化モデル「o1」に匹敵し、「GPT-4並みの推論力を持つ初のオープンLLM」として注目されました。また、小型モデルへの知識蒸留にも活用され、オープンコミュニティ全体の性能向上に寄与しています。

DeepSeek-R1のライセンスと商用利用

当初はMITライセンスで公開され、現在はApache 2.0に移行。商用利用や改変・再配布が完全に自由で、企業によるサービス組み込みも可能です。実際にR1を基盤とした小型モデルがコンテストに登場するなど、幅広い応用が進んでいます。

⑥OpenAI gpt-oss-120b / gpt-oss-20b

OpenAIが2025年8月5日にリリースしたgpt-ossシリーズは、完全オープンなApache 2.0ライセンスで提供され、商用・非商用問わず自由に利用できる点が大きな特徴です。ラインナップには、大規模な「gpt-oss-120b」と軽量な「gpt-oss-20b」が用意され、幅広い利用環境に対応しています。

gpt-ossの主な特徴

gpt-oss-120bは約1170億パラメータを持つMixture-of-Experts(MoE)構造のモデルで、最大128Kトークンの長文脈処理が可能です。計算効率の高さから、単一の80 GB GPU上でも動作できるよう最適化されています。

一方、gpt-oss-20bは約210億パラメータの軽量モデルで、16 GBメモリを搭載したノートPCやスマートフォンでも動作可能な省リソース設計が採用されています。

gpt-ossの性能

性能面では、gpt-oss-120bがOpenAIの自社モデル「o4-mini」に匹敵する実力を示し、数学(AIME 2024/25)、一般問題(MMLU、HLE)、コード生成(Codeforces)、医療情報(HealthBench)といった多様なベンチマークで高い評価を獲得しました。

また、gpt-oss-20bも「o3-mini」と同等、あるいはそれ以上の性能を発揮しており、小規模環境でも先端的なAI処理を可能にしています。

gpt-ossシリーズのライセンスと商用利用

完全オープンなApache 2.0ライセンスで提供され、商用・非商用問わず自由に利用できる点が大きな特徴です。

⑦Microsoft Phi-4 ファミリー

Microsoft Researchが開発したPhi-4シリーズは、軽量かつ高効率でありながら高度な推論性能を備えたオープンソースLLMファミリーです。MITライセンスの下で公開されており、商用利用にも制限がなく、研究用途から実サービスまで幅広く導入が可能です。

Phi-4(基本モデル)

Phi-4は14Bパラメータ規模の基盤モデルで、コンテキスト長は16kトークンに対応しています。合成データや高品質なパブリックドメインデータ、学術書・Q&Aを組み合わせたデータセットでトレーニングされ、SFT(教師あり微調整)とDPO(直接的選択最適化)により安全性と指示追従性を強化。MMLU(84.8)、MATH(80.4)、HumanEval(82.6)といったベンチマークで高い性能を記録しており、汎用モデルとして優れた基盤を提供します。

Phi-4-Reasoning / Phi-4-Reasoning-Plus

推論特化型のモデル群で、前者はPhi-4をベースにSFTで調整されたもの、後者はさらにRLを導入して強化されています。AIMEや科学分野の難問ベンチマークにおいて、DeepSeek-R1系の大規模モデルを上回る性能を発揮。計算資源の限られた環境でも高い推論力と効率を両立できる点が強みです。

Phi-4-Mini-Reasoning

3.8Bパラメータの軽量モデルながら、128kトークンという超長文脈処理に対応。DeepSeek-R1などの高性能モデルからの蒸留と合成データを活用することで、小型ながら高度な数学推論能力を実現しています。教育用途やモバイル・エッジ向け推論アプリケーションに適しており、省リソース環境でも活躍します。

Phi-4-Mini-Instruct

同じく3.8Bパラメータ・128kトークン対応の軽量モデルですが、こちらは指示追従性能を重視した設計です。合成データとパブリックドメインデータを用いたSFT・DPOによって安全性と安定性が高められ、MMLU-Pro、GPQA、ARC、BoolQなど多様なベンチマークで、Llama 3.2-3BやMistral-3Bなどの同規模モデルに競合あるいは優位な成績を収めています。

ライセンスと商用利用

Phi-4ファミリーはすべてMITライセンスで公開されており、商用利用に制限はありません。軽量から推論特化まで幅広いバリエーションを持つため、教育分野からエッジ環境、研究開発、商用アプリケーションまで幅広い用途に展開できるのが特徴です。

オープンソースのLLMモデルの比較表

以下の表に、各モデルの主な特徴、性能面のポイント、ライセンス形態、および商用利用可否をまとめます。

モデル名(公開元)主な性能・特徴ライセンス形態(制限)商用利用
Llama 4(Meta)MoE構造、最大10Mコンテキスト、画像対応、GPT-4級の性能Community License(重い制限あり:7億MAU超は要許諾、流用制限あり)制限付き
Mistral Small 3.224B、画像対応、128K長文、優れた応答・コード生成性能Apache 2.0(制限なし)可能
Gemma 3(Google DeepMind)最大27B、画像対応、128K長文、多言語対応、効率良好Gemma License(Googleが利用停止可能)条件付き (実質可)
Qwen 3(Alibaba)0.6B~235B MoE、ハイブリッド推論モード、119言語対応、最先端性能Apache 2.0(制限なし)可能
DeepSeek-R1(DeepSeek)MoEベース、RL強化で推論力高、数学・コード性能GPT-4超、蒸留応用も成功MIT(制限なし)可能
gpt-oss-120b / 20b(OpenAI)MoE構造、20B/117B規模、128K長文、ツール対応、超高効率&高性能Apache 2.0(制限なし)可能
モデル名(公開元)特性・性能概要ライセンス形態商用利用
Phi-4(Microsoft)14B、16K文脈、数学・コード・推論性能高 → MMLU 84.8/HumanEval 82.6などMIT ライセンス(完全寛容)
Phi-4-Reasoning / Plus推論特化、AIME や科学難問で 70B/671B の大モデルを上回る性能MIT(完全寛容)
Phi-4-Mini-Reasoning3.8B、128K文脈、小型・省資源ながら数学推論◎MIT(完全寛容)
Phi-4-Mini-Instruct3.8B、128K文脈、指示追従・多ベンチマークで高性能MIT(完全寛容)

まとめ: オープンソースLLM

急速に進化するLLMのオープンソース領域では、性能と実用性で選択肢が広がる一方、ライセンスの内容にも注意が欠かせません。技術者や研究者は、自身のプロジェクトに適したモデルを性能面とライセンス面の双方から検討することが重要です。それぞれのモデルの特色を踏まえ、オープンソースLLMを賢く活用していきましょう。

↑↑↑
この記事が参考になりましたら、上の「参考になった」ボタンをお願いします。

会社ではChatGPTは使えない?情報漏洩が心配?

ある日本企業に対する調査では、72%が業務でのChatGPT利用を禁止していると報告されています。社内の機密情報がChatGPTのモデルに学習されて、情報漏洩の可能性を懸念しているためです。

そのため、インターネットに接続されていないオンプレミス環境で自社独自の生成AIを導入する動きが注目されています。ランニングコストを抑えながら、医療、金融、製造業など機密データを扱う企業の課題を解決し、自社独自の生成AIを導入可能です。サービスの詳細は以下をご覧ください。

いますぐサービス概要を見る▶▶▶
この記事をシェアする
監修者:服部 一馬

フィクスドスター㈱ 代表取締役 / ITコンサルタント / AIビジネス活用アドバイザー

非エンジニアながら、最新のAI技術トレンドに精通し、企業のDX推進やIT活用戦略の策定をサポート。特に経営層や非技術職に向けた「AIのビジネス活用」に関する解説力には定評がある。
「AIはエンジニアだけのものではない。ビジネスにどう活かすかがカギだ」という理念のもと、企業のデジタル変革と競争力強化を支援するプロフェッショナルとして活動中。ビジネスとテクノロジーをつなぐ存在として、最新AI動向の普及と活用支援に力を入れている。

タイトルとURLをコピーしました