本記事では、実際に触ってみたPhi-4とGemma3などのオープンソースの言語モデルを比較し、その特徴や性能をわかりやすくまとめました。
今すぐ使える言語モデルはどれ?オープンソースLLMレビュー

オープンソースの言語モデルは、次から次へと新作が発表され、市場はまさに群雄割拠の状態です。読者から「どれを使うべきか」という問い合わせが多いのも当然でしょう。ここでは、最近試したモデルを比較しながら、その特徴をご紹介します。
各オープンソースのLLMに試した問題
「ある満月の夜、空を見上げると、月のすぐそばに火星が見えた。その時、地球と火星の距離は遠いのか近いのか?」という問題に正しく答えられるかを調べました。
正解:地球と火星は「比較的近い」距離にあると考えられます。
その理由として、満月は太陽・地球・月がほぼ一直線に並んでいる状態で起こりますが、さらに月のすぐ近くに火星が見えるということは、火星も太陽と反対側(地球の夜側)付近に位置している可能性が高いからです。これは「衝(しょう)」と呼ばれる現象に近く、地球と火星は太陽を挟まない形で向き合うため、両惑星が最も近づく時期となるのです。
DeepSeek「r1-1776」

- パラメータ数:70b
- 必要メモリ:43GB
- 特徴:考えるプロセスは中国語で行われ、中国共産党の意向が色濃く反映される可能性があります。台湾問題や天安門事件のような政治的にセンシティブな話題では中立を欠く返答をする場合も。
- 回答例:「地球と火星の距離」問題に対し正しい解答を導き出せますが、数分かかるなど処理速度は遅め。
- 総評:バイアスや速度面でサービス導入には不向きと判断。ただし、回答精度そのものは高いです。
アリババ「qwq」

- パラメータ数:32b
- 必要メモリ:20GB
- 特徴:DeepSeekほど政治的バイアスは強くないものの、考える過程で中国語を使うことがあります。
- 回答例:「地球と火星の距離」問題に対しては曖昧な返答で、正確な回答には至らず。
- 総評:中国寄りのバイアスは多少あるものの、実用性はまずまず。正確性より汎用性を重視するなら検討の余地あり。
Meta「llama3.3」

- パラメータ数:70b
- 必要メモリ:43GB
- 特徴:MacBook Proのような個人環境では速度が問題となる。Metaはさらに大規模なモデル(llama3.1 405b)に注力している様子。
- 回答例:「地球と火星の距離」問題に対し、最初は「近い」とだけ回答。追加質問でようやく正確な説明を提示した。
- 総評:回答精度は高いが、動作環境やスピードの面で扱いにくい。
Microsoft「phi4」

- パラメータ数:14b
- 必要メモリ:9.1GB
- 特徴:小規模でありながらスピードが速く、日本語能力も高い。MicrosoftがCopilot+ PCなどでの使用を前提に開発。
- 回答例:「地球と火星の距離」問題では正確な回答を素早く出せる。p5.jsによる魚群シミュレーションコードも一発で動くほどの完成度。
- 総評:小規模モデルとしては非常に優秀で、サービス運用にも向いている。
Google「gemma3」

- パラメータ数:27b
- 必要メモリ:17GB
- 特徴:Googleが最新発表した小規模モデル。Geminiシリーズと同様のアーキテクチャを持つ。
- 回答例:「地球と火星の距離」問題に対しては、短時間で正確な答えを提示。
- 総評:phi4と肩を並べるほど優秀で、実用スピードも十分。p5.jsのコード生成では若干不十分な面があったが、トータルでは高評価。
オープンソースLLMレビュー:まとめ

まとめると、現在もっともおすすめなのはMicrosoftのPhi-4かGoogleのGemma3です。必要メモリは9.1GBと17GBとコンパクトながら、回答精度やスピードのバランスが取れている点が魅力的。以前は大規模なパラメータ数を持つモデルが優秀というイメージがありましたが、今や小規模モデルでも難易度の高い質問に答えられる時代になっています。
実際に「月と火星が空で接近して見える状況は、地球から見て火星がほぼ太陽の反対側に位置する会合のタイミング」という天文的知識までカバーしているのには驚かされます。とくにphi4が生成するコードは、小規模ながら実運用にも耐えうる品質です。予算や環境に合わせてモデルを選ぶ際、phi4かgemma3をまずは候補に入れてみるとよいでしょう。
出典)週刊Life is beautiful 2025年3月18日号